- Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.7]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。 我々は、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を異なるレベルの粒度の領域に分割し、これらの領域を一連のマークでオーバーレイする。 マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (Tue, 17 Oct 2023 17:51:31 GMT) - GPT-4Vに対するプロンプトテクニック、Set-of-Markの提案。速度勝負みたいなところもあるのだろうけど、論文出るの速すぎ・・・
- 「We show that simply overlaying a number of symbolic marks on a set of regions of an input image can unleash the visual grounding ability of GPT-4V.」とのこと。人間でも画像にガイドを入れるとタスクをやりやすくなるのでアイデアとしてはそうだろうと思うものの、広範な実験・検証はとても参考になる。
- プロジェクトサイトはSoM-GPT4V
日: 2023年10月23日
DocXChain
- DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。 テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 02:49:09 GMT) - Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
- リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub
オープンなLLM(LLM-jp-13B)、Transparency Index、Llemma、Lemur
130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ – 国立情報学研究所 / National Institute of Informatics
でApache-2の日本語対応(おそらく日英対応)LLMが発表された。ツール類も含めてオープンであり素晴らしい取り組み
LLMを含むFoundationModelのTransparencyレポートが Stanford HAIから出ている。Introducing The Foundation Model Transparency Index (stanford.edu)。OSSのものが一番とは限らない意外な結果だが、各指標が同じ重さだというのに無理がありそう。。
今週も特化型を含めてLLMの発表が複数あった。
- Llemma: An Open Language Model For Mathematics [48.3]
数学のための大きな言語モデルであるLlemmaを紹介します。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。 レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
論文 参考訳(メタデータ) (Mon, 16 Oct 2023 17:54:07 GMT) - Code Llamaを継続学習し、数学の能力を強化したLLM
- リポジトリはGitHub – EleutherAI/math-lm
- Lemur: Harmonizing Natural Language and Code for Language Agents [107.4]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。 我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。 自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (Tue, 10 Oct 2023 17:57:45 GMT) - コード生成能力が高いLLM、70BはCC-BY-NCで商用利用はできない。
- プロジェクトサイトはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents
- モデルはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents、リポジトリはGitHub – OpenLemur/Lemur: Lemur: Open Foundation Models for Language Agents