- CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文 参考訳(メタデータ) (Thu, 14 Dec 2023 13:20:57 GMT) - GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
- リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
タグ: LLM
LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem
- LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 18:50:26 GMT) - LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。
Multimodal Large Language Models: A Survey
- Multimodal Large Language Models: A Survey [36.1]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。 本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。 実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。 最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 05:15:12 GMT) - マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。
TaskWeaver
- TaskWeaver: A Code-First Agent Framework [51.8]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。 ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。 リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (Fri, 1 Dec 2023 07:42:56 GMT) - ChatGPT + Advanced data analyticsのような動作をするフレームワークの提案。リポジトリにあるビデオが分かりやすい。
- リポジトリはGitHub – microsoft/TaskWeaver: A code-first agent framework for seamlessly planning and executing data analytics tasks.
Competition-Level Problems are Effective LLM Evaluators
- Competition-Level Problems are Effective LLM Evaluators [124.8]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。 驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (Tue, 5 Dec 2023 03:44:19 GMT) - LLMのデータ汚染問題を検証するためにCodeforceの問題を利用。「We find a significant decrease in perceived performance of GPT-4 on unseen problems, consistent across a range of difficulties, problem types, and experimental settings.」という結果でなかなか衝撃的。
- 別の検証でも似たような指摘はあったし、Geminiのテクニカルレポートでも「 Evaluation on these benchmarks is challenging and may be affected by data contamination.We performed an extensive leaked data analysis after training to ensure the results we report here are as scientifically sound as possible, but still found some minor issues and decided not to report results on e g LAMBADA (Paperno et al , 2016).(gemini_1_report.pdf (storage.googleapis.com))」という指摘がある。正しい評価は難しい。
Gemini
先週の大きな話題としてGeminiの発表があった。非常に性能の高いマルチモーダルなLLM
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに (googleblog.com)
動画もテクニカルノート(gemini_1_report.pdf (storage.googleapis.com))の興味深いが、「We trained two versions of Nano, with 1.8B (Nano-1) and 3.25B (Nano-2) parameters, targeting low and high memory devices respectively.」という3B程度ではNano扱いというのもびっくり。BERT LARGEの10倍の規模なんだけど…と思うと進化の速さがよくわかる。
OneLLM
- OneLLM: One Framework to Align All Modalities with Language [90.1]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 18:59:19 GMT) - マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
- リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language
mPLUG-PaperOwl
- mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model [73.4]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 04:43:26 GMT) - 学術論文の図表を含むドキュメントを読解するためのデータ・モデルの提案、latexが取れるというのも大きいのだろうけど、分野特化は非常に有効に見える
- リポジトリはmPLUG-DocOwl/PaperOwl at main · X-PLUG/mPLUG-DocOwl · GitHub
MEDITRON-70B
- MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.3]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (Mon, 27 Nov 2023 18:49:43 GMT) - 医療特化型の大規模言語モデルの提案。最初のページの図が規模としても時間感覚としても分かりやすい。様々な評価がされているのでドメイン特化型の効果も把握できる。
- リポジトリはGitHub – epfLLM/meditron: Meditron is a suite of open-source medical Large Language Models (LLMs).
AlignBenchとCRITIQUELLM
中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsとGitHub – thu-coai/CritiqueLLM
データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。
- AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 17:41:30 GMT)
- CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 16:52:42 GMT)