- Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。 具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。 我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。 人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
論文 参考訳(メタデータ) (Tue, 5 Mar 2024 17:56:27 GMT) - WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
- MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
- リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)
タグ: LLM
Divide-or-Conquer? Which Part Should You Distill Your LLM?
- Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.6]
我々は、推論タスクを問題分解フェーズと問題解決フェーズに分割する同様の戦略を考案し,この戦略が単一段階のソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (Thu, 22 Feb 2024 22:28:46 GMT) - 一回で答えを導くのではなく、問題を分解したうえでLLMに答えさせる戦略のほうが良い結果になるという報告。CoTなりToTなりSelf verificationなり、自律エージェント的動作の効果を見るとそうなんだろうと納得感がある。
- Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [80.5]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。 この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (Mon, 4 Mar 2024 19:12:48 GMT) - この論文も面白かった。複数のAPI call(LLM利用)によって性能が上がるかはタスクに依存するという内容。ただし、並列に動作する環境を想定しているようなので上記とは使い方がかなり異なる。
SheetRM & SheetAgent
- SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [42.7]
大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。 我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークであるSheetRMを紹介した。 さらに,LLMのパワーを利用した新しい自律エージェントであるSheetAgentを提案する。
論文 参考訳(メタデータ) (Wed, 6 Mar 2024 11:48:08 GMT) - Excelのようなスプレッドシートに対するエージェント的動作のベンチマークとエージェントの提案。SheetAgentはPlanner、Informer、Retrieverで構成されPlannerがPythonコード、InformerがSQLを作成するプログラムを介するタイプ。SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models (sheetcopilot-demo.github.io)より高性能と主張。本件で構築されたベンチマークSheetRM (Spreadsheet Reasoning and Manipulation Benchmark)に対してはSheetCopilotのスコアが悪く、汎用的なエージェントを作る難しさ(対象業務によってアプローチを選ぶ必要性)がよくわかる気がする。
- リポジトリはSheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models
Claude 3とYi
今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える(ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。)
Introducing the next generation of Claude \ Anthropic
Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。
- Yi: Open Foundation Models by 01.AI [42.9]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (Thu, 7 Mar 2024 16:52:49 GMT) - タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
- リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)
Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions
- Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [53.0]
LINGOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (Wed, 28 Feb 2024 03:44:01 GMT) - 形態素解析した結果と単語単位の辞書情報をLLMに入れることで未知の言語の翻訳ができたという論文。Geminiの事例を彷彿とさせ、LLMの指示理解力&高い言語能力が興味深い。
- リポジトリはLLiLab/llm4endangeredlang (github.com)
The (R)Evolution of Multimodal Large Language Models: A Survey
- The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 19:01:01 GMT) - マルチモーダルなLLMのサーベイ
- 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い
Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication
- Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [82.8]
自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。 本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
論文 参考訳(メタデータ) (Wed, 28 Feb 2024 16:07:54 GMT) - LLMへの指示やLLM間の通信で自然言語より優れた方式を検討した論文。AutoForm (Autonomously-Decided Format)という手法で自然言語ではないプロンプト形式を使うと優れた結果が得られるとのこと。また、Agent間コミュニケーションもトークン数が減って効率的になるという結果。「We also find that the communication formats generated by LLMs resemble traditional ACLs, offering both precision and efficiency」(ここでのACLはAgent Communication Languages)というのも非常に興味深い。
- リポジトリはthunlp/AutoForm: Code for paper “Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication” (github.com)
COMEDY:Commpressive Memory-Enhanced Dialogue sYstems
- Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [41.9]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 09:19:50 GMT) - 長い対話を効率多岐に扱うフレームワークの提案、よくあるretrieval basedなアプローチに比べ高いスコア。
- RAGも汎用では厳しく特化すると性能が上がる分野なんだろーなと思う。
- リポジトリはnuochenpku/COMEDY: This is the official project of paper: Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations (github.com)
Beyond Language Models: Byte Models are Digital World Simulators
- Beyond Language Models: Byte Models are Digital World Simulators [68.9]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。 これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。 シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 13:38:07 GMT) - テキストではなくバイトを扱うGPT系モデル。「 training models for next byte prediction can potentially lead to a paradigm shift in deep learning, allowing them to truly understand and simulate all activities in the digital world.」はそうだが熱すぎる。そして、それなりに動いていそうなのが興味深い。Sequential Modeling Enables Scalable Learning for Large Vision Models – arXiv最新論文の紹介 (devneko.jp)を思い出すアプローチ。
- リポジトリはBeyond Language Models: Byte Models are Digital World Simulators (byte-gpt.github.io)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models
- Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 09:36:05 GMT) - LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
- mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
- How do Large Language Models Handle Multilingualism? [87.1]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 02:55:26 GMT) - 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
- 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。