- SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。 それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 02:50:22 GMT) - LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
- リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)
月: 2024年2月
Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent
- Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。 私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 09:59:52 GMT) - ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い(full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと)
- リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)
A Survey of Table Reasoning with Large Language Models
- A Survey of Table Reasoning with Large Language Models [55.2]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。 本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (Tue, 13 Feb 2024 07:17:52 GMT) - LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
- ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を 引き出すことが重要という感じなんだろうか。
AYA datasetとAYA model
多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI
- Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (Fri, 9 Feb 2024 18:51:49 GMT) - リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
- Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 17:34:13 GMT) - リポジトリはCohereForAI/aya-101 · Hugging Face
OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)
コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 07:29:22 GMT) - OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
- リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 15:40:35 GMT) - Microsoftによるエージェント。GPT-Visionを活用する方式。
- リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)
SORAとGemini-1.5
先週話題となったニュースにテキストからのビデオ生成モデルであるOpenAIのSORA、極めて長いテキストを扱えるGoogleのGemini 1.5がある。両発表とも技術が一段進化した感がある。
Reka(Reka Flash: An Efficient and Capable Multimodal Language Model – Reka AI)のようなチャレンジャーも出てきていてニュースが多い。
- Video generation models as world simulators
私たちはAIに、動作中の物理世界を理解し、シミュレートするように教えています。ビデオと画像の潜在コード上の時空間パッチを扱うトランスフォーマーアーキテクチャを活用しています。Soraは、視覚的品質とユーザのプロンプトへの固執を維持しながら、最大1分間のビデオを生成することができる。 - Sora (openai.com)
- Video generation models as world simulators (openai.com)
- 既存研究(例えばLumiere – arXiv最新論文の紹介 (devneko.jp)、Lumiere (lumiere-video.github.io)やMagicVideo-V2: Multi-Stage High-Aesthetic Video Generation (magicvideov2.github.io))もすごかったが、本件は生成可能な動画の長さと自然さでかなり進んでいる印象。
- Gemini 1.5: Unlocking multimodalunderstanding across millions of tokens ofcontext
Gemini 1.5 Proは、きめ細かい情報をリコールして推論できる計算効率の高いマルチモーダル混合モデルである。モダリティ間の長いコンテキスト検索タスクのほぼ完璧なリコールを実現する。Gemini 1.0 Ultraの最先端のパフォーマンスを、幅広いベンチマークで比較または上回る。 - 長文を扱える能力が高くTF-IDF での検索+re rankを行うパイプライン構成をとった場合を大きく超える性能。そして、旧Twitterでも紹介されていた「With only instructional materials (500 pages of linguistic documentation, a dictionary, and ≈ 400 parallel sentences) all provided in context, Gemini 1.5 Pro is capable of learning to translate from English to Kalamang, a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua2, and therefore almost no online presence.」が衝撃的。
- gemini_v1_5_report.pdf (storage.googleapis.com)
ReadAgent
- A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [38.3]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。 人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。 本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 05:40:21 GMT) - 人が長文を読むように一定チャンクごとに要点を保持するGistメモリを使用する方法を提案。ベンチマークで効果を確認とのこと。(BM25って結構優秀だなと別のところも気になった。)
- リポジトリはA Human-Inspired Reading Agent with Gist Memory of Very Long Contexts (read-agent.github.io)
Knowledge Fusion of Large Language Models
- Knowledge Fusion of Large Language Models [73.3]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。 我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。 この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (Mon, 22 Jan 2024 17:16:37 GMT) - リポジトリはfanqiwan/FuseLLM: ICLR’2024: Knowledge Fusion of Large Language Models (github.com)
History, Development, and Principles of Large Language Models-An Introductory Survey
- History, Development, and Principles of Large Language Models-An Introductory Survey [48.3]
自然言語処理(NLP)の基盤となる言語モデル 数十年にわたる広範な研究を経て、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
論文 参考訳(メタデータ) (Sat, 10 Feb 2024 01:18:15 GMT) - 言語モデルの歴史を振り返るサーベイ
- 歴史を振り返るにはよい資料でありつつ、それは言語モデルなのか?というつっこみがはいりそうな話題もある(LLMまでの歴史であれば特に問題はないのかな)
Data Engineering for Scaling Language Models to 128K Context
- Data Engineering for Scaling Language Models to 128K Context [98.4]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。 長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。 我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 18:19:16 GMT) - 長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。
- リポジトリはFranxYao/Long-Context-Data-Engineering: Implementation of paper Data Engineering for Scaling Language Models to 128K Context (github.com)