- Emu3: Next-Token Prediction is All You Need [45.1]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 16:06:11 GMT) - 「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
- リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends
- The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends [65.0]
会話分析(CA)は、会話データから重要な情報を発見し分析する。 本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。 会話シーンの再構築,奥行きの属性分析,ターゲットトレーニングの実行,会話の生成から,CAの4つの重要なステップを導出した。
論文 参考訳(メタデータ) (Sat, 21 Sep 2024 16:52:43 GMT) - 「Conversation analysis aims to identify critical information from human-human, humanmachine, machine-machine, and multi-party conversations, derive the underlying causes, and develop the solutions to drive relevant improvements for more effective goal achievement continuously, such as elevating customer experience, reducing complaint rate.」という定義の会話分析に関するサーベイ。
- 様々なタスクがあり、このような軸での分析も面白い。
Law of the Weakest Link: Cross Capabilities of Large Language Models
- Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (Mon, 30 Sep 2024 05:12:01 GMT) - 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
- リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”
HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (Tue, 24 Sep 2024 19:47:21 GMT) - AIエージェントの安全性を確かめるフレームワークの提案
- プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)
日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench
先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開(Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com))とLiquid AIによるLiquid Foundation Models (LFMs)の発表(Liquid Foundation Models: Our First Series of Generative AI Models)、Metaによる動画生成AI、Meta Movie Genの発表(Meta Movie Gen)だった。
1つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学 情報理工学院 情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。
2つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。
最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
(10/19追記) arXivに論文が出ていたので追加。
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:04:31 GMT) - 45か国をカバーする文化的ベンチマーク
- リポジトリはCulturalBench – a Hugging Face Space by kellycyy
- Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。 ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 16:22:46 GMT)
MinerU: An Open-Source Solution for Precise Document Content Extraction
- MinerU: An Open-Source Solution for Precise Document Content Extraction [63.0]
MinerUは、高精度な文書コンテンツ抽出のためのオープンソースのソリューションである。 我々は、MinerUが、様々なドキュメントタイプで一貫してハイパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 15:35:15 GMT) - 強力なコンテンツ抽出フレームワークの提案。パイプライン構成及び構成要素のチューニングなども参考になる。「Additionally, we will introduce new models, such as table recognition and reading order, to enhance MinerU’s overall capabilities.」とある通り、順番認識は意外と難しい。ちょうど下記「Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding」論文が出ていた。
- リポジトリはGitHub – opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
- Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [34.0]
本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。 レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
論文 参考訳(メタデータ) (Sun, 29 Sep 2024 12:00:57 GMT) - リポジトリは https://github.com/chongzhangFDU/ROOR とのことだが現時点では404
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。 提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。 当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:53:30 GMT) - 最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。(GPT-4oはClaude 3.5より結果が悪かった)
- リポジトリはJustice or Prejudice? Quantifying Biases in LLM-as-a-Judge (llm-judge-bias.github.io)
Evaluation of OpenAI o1: Opportunities and Challenges of AGI / On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability
- Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.1]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。 このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。 総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 06:57:00 GMT) - OpenAI o1の詳細な検証。「Advanced Reasoning Capabilities: o1-preview demonstrated exceptional logical reasoning abilities in multiple fields, including high school mathematics, quantitative investing, and chip design」、「Domain-Specific Knowledge: The model exhibited impressive knowledge breadth across diverse fields such as medical genetics, radiology, anthropology, and geology.」、「It often performed at a level comparable to or exceeding that of graduate students or early-career professionals in these domains.」と高い行がされている。一方で「However, it still lacks the flexibility and adaptability of human experts in these fields.」、「It demonstrated the ability to capture complex expressions like irony and sarcasm, though it still struggles with very subtle emotional nuances.」という指摘も。
- 関わっている方も多く他分野からの詳細な検証結果、非常に参考になる。
- On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability [59.7]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (Mon, 30 Sep 2024 03:58:43 GMT) - 計画能力を対象としたo1の評価。GPT-4oと比べて優れているとのこと。
- 1. Understanding the Problem、2. Following Constraints、3. State and Memory Management、4. Reasoning and GeneralizationでFindingsがまとめられている。いずれも強力だが、3.については「as problem complexity increased, the model’s state management became less reliable, particularly in tasks involving spatial reasoning across multiple dimensions.」、4.については「While o1-preview showed some promise in its generalization ability, particularly in structured environments like Grippers, its performance in more abstract tasks like Termes revealed substantial limitations. The model struggled with reasoning under conditions where actions and outcomes were less directly tied to the natural language representation of the task, highlighting an area for future improvements.」という指摘も
- When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.1]
o1 は OpenAI の新しいシステムで,従来の LLM と異なり,推論に最適化されている。 多くの場合、o1 は従来の LLM よりも大幅に優れており、特に共通タスクの稀な変種に対して大きな改善が加えられている。 しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
論文 参考訳(メタデータ) (Wed, 02 Oct 2024 17:50:19 GMT) - 「On many of the tasks we considered, o1 performed substantially better than the LLMs we had previously evaluated, with particularly strong results on rare variants of common tasks. However, it still qualitatively showed both of the central types of probability sensitivity discussed in McCoy et al (2023): sensitivity to output probability and sensitivity to task frequency.」という指摘。
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
- Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning [78.4]
Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。 R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。 自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
論文 参考訳(メタデータ) (Wed, 02 Oct 2024 21:42:35 GMT) - 「We propose Reflective Monte Carlo Tree Search (R-MCTS), an extension of classic MCTS that improves the agent’s decision making process on the fly by incorporating reflection over its past task executions, and state estimations using multi-agent-debate」というタイプのモンテカルロ木探索の提案と、それによるSFTでベンチマーク結果を改善。ToTや単純なMCTSより優れた結果。
- リポジトリはjasonyux/RMCTS-self-learning · GitHub
Contextualized Data-Wrangling Code Generation in Computational Notebooks
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.3]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。 コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。 実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (Fri, 20 Sep 2024 14:49:51 GMT) - 「Data wrangling involves cleaning, structuring, and enriching raw data into a desired format for further analysis [96], such as by removing duplicates, casting types, and extracting features [17].」のためのコード合成を目指したデータセット構築とそれを利用したDataCoderの提案。DataCoderのアーキテクチャが「Data Encoder」 + 「Code + Text Encoder」 +「 Decoder」という構成、よく見られるLLM baseなアーキテクチャでないことも興味深い。
- リポジトリはGitHub – Jun-jie-Huang/CoCoNote: Source Code for ASE-24 paper “Contextualized Data-Wrangling Code Generation in Computational Notebooks”.