- LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。 マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (Wed, 17 Jul 2024 17:51:53 GMT) - マルチモーダルなLLM用のベンチマーク。LiveBenchではGPT4 TurboがGPT4oより高スコアとなっている。
- リポジトリはGitHub – EvolvingLMMs-Lab/lmms-eval: Accelerating the development of large multimodal models (LMMs) with lmms-eval、リーダーボードはLiveBench – a Hugging Face Space by lmms-lab
Very Large-Scale Multi-Agent Simulation in AgentScope
- Very Large-Scale Multi-Agent Simulation in AgentScope [115.8]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。 高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。 多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供する。
論文 参考訳(メタデータ) (Thu, 25 Jul 2024 05:50:46 GMT) - マルチエージェントシミュレーションを想定したフレームワークの提案、Apache 2ライセンスとOSS。使いやすそうなのと「Users only need to simply specify the distributions of the population from several aspects, a large number of agents with detailed and diverse characteristics can be effortlessly generated accordingly.」といった機能があるのも特徴的。
- リポジトリはGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.
A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication
- A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.9]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。 これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。 本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 09:46:02 GMT) - 「This survey provides a comprehensive overview of research on proactive and passive defenses against AI-generated visual media, covering the mainstream defense tasks of detection, disruption, and authentication, as well as their trustworthiness.」というサーベイ
OpenDevin
- OpenDevin: An Open Platform for AI Software Developers as Generalist Agents [109.9]
私たちは、人間の開発者と同様の方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenDevinを紹介します。 プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 17:50:43 GMT) - ソフトウエア構築の自動化を目指すCognition | Introducing Devin, the first AI software engineerのオープン版。様々なベンチマークでの評価や他手法との比較も興味深い。ベースモデルとしてはClaude 3.5 sonnetの優秀さが目立ち、Claude 3.5 Opusに期待大。
- リポジトリはGitHub – OpenDevin/OpenDevin: 🐚 OpenDevin: Code Less, Make More
DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems
- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 13:17:42 GMT) - 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
- リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems
KAN or MLP: A Fairer Comparison
- KAN or MLP: A Fairer Comparison [63.8]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。 パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。 我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 17:43:35 GMT) - 以前話題にあったKAN: Kolmogorov-Arnold Networks – arXiv最新論文の紹介 (devneko.jp)とMLPの比較、「We found that KAN can be seen as a special type of MLP, with its uniqueness stemming from the use of learnable B-spline functions as activation functions.」、「Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN.」と評価。
Open Problems in Technical AI Governance
- Open Problems in Technical AI Governance [93.9]
テクニカルAIガバナンス(Technical AI Governance)は、AIの効果的なガバナンスを支援するための技術分析とツールである。 本論文は、AIガバナンスへの貢献を目指す技術研究者や研究資金提供者のためのリソースとして意図されている。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 21:13:56 GMT) - technical AI governance (TAIG)の紹介、「Assessment, Access, Verification, Security, Operationalization, Ecosystem Monitoring」×「Data, Compute, Model and Algorithm, Deployment」のマトリクスによる整理で技術的にはしっくりくる。
- 当然ながら、オープンな問題は多い。
Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data
Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。
- Introducing Llama 3.1: Our most capable models to date (meta.com)
- Large Enough | Mistral AI | Frontier AI in your hands
Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。
上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。
下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。
- Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 23:13:42 GMT) - 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。
Are Large Language Models Capable of Generating Human-Level Narratives?
- Are Large Language Models Capable of Generating Human-Level Narratives? [114.3]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。 本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。 談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (Thu, 18 Jul 2024 08:02:49 GMT) - LLMに物語の理解が可能かの検証。検証しているモデルが若干古めではあるがGemini、Claudeのスコアが高め
- リポジトリはGitHub – PlusLabNLP/Narrative-Discourse
AlphaProof, AlphaGeometry2
AI achieves silver-medal standard solving
形式的数学推論のための新しい強化学習システムであるalphaproofと,改良されたジオメトリシステムであるalphageometry 2を提案する。これらのシステムは6つ問題のうち4つを解決し今年の国際数学オリンピック(IMO)で、初めて銀メダリストと同じレベルを達成した。IMOは、1959年以来毎年開催される若手数学者の最も古く、最も大きく、最も名高い競技である。フィールドズメダルの受賞者の多くは、数学者にとって最高の栄誉の1つであり、IMOで国を代表している。
AI achieves silver-medal standard solving International Mathematical Olympiad problems – Google DeepMind
Google DeepMindによる発表で、数学オリンピックで銀メダルに相当するAIを構築とのこと。特化したモデルとはいえ数学でトップレベルを達成したのは凄い。