- SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (Mon, 26 Aug 2024 15:30:05 GMT) - Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
- リポジトリはMulti-SWE-bench
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (Sun, 25 Aug 2024 15:17:43 GMT) - マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
- 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。
Symbolic Working Memory Enhances Language Models for Complex Rule Application
- Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.3]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。 本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。 当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文 参考訳(メタデータ) (Sat, 24 Aug 2024 19:11:54 GMT) - LLMが苦手とするルールを適用していく多段推論に対応するため作業領域を用いる手法の提案。「We implement this working memory to store rules and facts in both natural language and their symbolic forms (i.e., in Prolog), thus supporting precise symbolic reference.」とPrologのような形式を併用するのが特徴的。
- 人でもこの手の疑似コードを使うことを考えると、他のタスクでも有効かもしれない。
- リポジトリはGitHub – SiyuanWangw/RuleApplication
Controllable Text Generation for Large Language Models: A Survey
- Controllable Text Generation for Large Language Models: A Survey [27.1]
本稿では,大規模言語モデルにおける制御可能なテキスト生成の最近の進歩を体系的にレビューする。 我々はCTGタスクをコンテンツ制御と制御の2つの主要なタイプに分類する。 現在の研究における重要な課題には、流用率の低減や実用性といった課題に対処する。
論文 参考訳(メタデータ) (Thu, 22 Aug 2024 17:59:04 GMT) - Controllable Text Generationのサーベイ、LLM全般としても良い資料で広範な内容。サーベイの構造はCTGSurvey/figures/framework.png at main · IAAR-Shanghai/CTGSurvey · GitHub
- リポジトリはGitHub – IAAR-Shanghai/CTGSurvey
Can Unconfident LLM Annotations Be Used for Confident Conclusions?
- Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。 信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
論文 参考訳(メタデータ) (Tue, 27 Aug 2024 17:03:18 GMT) - LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
- リポジトリはGitHub – kristinagligoric/confidence-driven-inference
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
- Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 17:32:35 GMT) - 合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
- 「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
- Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 17:23:10 GMT) - CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
- リポジトリはCybench
Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models
(主としてRAGを想定した)高速化、Transformerに代わるかもしれないMamba(Mamba – arXiv最新論文の紹介 (devneko.jp))の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。
Codestral Mamba | Mistral AI | Frontier AI in your hands(mistralai/Mamba-Codestral-7B-v0.1 · Hugging Face)など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。
- Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 04:06:14 GMT) - 「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で(RAGにありがちな)長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
- リポジトリはNexaAIDev/Dolphin · Hugging Face
- ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 02:47:27 GMT) - Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負
- The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。 その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 27 Aug 2024 17:56:11 GMT) - LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
- 普通に小型化するのと比べて優位性があるのだろうか。
Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey
- Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文 参考訳(メタデータ) (Fri, 23 Aug 2024 07:31:01 GMT) - マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
- 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
- リポジトリはGitHub – DeepReasoning/aihealth
LogicGame
- LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 13:16:41 GMT) - ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
- GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ