- Agent Workflow Memory [71.8]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。 AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。 オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (Wed, 11 Sep 2024 17:21:00 GMT) - 「AWM induces workflows from agent trajectories by extracting reusable routines, and then integrates these workflows into agent memory to guide future task-solving processes.」というフレームワークの提案。過去の経験を一般化し貯める動的メモリのイメージで、オフラインシナリオだけでなくオンラインでも有効とのこと。
- リポジトリはGitHub – zorazrw/agent-workflow-memory: AWM: Agent Workflow Memory
投稿者: staka
Can LLMs Generate Novel Research Ideas? / Can Large Language Models Unlock Novel Scientific Research Ideas?
LLMが研究のアイデアを生成できるかについての論文が2つでいた。
- Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.3]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。 新しいアイデアとLLMと人間のアイデアの盲点レビューを書くことで、研究アイデアのための現在のLLM能力に関する最初の統計的に重要な結論を得る。 LLMの自己評価の失敗や世代における多様性の欠如など,研究エージェントの構築と評価におけるオープンな問題を明らかにする。
論文 参考訳(メタデータ) (Fri, 06 Sep 2024 08:25:03 GMT) - LLMのアイデアと人間のアイデアを研究者が比較「we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility.」とのこと。結果も面白いが「7 Limitations of LLMs
」、「11 Ethical Considerations」の考察も興味深い。 - リポジトリはGitHub – NoviScl/AI-Researcher
- Can Large Language Models Unlock Novel Scientific Research Ideas? [21.2]
大規模言語モデル(LLM)と公開可能なChatGPTは、人工知能を人々の日常生活に組み込む上で、大きな転換点となっている。 本研究は,研究論文からの情報に基づく新たな研究アイデアを創出する上でのLLMの能力について考察する。
論文 参考訳(メタデータ) (Tue, 10 Sep 2024 03:26:42 GMT) - 上記と近いタイトルだが、こちらは「To address this task, we create a dataset of papers published after the year 2022 from these five domains.We annotate the papers with future research ideas.To evaluate the novelty and relevance of ideas generated by the LLMs, we propose an Idea Alignment Score (IAScore).This score reflects how well the generated ideas align with those proposed by the authors.」という方針で過去論文をもとにしている。Leakageが気になるところ。
- リポジトリはGitHub – sandeep82945/Future-Idea-Generation
Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
- Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.9]
我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。 論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。 論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
論文 参考訳(メタデータ) (Thu, 12 Sep 2024 13:50:22 GMT) - RAGに対する攻撃、RAG membership inference attacks、RAG entity extraction attacksからRAG documents extraction attacksへ。
- 「Adversarial Self-Replicating Prompts」の考え方が面白い。
- リポジトリはGitHub – StavC/UnleashingWorms-ExtractingData: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
Towards a Unified View of Preference Learning for Large Language Models: A Survey
- Towards a Unified View of Preference Learning for Large Language Models: A Survey [89.7]
大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (Wed, 04 Sep 2024 15:11:55 GMT) - LLM構築で重要なPreference Learningのサーベイ
- リポジトリはGitHub – KbsdJames/Awesome-LLM-Preference-Learning: The official repository of our survey paper: “Towards a Unified View of Preference Learning for Large Language Models: A Survey”
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
- Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources [38.3]
我々は、コストのかかる人的アノテーションに頼ることなく、LLMに新しいスキルを教えるために使用できる新しい方法、Source2 Synthを提案する。 Source2 Synthはカスタムデータソースを入力として、実世界のソースをベースとした中間的推論ステップを備えた合成データポイントを生成する。 マルチホップ質問応答(MHQA)とツール質問応答(TQA)の推論能力をテストする。
論文 参考訳(メタデータ) (Thu, 12 Sep 2024 17:39:08 GMT) - 「we propose Source2Synth, a general approach to generate synthetic data grounded in external real-world sources.」でDataset generation → Dataset Curation → Fine tuningに進むながれ。
- キュレーションフェーズで「This is achieved by slicing the dataset in two and using one slice to fine-tune the LLM (LLMSynth).」、「Data filtering During filtering, LLMSynth is used to predict the output of the given synthetic example using k tries. If the output cannot be predicted at least once, it is assumed the example is low quality and is not included in the final curated dataset.」とのこと。極端なデータだけフィルタするような意図なのだろうか。(at least oneだと問題ないかもだが、閾値によってモデル崩壊を招くのかどうかなど気になるところ)
OpenAI o1
先週の最大のニュースは今まで様々なうわさがあった、OpenAI o1 Introducing OpenAI o1 | OpenAIの公開だろう。特にSTEM分野で強力な性能を発揮している。
技術的な情報は公開されていない部分が多いが、Learning to Reason with LLMs | OpenAIに書かれている「Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.」では自己改善・合成データ活用の流れ(self-X – arXiv最新論文の紹介 (devneko.jp)、Synthetic data – arXiv最新論文の紹介 (devneko.jp))に近いのかなと思う。
開発者向けの質問回答では
- OpenAI o-1はモデルであってシステムではない、(ユーザには見せない)長い推論過程を生成するモデルである
- GPT-4oのプロンプトエンジニアリングによってOpenAI o-1の性能と競合することはできない
- RAGはOpenAI o-1においても有効
など興味深い質疑があったよう。詳細の開示はないだろうが、何らかのテクニカルレポートが欲しいところ。現時点では最近の研究動向から大きく外れたものではないし、性能の改善幅や使用感からして大きな驚きはないというのが正直な感想。1モデルにするのが良いのか、システム(Agenticな動作)にしたうえでそれに対応するモデル(Agenticな動きに特化したモデルと、通常の推論に適したモデルなど)の組み合わせのほうが良いのかなど気になるところではある。o-1は前者とのことだが、外部ツール利用を考えたとき制約が大きくなりそうな気がしている。
今後、エージェント的動作を行う場合を含め様々なベンチマークで評価されているのだろうと思うが、Cybench(Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models – arXiv最新論文の紹介 (devneko.jp))では「Subtasks % Solved: Percentage of subtasks solved per task, macro-averaged across the tasks.」が向上している(GPT-4oで負けていたClaude 3.5 Sonnetを抜いた)一方でSuccessRateはGPT-4oに及んでいない。
Data Gemma
Googleから発表されたDataGemmaも興味深い取り組み(DataGemma: AI open models connecting LLMs to Google’s Data Commons (blog.google)、Grounding AI in reality with a little help from Data Commons (research.google))である。
Home – Data Commonsを利用してハルシネーションを抑えようというものでRIG (Retrieval-Interleaved Generation) とRAG (Retrieval-Augmented Generation) のユースケースを想定。モデルはgoogle/datagemma-rig-27b-it · Hugging Face、google/datagemma-rag-27b-it · Hugging Faceに公開れている。
上記モデルはRIGであれば「The DataGemma model (based on the 27 billion parameter Gemma 2 model and fully fine-tuned for this RIG task) generates a response, which includes a natural language query for Data Commons’ existing natural language interface, specifically designed to retrieve relevant data. For example, instead of stating “The population of California is 39 million”, the model would produce “The population of California is [DC(What is the population of California?) → “39 million”]”, allowing for external verification and increased accuracy.」、RAGであれば「The DataGemma model (based on the Gemma 2 (27B) model and fully fine-tuned for this RAG task) analyzes the user’s query and generates a corresponding query (or queries) in natural language that can be understood by Data Commons’ existing natural language interface.」とのことでData Commonsの既存インタフェースをうまく活用できるようになっている。
この手のfine tuningは重要になりつつあるように思う。
SYNTHETIC CONTINUED PRETRAINING
- Synthetic continued pretraining [29.7]
与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。 本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。 合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
論文 参考訳(メタデータ) (Wed, 11 Sep 2024 17:21:59 GMT) - ナレッジグラフを介して合成データを構築するEntiGraphの提案。「Synthetic continued pretraining with EntiGraph demonstrates consistent scaling in downstream closed-book QA performance up to a 600M token synthetic corpus, whereas baselines such as continued pretraining on the small corpus or synthetic paraphrases show no improvement or asymptote early.」とのことで有効性を確認
- 抽象的な「知識」を介したほうが、表現の変換よりも良い(学習に利用可能な)情報を提供できるという解釈で良いのだろうか。
Large Language Model-Based Agents for Software Engineering: A Survey
- Large Language Model-Based Agents for Software Engineering: A Survey [20.3]
近年のLarge Language Models(LLM)の進歩は、AIエージェント、すなわちLLMベースのエージェントの新しいパラダイムを形成している。 我々は106の論文を収集し、それらを2つの視点、すなわちSEとエージェントの観点から分類する。 さらに、この重要な領域におけるオープンな課題と今後の方向性についても論じる。
論文 参考訳(メタデータ) (Wed, 04 Sep 2024 15:59:41 GMT) - ソフトウェアエンジニアリングにおけるLLM based Agentのサーベイ
- リポジトリもある。GitHub – FudanSELab/Agent4SE-Paper-List: Repository for the paper “Large Language Model-Based Agents for Software Engineering: A Survey”.
The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers by Zheyuan (Kevin) Cui, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, Tobias Salz :: SSRN
「Though each separate experiment is noisy, combined across all three experiments and 4,867 software developers, our analysis reveals a 26.08% increase (SE: 10.3%) in the number of completed tasks among developers using the AI tool.」という報告もあり、ソフトウェアエンジニアリングにおけるAI活用はどんどん進んでいくのだろうか。
A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation
大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。
- A Survey on Evaluation of Multimodal Large Language Models [11.6]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 13:05:55 GMT) - MLLMの評価に関するサーベイ
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (Mon, 26 Aug 2024 20:35:42 GMT) - ストーリーに対する評価のサーベイ