LLM – ページ 29 – arXiv最新論文の紹介

Large Language Models: A Survey

Large Language Models: A Survey [69.7]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 05:37:09 GMT)
LLMのサーベイ。この分野のサーベイは多いが整理軸が様々で面白い。

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability [24.2]
これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
論文参考訳（メタデータ） (Sun, 18 Feb 2024 10:15:38 GMT)
名前の通りReActの改善提案、予測を作成し実績の違いから計画を修正させる、ようにActionとObservationにPredictを追加。ベンチマークで効果を確認とのこと。
リポジトリはFu-Dayuan/PreAct (github.com)

Formal-LLMとStructured Chain-of-Thought Prompting

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [42.4]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM’フレームワークを提案する。
論文参考訳（メタデータ） (Sun, 4 Feb 2024 22:16:48 GMT)
LLMを用いたAIエージェントと形式言語の融合。「another important problem to explore in the future is LLM plan verification based on formal language.」と書かれている通り形式検証に持ち込めると面白いと思う。
リポジトリはagiresearch/Formal-LLM: Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents (github.com)

Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 01:49:53 GMT)
「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
上記FormalLLMと組み合わさらないかなと思わなくもない。

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
※ Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

GLAN: Generalized Instruction Tuning

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models [153.1]
GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。 GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 15:00:35 GMT)
大規模なinstruction data をLLM自身に合成させる研究。Self-InstrctやEovlve-Instructとは異なり、元データを必要としない。Mistral-7Bをベースとして複数のタスクで既存の結果を上回る。感覚的にはstudent modelを訓練する蒸留にちかいんやろうか。データを作る側を何らかの形で上回れたら面白いが。。
リポジトリはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 17:49:46 GMT)
人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404

GenTranslate

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [47.8]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文参考訳（メタデータ） (Sat, 10 Feb 2024 07:20:49 GMT)
LLMを用いたN-best翻訳結果の統合。なるほどという感じ。併せてLLM finetuningで利用可能なデータセットであるHypoTranslate もリリースしている。
リポジトリはYUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators” (github.com)

InfLLM

InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory [99.2]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文参考訳（メタデータ） (Wed, 7 Feb 2024 06:50:42 GMT)
長文に対応するための構造をもったLLM、1024Kトークでも有効とのこと

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.1]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 04:32:33 GMT)
「Our findings reveal that zero-shot prompting LLMs often fails to yield faithful explanations.80% of the generated explanations include hallucinated details.」なので、Multi-Agent Debate Refinement によって改善したという報告。ベースラインより改善しているが、まだまだ厳しい結果に思える。
「LLMs cannot reliably assess the faithfulness of the generated explanations and discover the most suitable evaluation protocols for LLM-based automatic evaluation」というfindingsは重要

The Generative AI Paradox on Evaluation

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 06:16:08 GMT)
問題解決と評価能力は別なのでは？という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31