2024年2月 – arXiv最新論文の紹介

TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization

TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization [37.9]
本稿では,ニューラルテキスト要約に関する文献を探索する新たなツールであるTL;DR Progressについて述べる。テキスト要約アプローチのための包括的なアノテーションスキームに基づいて、514の論文を整理する。
論文参考訳（メタデータ） (Sat, 10 Feb 2024 09:16:56 GMT)
要約関連の論文まとめサイトの提供。動作しているWEBシステムであり分類のやり方など実践的。
プロジェクトサイトはTLDR Progress (tldr-progress.de)

Large Language Models: A Survey

Large Language Models: A Survey [69.7]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 05:37:09 GMT)
LLMのサーベイ。この分野のサーベイは多いが整理軸が様々で面白い。

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability [24.2]
これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
論文参考訳（メタデータ） (Sun, 18 Feb 2024 10:15:38 GMT)
名前の通りReActの改善提案、予測を作成し実績の違いから計画を修正させる、ようにActionとObservationにPredictを追加。ベンチマークで効果を確認とのこと。
リポジトリはFu-Dayuan/PreAct (github.com)

Knowledge Editing on Black-box Large Language Models

Knowledge Editing on Black-box Large Language Models [37.0]
本稿では,現在手法におけるデータ編集とスタイルオーバー編集のプライバシー漏洩に対処する新しいポスト編集フレームワークを提案する。 2つのベンチマークの実験と分析は、 PostEditがすべてのベースラインを上回り、強力な一般化を実現することを示した。
論文参考訳（メタデータ） (Tue, 13 Feb 2024 17:59:34 GMT)
ブラックボックスモデルに対するKnowledge Editing。後処理を工夫するタイプであるが、パイプライン構成は色々な研究から良いものを取り入れまくっている印象で面白い。
リポジトリはsongxiaoshuai/postEdit: Official implementation of “Knowledge Editing on Black-box Large Language Models”. (github.com)

BGE Landmark Embedding

BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models [13.2]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
論文参考訳（メタデータ） (Sun, 18 Feb 2024 12:41:01 GMT)
チャンキングフリーな埋め込み手法の提案。文ベースで文末に置かれたマーカーを目印にそれまでの内容を含めて埋め込みを行うイメージのよう。
リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)

AIR-Bench: Audio InstRuction Benchmark

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 15:41:22 GMT)
audio-language なベンチマーク。Foundation benchmark（基礎的タスク、emotion recognition, acoustic scene classification, music QAなど）とChat benchmark（実世界を想定した会話応答）で構成される。評価はGPT-4ベース。
「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

Formal-LLMとStructured Chain-of-Thought Prompting

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [42.4]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM’フレームワークを提案する。
論文参考訳（メタデータ） (Sun, 4 Feb 2024 22:16:48 GMT)
LLMを用いたAIエージェントと形式言語の融合。「another important problem to explore in the future is LLM plan verification based on formal language.」と書かれている通り形式検証に持ち込めると面白いと思う。
リポジトリはagiresearch/Formal-LLM: Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents (github.com)

Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 01:49:53 GMT)
「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
上記FormalLLMと組み合わさらないかなと思わなくもない。

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
※ Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

GLAN: Generalized Instruction Tuning

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models [153.1]
GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。 GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 15:00:35 GMT)
大規模なinstruction data をLLM自身に合成させる研究。Self-InstrctやEovlve-Instructとは異なり、元データを必要としない。Mistral-7Bをベースとして複数のタスクで既存の結果を上回る。感覚的にはstudent modelを訓練する蒸留にちかいんやろうか。データを作る側を何らかの形で上回れたら面白いが。。
リポジトリはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 17:49:46 GMT)
人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404

2024年2月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29