LLM – ページ 47 – arXiv最新論文の紹介

ExpeL: Experiential Learning

ExpeL: LLM Agents Are Experiential Learners [60.5]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文参考訳（メタデータ） (Sun, 20 Aug 2023 03:03:34 GMT)
Experiential Learningとしてパラメータチューニングを必要としないLLMの自律的な学習？手法を提案。過去の経験を記憶、評価、修正していくアプローチのようにみえ、全てを自然言語で処理していくのが面白い。人間がとって活用していくメモのように見える。ReActより優れたパフォーマンスとのこと。
リポジトリはhttps://github.com/Andrewzh112/ExpeLだがComing soon

ChatEval

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.7]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 15:13:04 GMT)
マルチエージェントでディベートをしながら生成テキストの品質を評価するフレームワークの提案、人が合議で判定しているようで面白い。
A Task-Solving Agent through Multi-Persona Self-Collaboration – arXiv最新論文の紹介 (devneko.jp)でも思ったがアンサンブルモデルのようにマルチエージェントを前提としたLLM活用は有望なのかもしれない
リポジトリはGitHub – chanchimin/ChatEval: Codes for our paper “ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate”

LLMRec: Benchmarking Large Language Models on Recommendation Task

LLMRec: Benchmarking Large Language Models on Recommendation Task [54.5]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (Wed, 23 Aug 2023 16:32:54 GMT)
LLMを用いた推薦システム用ベンチマークの提案。「The benchmark results demonstrate that existing LLMs perform well in rating prediction tasks but show poor performance in sequential and direct recommendation tasks.」とのことでいわゆる普通のレコメンデーションタスクについては厳しめの結果。
リポジトリはhttps://github.com/williamliujl/llmrec

Large Language Models as Zero-Shot Conversational Recommenders

Large Language Models as Zero-Shot Conversational Recommenders [52.6]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文参考訳（メタデータ） (Sat, 19 Aug 2023 15:29:45 GMT)
対話を通して推薦を行うタスク（CRS: Conversational recommender system）ではLLMが優れているという指摘。LLMが優れているのは（レコメンデーションではあるが）対話能力や言語理解、背景知識が重要なタスクだからだろうか。データ構築プロセスからしてリークの懸念がなくは無いように思う。
リポジトリはhttps://github.com/aaronheee/llms-as-zero-shot-conversational-recsys

Large Language Models for Information Retrieval: A Survey

Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文参考訳（メタデータ） (Tue, 15 Aug 2023 12:09:20 GMT)
LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 17:45:04 GMT)
LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
プロジェクトサイトはLayoutLLM-T2I

AUTOMQM

The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.0]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 17:17:21 GMT)
機械翻訳の評価にLLMを使う手法の提案
system level / segment level、fine tuning有無、モデル差など多角的な検証がされており興味深い

Self-Alignment with Instruction Backtranslation

Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (Fri, 11 Aug 2023 17:47:54 GMT)
unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
結果得られたモデルは Alpaca leaderboardで他モデル（ChatGPT, GPT-4など）に依存しないモデルをoutperformしたとのこと。

LLM-Rec

LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.6]
LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
論文参考訳（メタデータ） (Wed, 16 Aug 2023 17:59:07 GMT)
LLMを用いたレコメンデーションシステムの提案。直接的にLLMを利用するのではなく入力テキストを拡張するためにLLMを用いるアプローチ
複数のプロンプト戦略を試しておりその結果も面白い。

Platypus

Platypus: Quick, Cheap, and Powerful Refinement of LLMs [10.2]
プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。 13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 17:59:56 GMT)
HuggingFaceのOpen LLM Leaderboardで現状トップのLLMに関する論文。fine-tuned variant of LLaMa-2であるが、13B modelがA100(80GB)×1で5時間、70B model もA100(80GB)×4で22 時間でfine tuningできたというのは興味深い。非常に効率的。
プロジェクトサイトはPlatypus (platypus-llm.github.io)

先週はアリババのQwen-7B/README_JA.md at main · QwenLM/Qwen-7B · GitHub（ライセンスはLlama2似ていて一定ユーザ数を超える商用利用は別途の扱うとなる）や松尾研の東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―｜プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)（ライセンスはCC BY-NC）など日本語が使用可能なLLMの公開がされた。ライセンスは様々であるが少なくとも研究用途であればかなり自由に使えるため非常にありがたい。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31