2024年5月3日 – arXiv最新論文の紹介

Weak-to-Strong Extrapolation Expedites Alignment [135.1]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文参考訳（メタデータ） (Thu, 25 Apr 2024 17:39:50 GMT)
「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering [35.9]
大きな言語モデル(LLM)は幻覚の問題に悩まされ、知識集約的なタスクに適用した場合、重大な課題に直面します。本稿では,証拠文書から貴重な情報を特定することを目的とした,大規模言語モデル(KS-LLM)の新たな知識選択手法を提案する。まず、入力された質問に基づいて三つ組を生成し、次に証拠文書から三つ組に最もよく似たエビデンス文を選択し、最後に、エビデンス文と三つ組を組み合わせ、大きな言語モデルで回答を生成する。
論文参考訳（メタデータ） (Wed, 24 Apr 2024 05:32:41 GMT)
トリプルを使うタイプの知識選択手法。効果は一定ありそう？