2024年1月22日 – arXiv最新論文の紹介

Tuning Language Models by Proxy

Tuning Language Models by Proxy [117.1]
プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
論文参考訳（メタデータ） (Tue, 16 Jan 2024 18:49:55 GMT)
（チューニングした）小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。

Self-Rewarding Language Models

Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (Thu, 18 Jan 2024 14:43:47 GMT)
自分でInstructionを生成、評価しDPO（Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com)）するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、（さすがにまだなさそうだけど）新たな情報を生み出せているのかなど興味深い。

Fine-grained Hallucination Detection and Editing for Language Models

Fine-grained Hallucination Detection and Editing for Language Models [114.3]
大規模言語モデル(LM)は、多種多様な事実的不正確な文を生成する傾向にあり、幻覚と呼ばれる。現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。そこで本研究では、6つの階層的に定義された幻覚を包含する分類法を提案する。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 19:02:48 GMT)
Hallucinationを6カテゴリに分け、ベンチマークを構築、検出方法としてFAVA (FAct Vericaton with Augmentation)を提案。「ChatGPT (gpt-3.5-turbo-0301) with a carefully designed prompt describing all six categories with two demonstrations.」や左記＋Contriever のベースラインに比べて高い性能とのこと。
プロジェクトサイトはFine-grained Hallucination Detection and Editing For Language Models (fine-grained-hallucination.github.io)

AlphaGeometry

AlphaGeometry: An Olympiad-level AI system
我々のAIシステムは幾何学問題に対する最先端のアプローチを超越し、数学におけるAI推論を進歩させる。今日Natureに掲載された論文では、人間に近づくレベルで複雑な幾何問題を解くAIシステムであるAlphaGeometryを紹介します。

AlphaGeometry: An Olympiad-level AI system for geometry – Google DeepMind

ユークリッド平面幾何学の問題において「International Mathematical Olympiad (IMO) gold medallist」に近い性能を出すモデルの提案。Silver medallistは超えている…

合成データの活用など構築過程も興味深いが、この手の問題でもトップレベルというのは凄い。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31