2023年12月19日 – arXiv最新論文の紹介

Beyond Human Data

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 23:16:16 GMT)
LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 06:10:42 GMT)
分からないときは分からない（質問に答えない）ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 18:58:04 GMT)
微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい