2024年1月 – ページ 2 – arXiv最新論文の紹介

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [92.1]
現在の言語モデルは、ハードデータで訓練されたモデルと同様に、比較的容易にハードデータから一般化されることが多い。ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 18:36:29 GMT)
易しい問題でチューニングしたモデルが難しい問題に対してもかなり有効であるとの報告。とっても面白い性質。
「Our findings suggest that the scalable oversight problem may be easier than previously thought.」とあるものの意図せず、強力なものを作ってしまう危険性もあるような。。（参考：Fugu-MT 論文翻訳(概要): Measuring Progress on Scalable Oversight for Large Language Models (fugumt.com)）
リポジトリはallenai/easy-to-hard-generalization: Code for the arXiv preprint “The Unreasonable Effectiveness of Easy Training Data” (github.com)

Natural Language Processing for Dialects of a Language

Natural Language Processing for Dialects of a Language: A Survey [59.8]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 03:04:38 GMT)
方言の取り扱いに関するサーベイ
英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。

Secrets of RLHF in Large Language Models Part II: Reward Modeling

Secrets of RLHF in Large Language Models Part II: Reward Modeling [135.0]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 17:56:59 GMT)
Secrets of RLHF in Large Language Models Part I: PPO – arXiv最新論文の紹介 (devneko.jp) のパート２、報酬モデルに関する解説
前回に引き続きすごい資料

DebugBench

DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 11:48:36 GMT)
デバッグ性能を評価する大規模なベンチマーク
「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

SciGLM

SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning [60.1]
LLM(Large Language Models)は、科学的な発見を支援することを約束している。我々はSciGLMを紹介した。SciGLMは大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、そして自己表現フレームワークと微調整コードをリリースします。
論文参考訳（メタデータ） (Mon, 15 Jan 2024 20:22:21 GMT)
LLMの科学分野の能力を向上するデータ作成フレームワークを提案、モデルを構築し高い性能を達成。C-Eval Hardなど中国語のタスクにおいてはGPT-4をこえているように見える。CoT、self-reflective frameworkなど様々なテクニックを使ってデータを作るアプローチ。
リポジトリはTHUDM/SciGLM: SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning (github.com)

Question Translation Training for Better Multilingual Reasoning

Question Translation Training for Better Multilingual Reasoning [113.5]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (Mon, 15 Jan 2024 16:39:10 GMT)
多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment（質問を英語に翻訳するタスク）、Stage II: Response Alignment（英語または混合の質問回答ペアでのチューニング）の２ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
リポジトリはNJUNLP/QAlign (github.com)

ANIM-400K

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video [3.3]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文参考訳（メタデータ） (Wed, 10 Jan 2024 18:32:38 GMT)
アニメーションビデオのデータセット、日本語と英語のデータでautomated dubbingでの活用を想定
リポジトリはDavidMChan/Anim400K: Anim400K: A dataset designed from the ground up for automated dubbing of video (github.com)

RWKV-TS

RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks [42.3]
伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
論文参考訳（メタデータ） (Wed, 17 Jan 2024 09:56:10 GMT)
時系列予測へのRNN系モデルの改善、高速高性能とのこと
リポジトリはhoward-hou/RWKV-TS: RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks (github.com)

Tuning Language Models by Proxy

Tuning Language Models by Proxy [117.1]
プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
論文参考訳（メタデータ） (Tue, 16 Jan 2024 18:49:55 GMT)
（チューニングした）小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。

Self-Rewarding Language Models

Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (Thu, 18 Jan 2024 14:43:47 GMT)
自分でInstructionを生成、評価しDPO（Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com)）するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、（さすがにまだなさそうだけど）新たな情報を生み出せているのかなど興味深い。

2024年1月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31