arXiv最新論文の紹介

Self-Improvement in Language Models: The Sharpening Mechanism

Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
論文参考訳（メタデータ） (Mon, 02 Dec 2024 20:24:17 GMT)
「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究

Predicting Emergent Capabilities by Finetuning

Predicting Emergent Capabilities by Finetuning [99.0]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 01:48:09 GMT)
「we found that our specific emergence prediction approach (e g , emergence law) can accurately predict the point of emergence up to 4x the FLOPS in advance, representing meaningful progress on the challenging unsolved problem of emergence prediction.」とのこと。
fine tuningでどこまでいけるか？を知りたい状況は多いので有用な研究（だが、現時点で実用的かはやや疑問）

MH-MoE:Multi-Head Mixture-of-Experts

MH-MoE:Multi-Head Mixture-of-Experts [119.5]
MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 09:05:36 GMT)
Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」

A Survey on LLM-as-a-Judge / From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

LLM as a judgeの必要性は至る所で指摘されていて、論文もとても多い。先週２つのサーベイがでていた。いずれも複数研究機関の研究者による共著でリポジトリを公開する形式となっている。１研究機関のチームで調査するのはしんどい時代になっているのだろうか。。。（後者のリポジトリ公開は非常にありがたい）

A Survey on LLM-as-a-Judge [10.3]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文参考訳（メタデータ） (Sat, 23 Nov 2024 16:03:35 GMT)
リポジトリはGitHub – IDEA-FinAI/LLM-as-a-Judge

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.6]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。大規模言語モデル(LLM)の最近の進歩は”LLM-as-a-judge”パラダイムを刺激している。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 17:28:44 GMT)
プロジェクトサイトはLLM-as-a-judge、リポジトリ（論文リストなど）はGitHub – llm-as-a-judge/Awesome-LLM-as-a-judge

Self-Generated Critiques Boost Reward Modeling for Language Models

Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 18:28:26 GMT)
「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。（WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち）

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Wed, 27 Nov 2024 10:28:57 GMT)

RedPajama: an Open Dataset for Training Large Language Models

RedPajama: an Open Dataset for Training Large Language Models [80.7]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (Tue, 19 Nov 2024 09:35:28 GMT)
RedPajamaの論文
リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.

BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment

BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment [42.2]
本稿では,ハイソース言語から低ソース言語へ効率的に生成能力と知識を伝達するBayLing 2を紹介する。 100以上の言語にまたがる多言語翻訳では、BayLingは同様のスケールのオープンソースモデルよりも優れたパフォーマンスを示している。 BayLingのデモ、ホームページ、コード、モデルが利用可能だ。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 11:35:08 GMT)
fune tuningをベースとした多言語モデルの構築「By fine-tuning on high-resource language instructions and cross-lingual instructions, LLM can transfer knowledge and generative capabilities from high-resource languages to low-resource languages, thereby facilitating multilingual interaction.」「Cross-lingual instructions, such as interactive translation and multilingual translation, can efficiently enhance the language alignment within LLM, thereby improving translation performance.」とのことだが、結果の解釈はなかなか難しい・・・
リポジトリはGitHub – ictnlp/BayLing: “百聆”是一个基于LLaMA的语言对齐增强的英语/中文大语言模型，具有优越的英语/中文能力，在多语言和通用任务等多项测试中取得ChatGPT 90%的性能。BayLing is an English/Chinese LLM equipped with advanced language alignment, showing superior capability in English/Chinese generation, instruction following and multi-turn interaction.、プロジェクトサイトはhttp://nlp.ict.ac.cn/baylingだが執筆時点ではダウンしているよう（？）

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 15:44:42 GMT)
きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Multilingual Large Language Models: A Systematic Survey

Multilingual Large Language Models: A Systematic Survey [39.0]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文参考訳（メタデータ） (Sun, 17 Nov 2024 13:21:26 GMT)
マルチリンガルなLLMのサーベイ。MLLMのMは（最近は）マルチモーダルであることが多いので若干戸惑う。
リポジトリはGitHub – tjunlp-lab/Awesome-Multilingual-LLMs-Papers: Awesome-Multilingual-LLMs-Papers

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30