LLM – ページ 14 – arXiv最新論文の紹介

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [90.0]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。近年の研究では、教師付き微調整(SFT)を用いて、お世辞問題を軽減することが提案されている。そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 07:01:37 GMT)
「When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer.」というSycophancyへ対応するためピンポイントなチューニングを適用
「The proposed pinpoint tuning consists of two steps: ➀: “diagnose” for where in the network attributes to the sycophancy; ➁: precisely optimize the pinpointed components to improve the performance.」とのことだが、いろいろ有効そうな場所が多そうなアプローチ

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル（リポジトリ：allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス）で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル（リポジトリ：mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス）、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

OLMoE: Open Mixture-of-Experts Language Models [180.2]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 17:08:20 GMT)

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 05:13:47 GMT)
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 20:23:21 GMT)
リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Symbolic Working Memory Enhances Language Models for Complex Rule Application

Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.3]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文参考訳（メタデータ） (Sat, 24 Aug 2024 19:11:54 GMT)
LLMが苦手とするルールを適用していく多段推論に対応するため作業領域を用いる手法の提案。「We implement this working memory to store rules and facts in both natural language and their symbolic forms (i.e., in Prolog), thus supporting precise symbolic reference.」とPrologのような形式を併用するのが特徴的。
- 人でもこの手の疑似コードを使うことを考えると、他のタスクでも有効かもしれない。
リポジトリはGitHub – SiyuanWangw/RuleApplication

Can Unconfident LLM Annotations Be Used for Confident Conclusions?

Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
論文参考訳（メタデータ） (Tue, 27 Aug 2024 17:03:18 GMT)
LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
リポジトリはGitHub – kristinagligoric/confidence-driven-inference

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 17:23:10 GMT)
CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
リポジトリはCybench

LogicGame

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:16:41 GMT)
ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

Large Language Model Driven Recommendation [34.5]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 15:36:24 GMT)
LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 16:15:28 GMT)
金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文参考訳（メタデータ） (Thu, 22 Aug 2024 17:38:59 GMT)
TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。（データの差かもしれないが。。）
リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)

LLM Pruning and Distillation in Practice: The Minitron Approach [61.6]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 17:38:48 GMT)
MInitronアプローチ（MINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)）での公開モデルの小規模化
リポジトリはnvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:57:01 GMT)
xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 13:05:41 GMT)
Llama2、その日本語強化（日本語を用いた継続学習）バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
３モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
抽象度が進んだ数学や論理処理だと動作はどうなるんだろう？centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31