In-context Learning – ページ 2 – arXiv最新論文の紹介

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.8]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。最近の研究は、ICLに関する2つの矛盾する見解を示している。両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文参考訳（メタデータ） (Wed, 24 Jul 2024 05:26:52 GMT)
ICLの重要な要素である「タスク認識」と「近い事例情報の供給」についてマトリクスで検証した論文。

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
論文参考訳（メタデータ） (Wed, 05 Jun 2024 04:04:08 GMT)
「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
リポジトリはGitHub – HITSZ-HLT/Feedback-ICL

Implicit In-context Learning

Implicit In-context Learning [37.1]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Implicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (Thu, 23 May 2024 14:57:52 GMT)
ICLを表すベクトル（context vector）を使うことで高速化。できそうではあるがcontext vectorが持つ情報はどのくらいの有効性があるか＆実際のところ何なのかが気になる。
リポジトリはGitHub – LzVv123456/I2CL

Many-Shot In-Context Learning in Multimodal Foundation Models

Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (Thu, 16 May 2024 04:02:43 GMT)
MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
リポジトリはGitHub – stanfordmlgroup/ManyICL

Many-Shot In-Context Learning

Many-Shot In-Context Learning [57.6]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。 Reinforced と Unsupervised ICL は多発的なシステムでは極めて有効であることがわかった。
論文参考訳（メタデータ） (Wed, 17 Apr 2024 02:49:26 GMT)
Gemini 1.5などで可能になったMany shot（500 shotなど）などの効果の分析。性能が上がる例が多いが「On some tasks (e g , code verifier, planning), we did observe slight performance deterioration beyond a certain number of shots.」とのこと。Reinforced ICL、Unsupervised ICL という人間を介さないICLも検証していて「We found that, for problem-solving domains where human-generated rationales are expensive to obtain, Reinforced and Unsupervised ICL can obtain strong performance when compared to ICL with human data.」とのこと。
長いコンテキストの利点をアピールする論文。SSMだとどうなんるんやろという興味がある。

Large Language Models are Parallel Multilingual Learners

Large Language Models are Parallel Multilingual Learners [50.1]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 03:33:46 GMT)
PIM（コンテキストとして同じ意味のテキストを複数の言語で与える）という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)

In-Context Principle Learning from Mistakes

In-Context Principle Learning from Mistakes [75.7]
Incontext Learning(ICL)は、いくつかの入力出力例から学習することで、下流タスクにLLMを適用する標準的な方法である。我々はこのパラダイムを再考し、数少ないインプット・アウトプットの例からより多くを学ぶ。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 04:42:29 GMT)
ICLを改善するため、不正解な事例を正しく修正させ原理を説明させるプロセスを混ぜる手法Learning Principles (LEAP)を提案。効果あったとのこと。
改善するか否かはモデルにも依存している？っぽい結果。

MambaのICL（In Context Learning）性能

MambaのICL性能に関して論文が二つ出ていた。結局タスクによるっぽいという感じだろうか。。。少なくとも一定のICL能力があるのは間違いないように思える。一つ目のハイブリッドアーキテクチャの提案はありなのか、それだとMambaの良さが薄くなるのか悩ましいところではある。

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [26.2]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
論文参考訳（メタデータ） (Tue, 6 Feb 2024 18:56:35 GMT)
こちらは「Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning.However, SSMs fall short in tasks involving non-standard retrieval functionality.」とのことでタスクに依存という報告
上記を受けてMambaFormer というハイブリッドアーキテクチャを提案

Is Mamba Capable of In-Context Learning? [68.3]
Mambaは、新しく提案された選択的な状態空間モデルである。マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
論文参考訳（メタデータ） (Mon, 5 Feb 2024 16:39:12 GMT)
こちらは「Mamba matches the performance of transformer models for ICL.」との報告
「Mamba appears to solve ICL problems by incrementally refining its internal representations in a manner akin to an iterative optimization strategy, as transformer do.」という指摘も興味深い

In context learningの分析とサーベイ

普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案（13gaidorain.pdf (cao.go.jp)）でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている（What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)、When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp)）ものの。やっぱり不思議だなーと思う。

In-Context Language Learning: Arhitectures and Algorithms [73.9]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (Tue, 23 Jan 2024 18:59:21 GMT)
「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて（ICLL＝ in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない）Transformerの後継を狙ったモデルはTransformerに匹敵できていない。

In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文参考訳（メタデータ） (Sun, 21 Jan 2024 23:34:42 GMT)
こちらは与える情報を得る手法を中心としたサーベイ
実用的に使うために参考になる情報

Generative Multimodal Models are In-Context Learners

Generative Multimodal Models are In-Context Learners [62.3]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 18:59:58 GMT)
マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30