Large Language Models are Parallel Multilingual Learners

  • Large Language Models are Parallel Multilingual Learners [50.1]
    本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。 入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 03:33:46 GMT)
  • PIM(コンテキストとして同じ意味のテキストを複数の言語で与える)という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
  • 「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
  • リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)

In-Context Principle Learning from Mistakes

  • In-Context Principle Learning from Mistakes [75.7]
    Incontext Learning(ICL)は、いくつかの入力出力例から学習することで、下流タスクにLLMを適用する標準的な方法である。 我々はこのパラダイムを再考し、数少ないインプット・アウトプットの例からより多くを学ぶ。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 04:42:29 GMT)
  • ICLを改善するため、不正解な事例を正しく修正させ原理を説明させるプロセスを混ぜる手法Learning Principles (LEAP)を提案。効果あったとのこと。
  • 改善するか否かはモデルにも依存している?っぽい結果。

MambaのICL(In Context Learning)性能

MambaのICL性能に関して論文が二つ出ていた。結局タスクによるっぽいという感じだろうか。。。少なくとも一定のICL能力があるのは間違いないように思える。一つ目のハイブリッドアーキテクチャの提案はありなのか、それだとMambaの良さが薄くなるのか悩ましいところではある。

  • Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [26.2]
    状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。 本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。 その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。 これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
    論文  参考訳(メタデータ)   (Tue, 6 Feb 2024 18:56:35 GMT)
  • こちらは「Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning.However, SSMs fall short in tasks involving non-standard retrieval functionality.」とのことでタスクに依存という報告
  • 上記を受けてMambaFormer というハイブリッドアーキテクチャを提案
  • Is Mamba Capable of In-Context Learning? [68.3]
    Mambaは、新しく提案された選択的な状態空間モデルである。 マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 16:39:12 GMT)
  • こちらは「Mamba matches the performance of transformer models for ICL.」との報告
  • 「Mamba appears to solve ICL problems by incrementally refining its internal representations in a manner akin to an iterative optimization strategy, as transformer do.」という指摘も興味深い

In context learningの分析とサーベイ

普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案(13gaidorain.pdf (cao.go.jp))でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている(What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp))ものの。やっぱり不思議だなーと思う。

  • In-Context Language Learning: Arhitectures and Algorithms [73.9]
    我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。 我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
    論文  参考訳(メタデータ)   (Tue, 23 Jan 2024 18:59:21 GMT)
  • 「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
  • 「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて(ICLL= in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない)Transformerの後継を狙ったモデルはTransformerに匹敵できていない。
  • In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
    インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
    論文  参考訳(メタデータ)   (Sun, 21 Jan 2024 23:34:42 GMT)
  • こちらは与える情報を得る手法を中心としたサーベイ
  • 実用的に使うために参考になる情報

Generative Multimodal Models are In-Context Learners 

  • Generative Multimodal Models are In-Context Learners [62.3]
    我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
    論文  参考訳(メタデータ)   (Wed, 20 Dec 2023 18:59:58 GMT)
  • マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
  • リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

Visual In-Context Prompting

  • Visual In-Context Prompting [100.9]
    本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 18:59:48 GMT)
  • Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
  • リポジトリはGitHub – UX-Decoder/DINOv

In-Context Pretraining

  • In-Context Pretraining: Language Modeling Beyond Document Boundaries [140.8]
    In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。 本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。 より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:57:12 GMT)
  • 通常の事前学習ではランダムに文書をシャッフルしたデータを使用するが、同じコンテキストに同様の文書が入るよう調整して事前学習する手法の提案
  • LLaMAアーキテクチャ、7Bまでのサイズで有効性を確認とのこと。(128 A100 GPUs で9日かかるとのことで検証もとても大変。。)

In-Context Unlearning

  • In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
    In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。 これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 15:19:31 GMT)
  • In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問

KICT: Knowledgeable InContext Tuning framework

  • Boosting In-Context Learning with Factual Knowledge [39.9]
    In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。 本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
    論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 09:06:39 GMT)
  • ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
  • In context learningは強力であるので、このような研究の方向性も有望だと思う。

Ambiguity-Aware In-Context Learning with Large Language Models

  • Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
    インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。 そこで本研究では,ICLの優れた実演方法について検討する。 意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 17:48:34 GMT)
  • 通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
  • Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。