Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

  • Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [53.0]
    LINGOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 03:44:01 GMT)
  • 形態素解析した結果と単語単位の辞書情報をLLMに入れることで未知の言語の翻訳ができたという論文。Geminiの事例を彷彿とさせ、LLMの指示理解力&高い言語能力が興味深い。
  • リポジトリはLLiLab/llm4endangeredlang (github.com)

The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

  • Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [82.8]
    自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。 本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 16:07:54 GMT)
  • LLMへの指示やLLM間の通信で自然言語より優れた方式を検討した論文。AutoForm (Autonomously-Decided Format)という手法で自然言語ではないプロンプト形式を使うと優れた結果が得られるとのこと。また、Agent間コミュニケーションもトークン数が減って効率的になるという結果。「We also find that the communication formats generated by LLMs resemble traditional ACLs, offering both precision and efficiency」(ここでのACLはAgent Communication Languages)というのも非常に興味深い。
  • リポジトリはthunlp/AutoForm: Code for paper “Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication” (github.com)

COMEDY:Commpressive Memory-Enhanced Dialogue sYstems

Beyond Language Models: Byte Models are Digital World Simulators

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

  • Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
    大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 09:36:05 GMT)
  • LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
  • mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
  • How do Large Language Models Handle Multilingualism? [87.1]
    大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 02:55:26 GMT)
  • 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
  • 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。

1 bit(1.58 bit)なLLMとHAWK・Griffin

LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。

  • Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
    我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 18:24:46 GMT)
  • RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル(Mambaより優れているよう)。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。

LLM用金融ベンチマークと金融特化型LLM

LLMでも金融分野の研究は多い。

  • FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
    FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
    論文  参考訳(メタデータ)   (Fri, 16 Feb 2024 05:05:12 GMT)
  • こちらはMistralをベースにしたLLM
  • ドメイン特化であれば7BでGPT-4と十分戦える点は面白い

Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)

  • Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
    大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:44:06 GMT)
  • ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
  • リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)

Do Membership Inference Attacks Work on Large Language Models?

  • Do Membership Inference Attacks Work on Large Language Models? [145.9]
    メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:52:05 GMT)
  • LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
  • リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)