CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment

  • CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.4]
    英語中心のモデルは、通常他の言語では準最適である。 そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 06:20:50 GMT)
  • 多言語能力を上げるためのInstruction tuningアプローチ。「CrossIn: It comprises cross-lingual instruction tuning datasets, where instruction and output are featured in two different languages」「Trans: It consists of translation pairs for instructions.」を併用。後者の「We hypothesize that if the model concurrently learns these translation tasks, it could facilitate the transfer of knowledge between languages.」は興味深い仮説。評価データも構築している。
  • Mistral等を使って提案手法の効果を検証。
  • リポジトリはGitHub – Lingy12/CrossIn

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

  • JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
    このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 00:52:39 GMT)
  • 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
  • リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)

Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers

  • Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.5]
    本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。 私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
    論文  参考訳(メタデータ)   (Sun, 07 Apr 2024 11:52:44 GMT)
  • マルチリンガルLLMに対するサーベイ。アプローチも結果も様々でありがたいサーベイであり、かつ論文リストがプロジェクトサイトに整理して一覧化されているのもありがたい。
  • プロジェクトサイトはMLLM (multilingual-llm.net)

Introducing v0.5 of the AI Safety Benchmark from MLCommons

Llama 3, Mixtral 8x22B, Reka Core, WizardLM2

今年のHAI AI Index reportでも取り上げられていた通り基盤モデルの構築が盛んになっている。 AI Index Report 2024 – Artificial Intelligence Index (stanford.edu)

先週もLLM関連のニュースが多く、寛容な独自ライセンスのLlama 3、Apache-2ライセンスのMixtral 8x22Bとオープンなモデルの盛り上がりも衰えていない。設立間もないRekaによるReka Coreにも注目である。モデル性能も非常に高い。

WizardLM2も公開されたようだが、一時的になのかリポジトリにアクセスできなくなっている。@WizardLM on Hugging Face: “🔥🔥🔥 Introducing WizardLM-2! 📙Release Blog:…”、こちらも性能的に期待大

  • Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.4]
    Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。 最も有能で最大のモデルであるReka Coreは、自動評価とブライド評価の両方において、最高のフロンティアモデルにアプローチしています。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 17:59:48 GMT)
  • Reka Core: Reka Core: Our Frontier Class Multimodal Language Model — Reka AI、マルチモーダルでGPT-4Vと競合。

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

  • Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
    文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
    論文  参考訳(メタデータ)   (Fri, 12 Apr 2024 20:28:14 GMT)
  • Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
  • リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

  • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
    大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 15:21:34 GMT)
  • Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与

On the Causal Nature of Sentiment Analysis 

  • On the Causal Nature of Sentiment Analysis [98.4]
    感性分析(SA)は、製品レビューのようなテキストで表される感情を特定することを目的としている。 本稿では2つのタスクの組み合わせとしてSAを定式化する。 予測タスクでは,LLMの性能向上のために,サンプルの裏側にある因果関係のメカニズムを用いる。
    論文  参考訳(メタデータ)   (Wed, 17 Apr 2024 04:04:34 GMT)
  • causally-awareで心理学を考慮したセンチメント分析手法の提案、効果検証。「we have formulated the task of SA into a prediction problem and a causal discovery problem.」(SA = sentiment analysis)と対象の問題を理解・分解したうえでLLMに解かせるというのは実務上重要になっていきそう、というのと、causal promptというのも興味深い。

METAL: Towards Multilingual Meta-Evaluation 

  • METAL: Towards Multilingual Meta-Evaluation [12.9]
    本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。 要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 06:14:54 GMT)
  • マルチリンガルなLLM評価フレームワークの提案、GPT-4はやはり優秀。だが「Finally, we analyze human and LLM reasoning and observe that LLMs often provide incorrect justifications for their scores, thus showing that more research is needed to be able to use LLM-based evaluators with confidence in the multilingual setting.」・・・。わりとよく言われていることではある・・・。
  • リポジトリはhadarishav/METAL: Code and data repo for NAACL’24 findings paper “METAL: Towards Multilingual Meta Evaluation” (github.com)

LLM2Vec

  • LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.4]
    大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLLMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
    論文  参考訳(メタデータ)   (Tue, 09 Apr 2024 02:51:05 GMT)
  • LLMを用いたエンベディング。任意のCausalLMから埋め込み用モデル構築する手法の提案。優れた結果。単純といえば単純なアプローチではあるが、なぜこれが効果的なのかわかるようなわからないような。
  • 論文中の「Based on these findings (we replicate these results for other inputs and other Mistral models in Appendix F) and the strong unsupervised results for Mistral-7B with bidirectional attention, we speculate that Mistral models are pre-trained with some form bidirectional attention, e g , prefix language modeling (Raffel et al , 2020) – at least for some parts of its training.」が非常に興味深い。
  • リポジトリはMcGill-NLP/llm2vec: Code for ‘LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders’ (github.com)
  • Is Cosine-Similarity of Embeddings Really About Similarity? [46.8]
    コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。 正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。 我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 16:48:20 GMT)
  • コサイン類似度が最善でない場合もあるようだが、この手法はどうなんだろう。