Retrieved In-Context Principles from Previous Mistakes 

  • Retrieved In-Context Principles from Previous Mistakes [55.1]
    In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。 近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。 本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 07:32:26 GMT)
  • 「a teacher-student framework designed to prevent the student model from making previous mistakes.」というフレームワークの提案。学生モデルが犯したミスを教師モデルが分析し、従うべき原則を作っていくフレームワークを提案。様々なベンチマークで効果を確認とのこと。
  • 潜在的なLeakageがないか気になるが、エージェント的動作の結果を「原則」にまとめて再利用可能にしていると考えれば効果がありそう。

Large Language Models Understand Layouts

  • Large Language Models Understand Layouts [6.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 09:03:12 GMT)
  • LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
  • リポジトリはGitHub – liweim/TextLayoutLLM

How Does Quantization Affect Multilingual LLMs? 

  • How Does Quantization Affect Multilingual LLMs? [50.9]
    量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:39:40 GMT)
  • LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
  • 多言語(というか日本語)への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。

CausalScore

  • CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
    本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 06:08:16 GMT)
  • 「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
  • リポジトリはGitHub – WilliamsToTo/causalscore_dialogue

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

  • PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
    大規模言語モデル(LLM)はNLPの分野に革命をもたらした。 本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 17:56:29 GMT)
  • 機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
  • プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods 

  • Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
    テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
    論文  参考訳(メタデータ)   (Fri, 21 Jun 2024 18:31:49 GMT)
  • テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
  • 必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

  • Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems [124.8]
    我々は、文書のHaystackを合成する手順を設計し、特定のテキストが文書間で繰り返されることを保証します。 すると、”Summary of a Haystack”(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 15:23:42 GMT)
  • 長文・大量の文書を要約できるかに関する(合成データによる)SummHay ベンチマークを構築、様々なLLM及びRAGを比較した論文。「achieving strong coverage of key insights in a large corpus of text does not require retrieval, given a sufficiently capable long-context LLM.」、「for use-cases where citation quality is important, optimizing retrieval is paramount: it removes irrelevant documents from the summarizer’s context, narrowing and focusing options for citation.」とユースケースによってRAGの有効性が変わるよう。Gemini 1.5 ProはRAGなしでも相当有効に機能しているようなことも興味深い。Retrieveの戦略も複数比較されており参考になる。
  • リポジトリはGitHub – salesforce/summary-of-a-haystack: Codebase accompanying the Summary of a Haystack paper.

CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan

高い性能が話題となったCALM3 22B(論文などはまだ?)、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。

  • YuLan: An Open-source Large Language Model [179.6]
    本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。 これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 11:52:53 GMT)
  • リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model

Scaling Synthetic Data Creation with 1,000,000,000 Personas

  • Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5]
    私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。 ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 17:59:01 GMT)
  • 多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。
  • リポジトリはGitHub – tencent-ailab/persona-hub

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

  • Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
    従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。 本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。 本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:04:25 GMT)
  • CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE(Mixture of insighTful Experts)の提案。
  • 「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。