Data Gemma

Googleから発表されたDataGemmaも興味深い取り組み(DataGemma: AI open models connecting LLMs to Google’s Data Commons (blog.google)Grounding AI in reality with a little help from Data Commons (research.google))である。

Home – Data Commonsを利用してハルシネーションを抑えようというものでRIG (Retrieval-Interleaved Generation) とRAG (Retrieval-Augmented Generation) のユースケースを想定。モデルはgoogle/datagemma-rig-27b-it · Hugging Facegoogle/datagemma-rag-27b-it · Hugging Faceに公開れている。

上記モデルはRIGであれば「The DataGemma model (based on the 27 billion parameter Gemma 2 model and fully fine-tuned for this RIG task) generates a response, which includes a natural language query for Data Commons’ existing natural language interface, specifically designed to retrieve relevant data. For example, instead of stating “The population of California is 39 million”, the model would produce “The population of California is [DC(What is the population of California?) → “39 million”]”, allowing for external verification and increased accuracy.」、RAGであれば「The DataGemma model (based on the Gemma 2 (27B) model and fully fine-tuned for this RAG task) analyzes the user’s query and generates a corresponding query (or queries) in natural language that can be understood by Data Commons’ existing natural language interface.」とのことでData Commonsの既存インタフェースをうまく活用できるようになっている。

この手のfine tuningは重要になりつつあるように思う。

SYNTHETIC CONTINUED PRETRAINING

  • Synthetic continued pretraining [29.7]
    与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。 本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。 合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
    論文  参考訳(メタデータ)   (Wed, 11 Sep 2024 17:21:59 GMT)
  • ナレッジグラフを介して合成データを構築するEntiGraphの提案。「Synthetic continued pretraining with EntiGraph demonstrates consistent scaling in downstream closed-book QA performance up to a 600M token synthetic corpus, whereas baselines such as continued pretraining on the small corpus or synthetic paraphrases show no improvement or asymptote early.」とのことで有効性を確認
  • 抽象的な「知識」を介したほうが、表現の変換よりも良い(学習に利用可能な)情報を提供できるという解釈で良いのだろうか。

Large Language Model-Based Agents for Software Engineering: A Survey 

The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers by Zheyuan (Kevin) Cui, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, Tobias Salz :: SSRN
「Though each separate experiment is noisy, combined across all three experiments and 4,867 software developers, our analysis reveals a 26.08% increase (SE: 10.3%) in the number of completed tasks among developers using the AI tool.」という報告もあり、ソフトウェアエンジニアリングにおけるAI活用はどんどん進んでいくのだろうか。

A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

  • A Survey on Evaluation of Multimodal Large Language Models [11.6]
    マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:05:55 GMT)
  • MLLMの評価に関するサーベイ
  • What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
    ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 20:35:42 GMT)
  • ストーリーに対する評価のサーベイ

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

  • From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [90.0]
    大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。 近年の研究では、教師付き微調整(SFT)を用いて、お世辞問題を軽減することが提案されている。 そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 07:01:37 GMT)
  • 「When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer.」というSycophancyへ対応するためピンポイントなチューニングを適用
  • 「The proposed pinpoint tuning consists of two steps: ➀: “diagnose” for where in the network attributes to the sycophancy; ➁: precisely optimize the pinpointed components to improve the performance.」とのことだが、いろいろ有効そうな場所が多そうなアプローチ

The representation landscape of few-shot learning and fine-tuning in large language models

  • The representation landscape of few-shot learning and fine-tuning in large language models [43.8]
    In-context Learning (ICL) と supervised Fine-tuning (SFT) は、現代の大規模言語モデル (LLM) の性能向上のための2つの一般的な戦略である。 この2つの事例において,隠れた表現の確率的景観を解析した。 ICLとSFTは、どちらもネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成する。
    論文  参考訳(メタデータ)   (Thu, 5 Sep 2024 16:15:12 GMT)
  • ICLとSFTの動作の差の分析、「we compare how LLMs solve the same question-answering task, finding that ICL and SFT create very different internal structures, in both cases undergoing a sharp transition in the middle of the network.」とのことで挙動がかなり異なるよう。

Claim Verification in the Age of Large Language Models: A Survey 

  • Claim Verification in the Age of Large Language Models: A Survey [37.3]
    本稿では,Large Language Models (LLMs) を用いた最近のクレーム検証フレームワークについて概説する。 これらのフレームワークで使用されるクレーム検証パイプラインのさまざまなコンポーネントを詳述する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 14:45:03 GMT)
  • LLM時代のclaim verification (fact verification)に関するサーベイ。
  • LLMによって大きな影響を受けている分野

Towards Graph Prompt Learning: A Survey and Beyond 

  • Towards Graph Prompt Learning: A Survey and Beyond [38.6]
    大規模”事前訓練と迅速な学習”パラダイムは、顕著な適応性を示している。 この調査は、この分野における100以上の関連する研究を分類し、一般的な設計原則と最新の応用を要約する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 06:36:42 GMT)
  • グラフにおけるPromptLearningのサーベイ
  • 自然言語(LLM)では既に一般的だが、「While prompt engineering has been extensively studied and applied in NLP and CV , its application in graph learning remains relatively unexplored.」とのこと。データ構造の差は大きいので様々な考慮点がある。

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

  • What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.7]
    拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。 既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。 本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。 以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 13:30:00 GMT)
  • Multi-Agent Interactive Multi-hop Generation (MIMG) frameworkによるマルチホップなデータ合成とそのデータの有効性検証。さまざまな研究でAgenticな動作によるデータ合成は有効であることが知られていて、この分野のベストプラクティスとしても有効。「a quality verification agent, a single-hop question generation agent, a multiple question sampling strategy, and a multi-hop question merger agent」と多数のエージェントが協調。
  • リポジトリはGitHub – WowCZ/LongMIT: LongMIT: Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets

A Survey on Evaluating Large Language Models in Code Generation Tasks

  • A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
    本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 12:56:06 GMT)
  • 盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
  • 機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。