ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report

LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAIGrounding with Google Search  |  Gemini API  |  Google AI for DevelopersGround responses for Gemini models  |  Generative AI on Vertex AI  |  Google Cloudに注目。

前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。

後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。

その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。

  • GPT-4o System Card [211.9]
    GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 17:43:01 GMT)
  • Baichuan Alignment Technical Report [42.0]
    ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
    論文  参考訳(メタデータ)   (Sat, 19 Oct 2024 02:07:33 GMT)
  • A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
    信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 17:51:08 GMT)
  • 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。

Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization

  • Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.7]
    CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。 現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。 近年の研究では、LCSタスクにおけるLLMの性能は、わずかな設定でも満足できないことが示されている。
    論文  参考訳(メタデータ)   (Sat, 26 Oct 2024 00:39:44 GMT)
  • LLMを用いたクロスリンガルでの要約方法の検証。低リソースな言語において、SUMMARIZATION, IMPROVEMENT, TRANSLATION and REFINEMENT (SITR)の4段階からなるfour-step zero-shot SITR architectureが有効との結果。

xGen-MM-Vid (BLIP-3-Video)

  • xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
    ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 17:59:11 GMT)
  • salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
  • リポジトリはxGen-MM-Vid (BLIP-3-Video)

JudgeBench: A Benchmark for Evaluating LLM-based Judges

  • JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
    judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 17:58:19 GMT)
  • LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
  • リポジトリはGitHub – ScalerLab/JudgeBench

ComPO: Community Preferences for Language Model Personalization 

  • ComPO: Community Preferences for Language Model Personalization [122.5]
    ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 14:02:40 GMT)
  • 言語モデルをpersonalizationする手法COMPOの提案。「Our proposed community preference optimization incorporates subreddit-specific contexts into the model, tailoring outputs to align with the distinct norms and values of individual communities.」というアプローチ。
  • リポジトリはGitHub – allenai/compred: Reddit Community Preferences

Prompt Compression for Large Language Models: A Survey

  • Prompt Compression for Large Language Models: A Survey [31.6]
    本稿では, ハードプロンプト法とソフトプロンプト法に分類した, プロンプト圧縮技術の概要について述べる。 また, 各種急速圧縮手法の下流適応について検討した。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 09:13:23 GMT)
  • プロンプト圧縮手法のサーベイ

Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch 

  • Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.5]
    ScaleQuestはスケーラブルで斬新なデータ合成手法である。 複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。 主要なオープンソースモデルの性能を普遍的に向上させることができる。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 12:42:04 GMT)
  • 商用モデルでは広く利用されていると思われる、合成データを介してモデル性能を強化するフレームワークの提案。「 Our experiments demonstrate the model’s self-improvement capability, meaning that it can generate data of higher quality than its original training set.」という記載も興味深い。
  • リポジトリはGitHub – yyDing1/ScaleQuest: We introduce ScaleQuest, a scalable, novel and cost-effective data synthesis method to unleash the reasoning capability of LLMs.

Taipan: Efficient and Expressive State Space Language Models with Selective Attention 

  • Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.2]
    自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。 我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。 我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 09:25:37 GMT)
  • Mamba-2 + Selective Attention Layersなアーキテクチャの提案。MambaやJambaを超える性能を主張。ハイブリッドアプローチが有望?

HalluEditBench、Should We Really Edit Language Models? On the Evaluation of Edited Language Models 

  • Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.6]
    既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。 インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。 その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 14:36:48 GMT)
  • 知識編集に関する分析、「The experimental results indicate that existing editing methods can preserve the general capabilities of the model within a limited number of edits, not exceeding a few dozen.」、「Our experiments demonstrate that after only a few dozen edits, the safety of the model is compromised, including those models that have been aligned.」という指摘。また、「Language model with large scale is more resistant to editing compared to small model.」というのも、Knowledge Editingの研究成果が実問題に適用困難である可能性を示唆していると思う。

  • Can Knowledge Editing Really Correct Hallucinations? [16.3]
    大規模言語モデル(LLM)は、タスクにまたがる優れた能力にもかかわらず、生成されたコンテンツの非現実的な情報を参照しながら幻覚に悩まされる。 知識編集は,LLMで符号化された誤った事実知識を,スクラッチからリトレーニングを避けるという利点によって補正する,新しい一般的なパラダイムとして開発された。 実世界の幻覚を正すための知識編集手法を全体ベンチマークするために,HaluEditBenchを提案する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 17:55:54 GMT)
  • Knowledge Editingに関するベンチマークの提案、「The effectiveness of knowledge editing methods in correcting real-world hallucinations could be far from what their performance on existing datasets suggests, reflecting the potential unreliability of current assessment of different knowledge editing techniques.」と気になる指摘がある。
  • リポジトリはEditing LLMs

In-context learning and Occam’s razor 

  • In-context learning and Occam’s razor [12.6]
    我々はオッカムのカミソリと文脈内学習の関連を描いている。 特に,テキスト内学習者の訓練に使用される次点の予測損失は,事前符号化と呼ばれるデータ圧縮手法と直接的に等価であることを示す。 我々の理論と実証実験は、文脈内学習の規範的な説明を提供するだけでなく、現在の文脈内学習手法の欠点を解明する。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 23:37:34 GMT)
  • ICLの解析、MambaのようなSSMも扱われている。
  • リポジトリはGitHub – 3rdCore/PrequentialCode