ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report

LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAIGrounding with Google Search  |  Gemini API  |  Google AI for DevelopersGround responses for Gemini models  |  Generative AI on Vertex AI  |  Google Cloudに注目。

前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。

後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。

その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。

  • GPT-4o System Card [211.9]
    GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 17:43:01 GMT)
  • Baichuan Alignment Technical Report [42.0]
    ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
    論文  参考訳(メタデータ)   (Sat, 19 Oct 2024 02:07:33 GMT)
  • A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
    信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 17:51:08 GMT)
  • 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。

SearChain: Search-in-the-Chain

  • Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
    本稿では,マルチホップ質問応答のためのLLM生成コンテンツの正確性,信頼性,トレーサビリティを向上させるために,検索・イン・ザ・チェイン(SearChain)と呼ばれる新しいフレームワークを提案する。 SearChainは大規模言語モデル(LLM)と情報検索(IR)を深く統合したフレームワークである
    論文  参考訳(メタデータ)   (Fri, 5 May 2023 02:35:48 GMT)
  • LLM + information retrievalでマルチホップな問題を解くフレームワークの提案、複数のベンチマークで優れた性能
  •  プロンプト自体・使い方・複数回の問い合わせを工夫していくのはまだまだ続きそうで、LLMの鉱脈は深そう

Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

論文探索システム

  • Augmenting Scientific Creativity with Retrieval across Knowledge Domains [31.7]
    論文要約から,エンドユーザが関心のあるテキストコアの一部を選択できる探索検索システムを開発した。 研究者らによるケーススタディは、クロスドメイン探索とインスピレーションを促進することを目的としたシステムにおける機会と設計の意味を明らかにする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 22:55:51 GMT)

SBIR(Sketch based image retrieval):フリーハンドスケッチを利用した検索

  • Compositional Sketch Search [91.8]
    フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。 シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
    論文  参考訳(メタデータ)   (Tue, 15 Jun 2021 09:38:09 GMT)
    • フリーハンドで書いたスケッチをもとに検索を行うシステムの報告。このような検索は便利。