The Earth is Flat? Unveiling Factual Errors in Large Language Models

  • The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
    ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。 それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 14:02:27 GMT)
  • WIkidataをベースに 3種類(Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問))のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
  • 「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い(が、この評価を解釈するのは難しそう…)、コード等公開予定とのこと。

ChartAssisstant

  • ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
    ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。 その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 17:51:48 GMT)
  • こちらはチャートを扱える(Vision-Languageでチャートに特化した)マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
  • リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

  • DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
    本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 22:37:52 GMT)
  • bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
  • 「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。

A Comprehensive Study of Knowledge Editing for Large Language Models

CALM: Composition to Augment Language Models

  • LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
    CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。 低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 18:53:01 GMT)
  • 2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
  • 実験はPaLM-XXSの特化版+PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版(だったり個人スマホで個人向けに特化した版)+Gemini Ultraみたいな構成も想定しているんだろうか。