Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

  • Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.3]
    大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 08:39:17 GMT)
  •  reference-freeなハルシネーション検出手法の提案、「The proposed method aims to imitate human factuality checking by considering three aspects: focus on informative keywords, focus on preceding words and focus on token properties.」という方法
  • リポジトリはGitHub – zthang/Focus

Visual In-Context Prompting

  • Visual In-Context Prompting [100.9]
    本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 18:59:48 GMT)
  • Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
  • リポジトリはGitHub – UX-Decoder/DINOv

TGDoc

  • Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
    本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 06:46:37 GMT)
  • Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

DocPedia

  • DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
    本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
    論文  参考訳(メタデータ)   (Mon, 20 Nov 2023 14:42:25 GMT)
  • 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
  • LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。

TPTU-v2

  • TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
    本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
    論文  参考訳(メタデータ)   (Sun, 19 Nov 2023 12:37:30 GMT)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
  • API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。

Adapters

  • Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
    本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 13:53:26 GMT)
  • HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
  • リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

INSGENEL: Instructed Generative Entity Linker

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge 

INSTRUSUM 

  • Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
    命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。 本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 18:25:26 GMT)
  • 制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。(もとから簡単なタスクではないではないものの)LLMであれば対応可能と言い切れないのは興味深い結果。
  • リポジトリはGitHub – yale-nlp/InstruSum

SEMQA: Semi-Extractive Multi-Source Question Answering