MEDITRON-70B

  • MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.3]
    大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
    論文  参考訳(メタデータ)   (Mon, 27 Nov 2023 18:49:43 GMT)
  • 医療特化型の大規模言語モデルの提案。最初のページの図が規模としても時間感覚としても分かりやすい。様々な評価がされているのでドメイン特化型の効果も把握できる。
  • リポジトリはGitHub – epfLLM/meditron: Meditron is a suite of open-source medical Large Language Models (LLMs).

AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

  • Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text [33.4]
    GPT-4は、スクランブルされた文から元の文をほぼ完全に再構築することができる。 LLMが入力トークン化を著しく破壊しているにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 18:51:38 GMT)
  • 人はタイプミスが含まれていても文書の意味が把握できるが、LLMだとどうかを検証した論文。GPT-4のリカバリーレートが凄すぎる面白い結果。暗号文読解能力があることが関連しているんやろか。
  • リポジトリはGitHub – ccqq77/unnatural-error-correctionだがcoming soon

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

  • Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.3]
    大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 08:39:17 GMT)
  •  reference-freeなハルシネーション検出手法の提案、「The proposed method aims to imitate human factuality checking by considering three aspects: focus on informative keywords, focus on preceding words and focus on token properties.」という方法
  • リポジトリはGitHub – zthang/Focus

Visual In-Context Prompting

  • Visual In-Context Prompting [100.9]
    本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 18:59:48 GMT)
  • Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
  • リポジトリはGitHub – UX-Decoder/DINOv

TGDoc

  • Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
    本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 06:46:37 GMT)
  • Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

DocPedia

  • DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
    本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
    論文  参考訳(メタデータ)   (Mon, 20 Nov 2023 14:42:25 GMT)
  • 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
  • LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。

TPTU-v2

  • TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
    本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
    論文  参考訳(メタデータ)   (Sun, 19 Nov 2023 12:37:30 GMT)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
  • API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。

Adapters

  • Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
    本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 13:53:26 GMT)
  • HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
  • リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

INSGENEL: Instructed Generative Entity Linker