AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Responsible AI Considerations in Text Summarization Research: A Review of Current Practices

  • Responsible AI Considerations in Text Summarization Research: A Review of Current Practices [89.9]
    私たちは、責任あるAIコミュニティがほとんど見落としている共通のNLPタスクである、テキスト要約に重点を置いています。 我々は,2020-2022年に出版されたACLアンソロジーから333の要約論文の多段階的質的分析を行った。 私たちは、どの、どの、どの責任あるAI問題がカバーされているか、どの関係するステークホルダーが考慮されているか、そして、述べられた研究目標と実現された研究目標のミスマッチに焦点を合わせます。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 15:35:36 GMT)
  • テキスト要約に対するResponsibleAIのサーベイ、「 automatic text summarization systems have seen increasing use—despite the known risks of generating incorrect, biased, or otherwise harmful summaries.」は確かにそう思う一方で「Most papers do not discuss the limitations of their own work, and rarely include any ethical reflections.」とのこと
  • 人に何かを伝えるシステムではこの手の話題はとても重要。

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

  • Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text [33.4]
    GPT-4は、スクランブルされた文から元の文をほぼ完全に再構築することができる。 LLMが入力トークン化を著しく破壊しているにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 18:51:38 GMT)
  • 人はタイプミスが含まれていても文書の意味が把握できるが、LLMだとどうかを検証した論文。GPT-4のリカバリーレートが凄すぎる面白い結果。暗号文読解能力があることが関連しているんやろか。
  • リポジトリはGitHub – ccqq77/unnatural-error-correctionだがcoming soon

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

  • Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.3]
    大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 08:39:17 GMT)
  •  reference-freeなハルシネーション検出手法の提案、「The proposed method aims to imitate human factuality checking by considering three aspects: focus on informative keywords, focus on preceding words and focus on token properties.」という方法
  • リポジトリはGitHub – zthang/Focus

A Reevaluation of Event Extraction: Past, Present, and Future Challenges

  • A Reevaluation of Event Extraction: Past, Present, and Future Challenges [136.7]
    イベント抽出は近年、多くの応用の可能性から多くの注目を集めている。 最近の研究では、いくつかの評価課題が観察されており、報告されたスコアは真のパフォーマンスを反映していない可能性があることを示唆している。 イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTEXTEEを提案する。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 04:43:03 GMT)
  • Event Extractionのサーベイとベンチマークの提案。以前の評価の問題点の一個目が「Unfair comparison」、「Due to the lack of a standardized evaluation framework, we observe that many approaches are inappropriately compared in the previous literature.」とかなり厳しめ。
  • LLM関連として Llama-2-13B、GPT3.5-turboの結果も記載されているが、特化型モデルと比べて低いスコアとなっている。
  • リポジトリはGitHub – ej0cl6/TextEE: A standardized, fair, and reproducible benchmark for evaluating event extraction approaches

Visual In-Context Prompting

  • Visual In-Context Prompting [100.9]
    本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 18:59:48 GMT)
  • Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
  • リポジトリはGitHub – UX-Decoder/DINOv

Tracking the Newsworthiness of Public Documents

  • Tracking the Newsworthiness of Public Documents [107.1]
    この研究は、サンフランシスコ・クロニクル(San Francisco Chronicle)によるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てている。 まず、新聞記事、公共政策文書、会議記録を収集し、確率的関係モデルを用いてそれらをリンクする。 第二に、ポリシー項目がカバーされるかどうかを予測するために、newsworthiness predictionという新しいタスクを定義します。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 10:05:26 GMT)
  • 政策とニュースのリンク、および報道する価値があるか予測するnewsworthiness predictionというタスクの提案。リアルなニーズに自然言語処理で対応していく論文であり興味深い。また、シンプルな手法が複雑な手法を上回っている部分もありその点も面白い。一方でLLMを使う部分はleakの懸念がぬぐえない気もする。

Towards more Practical Threat Models in Artificial Intelligence Security

  • Towards more Practical Threat Models in Artificial Intelligence Security [71.5]
    我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。 我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 16:09:44 GMT)
  • AIセキュリティに関して研究と実際の差を分析した論文。key findingsを見るだけでも結構なギャップがありそう。。。

TGDoc

  • Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
    本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 06:46:37 GMT)
  • Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

DocPedia

  • DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
    本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
    論文  参考訳(メタデータ)   (Mon, 20 Nov 2023 14:42:25 GMT)
  • 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
  • LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。