Large Language Models Understand Layouts

  • Large Language Models Understand Layouts [6.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 09:03:12 GMT)
  • LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
  • リポジトリはGitHub – liweim/TextLayoutLLM

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

  • MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
    MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 17:59:26 GMT)
  • マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
  • リポジトリはMMLongBench-Doc (mayubo2333.github.io)

How Does Quantization Affect Multilingual LLMs? 

  • How Does Quantization Affect Multilingual LLMs? [50.9]
    量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:39:40 GMT)
  • LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
  • 多言語(というか日本語)への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。

CausalScore

  • CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
    本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 06:08:16 GMT)
  • 「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
  • リポジトリはGitHub – WilliamsToTo/causalscore_dialogue

BMIKE-53

  • BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning [43.1]
    知識編集(KE)は、大規模言語モデルの知識を更新するための有効なソリューションとして登場した。 3種類のKEタスクタイプにわたる53の多言語における言語間KE評価のためのBMIKE-53ベンチマークを提案する。 本評価では,信頼性,汎用性,局所性,可搬性の観点から,言語間知識伝達に着目した。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:48:56 GMT)
  • マルチリンガルな知識編集ベンチマークと、Multilingual In-context Knowledge Editing (MIKE) 手法の提案
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

  • PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
    大規模言語モデル(LLM)はNLPの分野に革命をもたらした。 本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 17:56:29 GMT)
  • 機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
  • プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe

A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics 

  • A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics [4.3]
    産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。 本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。
    論文  参考訳(メタデータ)   (Thu, 27 Jun 2024 00:59:20 GMT)
  • デジタルツインに着目した攻撃に関するサーベイ
  • 想定しているフレームワークは「Physical spaces comprise robotic sensors that collect data.Virtual space utilizes the data collected from physical space via a communication link between them.Predictions are generated by the AI models within vitual space, which are then analyzed before decisions are made by stakeholders.」

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods 

  • Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
    テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
    論文  参考訳(メタデータ)   (Fri, 21 Jun 2024 18:31:49 GMT)
  • テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
  • 必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。

PINE : Position-INvariant inferencE

  • Eliminating Position Bias of Language Models: A Mechanistic Approach [119.3]
    位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。 因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。 本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 09:06:57 GMT)
  • 位置バイアスを除去する手法の提案。アテンションスコアの類似性を使って位置情報を割り当てなおすアプローチのよう(?)、トレーニングフリーだが計算コストは高めに思える。
  • 位置バイアスは「Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs).」とMLLMでも影響ありとのこと。
  • リポジトリはGitHub – wzq016/PINE: Offcial Repo of Paper “Eliminating Position Bias of Language Models: A Mechanistic Approach””

Fake News Detection: It’s All in the Data!

  • Fake News Detection: It’s All in the Data! [0.1]
    調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
    論文  参考訳(メタデータ)   (Tue, 02 Jul 2024 10:12:06 GMT)
  • フェイクニュース検出のためのデータセット
  • リポジトリはGitHub – fakenewsresearch/dataset