Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。

SurveySum

  • SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
    本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 11:13:23 GMT)
  • 学術論文の要約データセット
  • リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

  • Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
    Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。 本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
    論文  参考訳(メタデータ)   (Sat, 01 Jun 2024 17:28:38 GMT)

Speech-MASSIVE

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

  • DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
    本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 13:17:42 GMT)
  • 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
  • リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

Consent in Crisis: The Rapid Decline of the AI Data Commons 

  • Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
    汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
    論文  参考訳(メタデータ)   (Sat, 20 Jul 2024 16:50:18 GMT)
  • 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
  • リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
  • SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

  • Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
    このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:09:54 GMT)
  • 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
  • リポジトリはArboretum (baskargroup.github.io)

Fake News Detection: It’s All in the Data!

  • Fake News Detection: It’s All in the Data! [0.1]
    調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
    論文  参考訳(メタデータ)   (Tue, 02 Jul 2024 10:12:06 GMT)
  • フェイクニュース検出のためのデータセット
  • リポジトリはGitHub – fakenewsresearch/dataset

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction

  • OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
    295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 07:46:17 GMT)
  • 複雑な材料特性(光の反射特性や透過特性など)に対する3D reconstructionデータセット
  • リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)

CS-Bench

  • CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
    計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 18:47:28 GMT)
  • コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
  • リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

MuirBench

  • MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
    マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:59:52 GMT)
  • マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
  • リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face