MAQA: A Multimodal QA Benchmark for Negation

  • MAQA: A Multimodal QA Benchmark for Negation [12.1]
    マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:11:23 GMT)
  • 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
  • 構築したデータセットは公開予定とのこと

SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

ClimaBench

  • ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
    気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。 モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。 我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 00:22:56 GMT)
  • 気候変動に関連するベンチマークでNLP向け
  • リポジトリはGitHub – climabench/climabench

PropSegmEnt

ReCode: Robustness Evaluation of Code Generation Models

  • ReCode: Robustness Evaluation of Code Generation Models [90.1]
    コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
    論文  参考訳(メタデータ)   (Tue, 20 Dec 2022 14:11:31 GMT)
  • コード生成の頑健性を評価するためのベンチマーク
  • GitHub – amazon-science/recode

MVSR4x: Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution

  • Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution [65.2]
    ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。 既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
    論文  参考訳(メタデータ)   (Sat, 10 Dec 2022 17:41:46 GMT)
  • 実世界のビデオ超解像用データセット構築及びSoTAの提案。
  • リポジトリはhttps://github.com/HITRainer/EAVSR

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

  • UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
    計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 04:37:51 GMT)
  • 数学問題のベンチマークとそれらを解く手法の提案
  • リポジトリはchen-judge/UniGeo (github.com)

CREPE: CorREction of PrEsupposition

  • CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
    オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
    論文  参考訳(メタデータ)   (Wed, 30 Nov 2022 18:54:49 GMT)
  • 前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
  • 当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論(訂正)せねばならず面白い。
  • リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)

Long-Document Cross-Lingual Summarization

  • Long-Document Cross-Lingual Summarization [15.8]
    言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 15:24:16 GMT)
  • 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
  • mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…

PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection

  • PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
    PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
    論文  参考訳(メタデータ)   (Sat, 19 Nov 2022 18:31:34 GMT)
  • セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
  • リポジトリはlutao2021/PIDray (github.com)