コンテンツへスキップ
- MAQA: A Multimodal QA Benchmark for Negation [12.1]
マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
論文 参考訳(メタデータ) (Mon, 9 Jan 2023 10:11:23 GMT)
- 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
- 構築したデータセットは公開予定とのこと
- ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。 モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。 我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
論文 参考訳(メタデータ) (Wed, 11 Jan 2023 00:22:56 GMT)
- 気候変動に関連するベンチマークでNLP向け
- リポジトリはGitHub – climabench/climabench
- ReCode: Robustness Evaluation of Code Generation Models [90.1]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (Tue, 20 Dec 2022 14:11:31 GMT)
- コード生成の頑健性を評価するためのベンチマーク
- GitHub – amazon-science/recode
- Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution [65.2]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。 既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (Sat, 10 Dec 2022 17:41:46 GMT)
- 実世界のビデオ超解像用データセット構築及びSoTAの提案。
- リポジトリはhttps://github.com/HITRainer/EAVSR
- UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (Tue, 6 Dec 2022 04:37:51 GMT)
- 数学問題のベンチマークとそれらを解く手法の提案
- リポジトリはchen-judge/UniGeo (github.com)
- Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 15:24:16 GMT)
- 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
- mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…
- PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
論文 参考訳(メタデータ) (Sat, 19 Nov 2022 18:31:34 GMT)
- セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
- リポジトリはlutao2021/PIDray (github.com)