- PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.5]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。 提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。 我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (Wed, 21 Dec 2022 04:03:33 GMT) - entailment taskのデータセット、文内にもアノテーションがされていることが特徴できめ細かい、かつ、大規模
- リポジトリはGitHub – google-research-datasets/PropSegmEnt: PropSegmEnt is an annotated dataset for segmenting English text into propositions, and recognizing proposition-level entailment relations – whether a different, related document entails each proposition, contradicts it, or neither. It consists of clusters of closely related documents from the news and Wikipedia domains.
タグ: データセット
ReCode: Robustness Evaluation of Code Generation Models
- ReCode: Robustness Evaluation of Code Generation Models [90.1]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (Tue, 20 Dec 2022 14:11:31 GMT) - コード生成の頑健性を評価するためのベンチマーク
- GitHub – amazon-science/recode
MVSR4x: Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution
- Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution [65.2]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。 既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (Sat, 10 Dec 2022 17:41:46 GMT) - 実世界のビデオ超解像用データセット構築及びSoTAの提案。
- リポジトリはhttps://github.com/HITRainer/EAVSR
UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression
- UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (Tue, 6 Dec 2022 04:37:51 GMT) - 数学問題のベンチマークとそれらを解く手法の提案
- リポジトリはchen-judge/UniGeo (github.com)
CREPE: CorREction of PrEsupposition
- CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (Wed, 30 Nov 2022 18:54:49 GMT) - 前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
- 当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論(訂正)せねばならず面白い。
- リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)
Long-Document Cross-Lingual Summarization
- Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 15:24:16 GMT) - 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
- mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…
PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection
- PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
論文 参考訳(メタデータ) (Sat, 19 Nov 2022 18:31:34 GMT) - セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
- リポジトリはlutao2021/PIDray (github.com)
Never-Ending VIsual-classification Stream (Nevis’22)
- NEVIS’22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.5]
我々は100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS’22)を紹介する。 分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。 NEVIS’22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 18:57:46 GMT) - 画像系ベンチマークを収集したもので106タスクからなるとのこと。AutoMLのターゲットになるのかなーと思う。
- リポジトリはdeepmind/dm_nevis: NEVIS’22: Benchmarking the next generation of never-ending learners (github.com)、Benchmarking the next generation of never-ending learners (deepmind.com)にBlogの記事がある。
PromptTTS / PromptSpeechデータセット
- PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 10:58:38 GMT) - テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
- プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research
UniSummとSummZoo
- UniSumm: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning [54.6]
UniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。 SummZooは、数ショットの要約システムを評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:54:47 GMT) - マイクロソフトによるfew shot要約モデルとベンチマークの提案
- PEGASUSなどと比べても非常に高い性能、few shot設定は実用上も重要なので注目したい
- プロジェクトサイトはmicrosoft/UniSumm: UNISUMM: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning (github.com)