- OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 28 Sep 2021 15:15:57 GMT)- OpenViDialの5倍以上、5.6M対話と大きな画像付き対話データセット。データソースは映画やTVとのこと。
- リポジトリはhttps://github.com/ShannonAI/OpenViDial
タグ: データセット
PASS(Pictures without humAns for Self-Supervision) : 著作権や個人情報に配慮したデータセット
- PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 27 Sep 2021 17:59:39 GMT)- 著作権/ライセンスに問題がなく(Creative Commonsの CC BY)、人物画像を含まないデータセットの提案。ラベルが無いという制約はあるものの、このようなデータセットは実務上ありがたい。
- プロジェクトサイトはhttps://www.robots.ox.ac.uk/~vgg/research/pass/
FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク
- FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (Mon, 27 Sep 2021 00:57:30 GMT)- Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
- (k-fold CVよりMulti Splitの方が良いのはやや意外)
- リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。
- Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット
- NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。 また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 22 Sep 2021 09:17:09 GMT)- 算数の文章題のような数値推論を必要とするQAを含むバイリンガル(英語、中国語)のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。
CodeQA: プログラムコードに対するQuestion Answering
- CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (Fri, 17 Sep 2021 06:06:38 GMT)- ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
- リポジトリはhttps://github.com/jadecxliu/CodeQA
GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA
- Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 14 Sep 2021 17:52:55 GMT)- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
- 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。
- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
xGQA: 7言語の Visual Question Answering
- xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (Mon, 13 Sep 2021 15:58:21 GMT)- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA
SituatedQA:回答のために言語外の文脈が必要なQAデータセット
- SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。 質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。 我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 13 Sep 2021 17:53:21 GMT)- 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
- プロジェクトサイトはhttps://situatedqa.github.io/
M5Product: 600万以上のマルチモーダルデータセット
- M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 9 Sep 2021 13:50:22 GMT)- e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
- プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/
最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。
Talk-to-Edit: 対話による顔編集
- Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。 本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (Thu, 9 Sep 2021 17:17:59 GMT)- 自然なやりとりによって(例えば「もう少し笑って」と入力)顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
- プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。