- InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 17:58:32 GMT) - ビデオ-テキストのマルチモーダルデータセット
- リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub
タグ: データセット
FunQA, Movie101
- FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:59:55 GMT) - ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
- Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 11:42:44 GMT) - こちらはナレーション作成のタスクを対象とした映画のデータセット
- 同じく著作権的な疑問点があるためリンクは貼っていない
この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning
- Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。 並列かつ大規模な多言語会話データセットであるXSGDを紹介する。 我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
論文 参考訳(メタデータ) (Sat, 24 Jun 2023 06:18:33 GMT) - English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
- データセットはgoogle driveからダウンロードできるとのこと
MIMIC-IT
- MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.9]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。 我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (Thu, 8 Jun 2023 17:59:56 GMT) - 大規模なマルチモーダル(画像または動画)のinstruction-response データセット、日本語も含まれているとのこと
- リポジトリはGitHub – Luodian/Otter: 🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.
TheoremQA
- TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (Tue, 23 May 2023 22:35:20 GMT) - 定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
- GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
- リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset
Multi-lingual and Multi-cultural Figurative Language Understanding
- Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。 我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。 全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (Thu, 25 May 2023 15:30:31 GMT) - 多言語(多文化)な比喩表現(figurative language)のデータセット。
- 面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
- GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA
XTREME-UP
- XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。 我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (Wed, 24 May 2023 06:09:28 GMT) - 非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
- リポジトリはGitHub – google-research/xtreme-up
DLUE: Document Language Understanding Evaluation
- DLUE: Benchmarking Document Language Understanding [32.6]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。 本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。 新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (Tue, 16 May 2023 15:16:24 GMT) - 文書読解タスクのベンチマーク。document classification、document structure analysis、document information extraction、document transcriptionが対象。
- プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark
- GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。 オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。 我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (Thu, 11 May 2023 03:21:56 GMT) - 地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classificationがタスク。実用性が高そうなタスクという印象。
- リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)
Huatuo-26M
- Huatuo-26M, a Large-scale Chinese Medical QA Dataset [29.1]
本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。 検索と生成の両方の観点から、データセットの既存のアプローチをベンチマークします。 このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。
論文 参考訳(メタデータ) (Tue, 2 May 2023 15:33:01 GMT) - 2600万QAペアと非常に大規模な医療ドメインのQAデータセット、言語は中国語
- リポジトリはGitHub – FreedomIntelligence/Huatuo-26M: The Largest-scale Chinese Medical QA Dataset: with 26,000,000 question answer pairs.