EmoSet

  • EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
    EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 06:42:46 GMT)
  • 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
  • コードおよびデータは論文公開後に公開されるらしい

Disco-Bench

  • Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
    本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:18:25 GMT)
  • 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
  • リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404

FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets)

  • FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
    FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 14:56:35 GMT)
  • ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
  • 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
  • プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”

Amazon-M2

  • Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
    Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
    論文  参考訳(メタデータ)   (Wed, 19 Jul 2023 00:08:49 GMT)
  • Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
  • プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。

InternVid

  • InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
    InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 17:58:32 GMT)
  • ビデオ-テキストのマルチモーダルデータセット
  • リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub

FunQA, Movie101

  • FunQA: Towards Surprising Video Comprehension [34.3]
    本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:55 GMT)
  • ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
  • Movie101: A New Movie Understanding Benchmark [47.2]
    大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 11:42:44 GMT)
  • こちらはナレーション作成のタスクを対象とした映画のデータセット
  • 同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning

  • Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
    英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。 並列かつ大規模な多言語会話データセットであるXSGDを紹介する。 我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 06:18:33 GMT)
  •  English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
  • データセットはgoogle driveからダウンロードできるとのこと

MIMIC-IT

TheoremQA

  • TheoremQA: A Theorem-driven Question Answering dataset [57.4]
    GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
    論文  参考訳(メタデータ)   (Tue, 23 May 2023 22:35:20 GMT)
  • 定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
  • GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
  • リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

Multi-lingual and Multi-cultural Figurative Language Understanding

  • Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
    図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。 我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。 全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 15:30:31 GMT)
  • 多言語(多文化)な比喩表現(figurative language)のデータセット。
  • 面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
  • GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA