- L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 17:59:41 GMT) - 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
- リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark
タグ: データセット
EmoSet
- EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 06:42:46 GMT) - 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
- コードおよびデータは論文公開後に公開されるらしい
Disco-Bench
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:18:25 GMT) - 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
- リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404
FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets)
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 14:56:35 GMT) - ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
- 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
- プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”
Amazon-M2
- Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 00:08:49 GMT) - Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
- プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。
InternVid
- InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 17:58:32 GMT) - ビデオ-テキストのマルチモーダルデータセット
- リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub
FunQA, Movie101
- FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:59:55 GMT) - ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
- Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 11:42:44 GMT) - こちらはナレーション作成のタスクを対象とした映画のデータセット
- 同じく著作権的な疑問点があるためリンクは貼っていない
この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning
- Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。 並列かつ大規模な多言語会話データセットであるXSGDを紹介する。 我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
論文 参考訳(メタデータ) (Sat, 24 Jun 2023 06:18:33 GMT) - English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
- データセットはgoogle driveからダウンロードできるとのこと
MIMIC-IT
- MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.9]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。 我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (Thu, 8 Jun 2023 17:59:56 GMT) - 大規模なマルチモーダル(画像または動画)のinstruction-response データセット、日本語も含まれているとのこと
- リポジトリはGitHub – Luodian/Otter: 🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.
TheoremQA
- TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (Tue, 23 May 2023 22:35:20 GMT) - 定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
- GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
- リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset