コンテンツへスキップ
- ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 16:54:34 GMT)
- 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
- リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers
- WeatherBench 2: A benchmark for the next generation of data-driven global weather models [42.3]
WeatherBench 2は、Raspらによって提案されたグローバルな中距離(1~14日)の天気予報ベンチマークのアップデートである。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。
論文 参考訳(メタデータ) (Tue, 29 Aug 2023 18:32:08 GMT)
- data-driven weather modeling用データ、プロジェクトサイトがとても充実している。
- プロジェクトサイトはWeatherBench (research.google)
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [82.6]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。 このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (Thu, 31 Aug 2023 17:43:08 GMT)
- 「multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants.」ということで非常に多言語のMRCデータセット。機械翻訳におけるFLORES-200のような立ち位置で非常に貴重なデータセット
- 「GPT3.5-TURBO performs the best on the top 20 languages, but after 40-50, its performance falls far behind INFOXLM and XLM-V.」というベンチマーク結果が興味深い。商業システムはある程度ターゲットとなる言語を絞っているよう。
- リポジトリはGitHub – facebookresearch/belebele: Repo for the Belebele dataset, a massively multilingual reading comprehension dataset.
- PIPPA: A Partially Synthetic Conversational Dataset [13.4]
PIPPA(Personal Interaction Pairs between People and AI)という部分合成データセットを導入する。 PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。 データセットは、26,000の会話セッションに分散された100万以上の発話で構成されている。
論文 参考訳(メタデータ) (Fri, 11 Aug 2023 00:33:26 GMT)
- 26,000 conversation sessions、100万発話という大規模な人間-対話エージェント間のデータセット。
- データとモデルはHuggingfaceで公開されている PygmalionAI (Pygmalion) (huggingface.co)、データのライセンスはAGPLとのこと。
- SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文 参考訳(メタデータ) (Thu, 27 Jul 2023 17:24:09 GMT)
- LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
- 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
- プロジェクトサイトはcluebenchmarks.com/superclue.html
- EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 06:42:46 GMT)
- 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
- コードおよびデータは論文公開後に公開されるらしい
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:18:25 GMT)
- 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
- リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 14:56:35 GMT)
- ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
- 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
- プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”
- Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 00:08:49 GMT)
- Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
- プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。