- GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。 我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
論文 参考訳(メタデータ) (Sun, 26 Mar 2023 08:43:36 GMT) - かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が(以下略)
- KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと(そもそもこのタスクは相当困難な気はする)
- Our dataset will be publicly available after reviewらしい
タグ: データセット
MGTBench: Machine-Generated Textの検出ベンチマーク
- MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 26 Mar 2023 21:12:36 GMT) - 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
- リポジトリはGitHub – xinleihe/MGTBench
PosterLayout
- PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。 本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 12:48:36 GMT) - ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
- リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).
The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling
- The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (Thu, 30 Mar 2023 06:42:22 GMT) - デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
- 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)
MUG: Meeting Understanding and Generation benchmark
- MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文 参考訳(メタデータ) (Fri, 24 Mar 2023 11:52:25 GMT) - 会議の理解と生成に関するデータセット
- SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
- サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
- リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)
PRESTO
- PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs [39.6]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。 現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。 我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 02:26:52 GMT) - 多言語の会話データセット550K-examples、6言語と大規模。日本語が入っているのがうれしい。ライセンスはクリエイティブ・コモンズ — 表示 4.0 インターナショナル — CC BY 4.0 (creativecommons.org)
- リポジトリはGitHub – google-research-datasets/presto: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs
MEGA: Multilingual Evaluation of Generative AI
- MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 13:03:10 GMT) - データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
- davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。
TGDataset
- TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。 我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文 参考訳(メタデータ) (Thu, 9 Mar 2023 15:42:38 GMT) - 120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach(シードとなるチャネルから初めて送信元チャネルを取得していく)で作成されたとのこと。
- リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram Channels、TGDataset | Zenodo
SMC-Bench
- Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.2]
Sparsity May Cry”ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 18:47:21 GMT) - sparse neural network評価用のベンチマーク。難しいタスクを選ぶことで性能がより正確に測れそう。(というか簡単なタスクだとよくわからない)
- リポジトリはGitHub – VITA-Group/SMC-Bench: [ICLR 2023] “Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!” Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, AJAY KUMAR JAISWAL, Zhangyang Wang
CroCoSum
- CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (Tue, 7 Mar 2023 17:52:51 GMT) - クロスリンガルな要約データセット。英語→中国語。
- 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
- 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
- リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404