MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

 HC3 (Human ChatGPT Comparison Corpus) dataset

  • How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
    ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 15:23:25 GMT)
  • ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約4万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
  • 本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
  • リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

MAQA: A Multimodal QA Benchmark for Negation

  • MAQA: A Multimodal QA Benchmark for Negation [12.1]
    マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:11:23 GMT)
  • 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
  • 構築したデータセットは公開予定とのこと

SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

ClimaBench

  • ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
    気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。 モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。 我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 00:22:56 GMT)
  • 気候変動に関連するベンチマークでNLP向け
  • リポジトリはGitHub – climabench/climabench

PropSegmEnt

ReCode: Robustness Evaluation of Code Generation Models

  • ReCode: Robustness Evaluation of Code Generation Models [90.1]
    コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
    論文  参考訳(メタデータ)   (Tue, 20 Dec 2022 14:11:31 GMT)
  • コード生成の頑健性を評価するためのベンチマーク
  • GitHub – amazon-science/recode

MVSR4x: Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution

  • Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution [65.2]
    ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。 既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
    論文  参考訳(メタデータ)   (Sat, 10 Dec 2022 17:41:46 GMT)
  • 実世界のビデオ超解像用データセット構築及びSoTAの提案。
  • リポジトリはhttps://github.com/HITRainer/EAVSR

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

  • UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
    計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 04:37:51 GMT)
  • 数学問題のベンチマークとそれらを解く手法の提案
  • リポジトリはchen-judge/UniGeo (github.com)

CREPE: CorREction of PrEsupposition

  • CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
    オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
    論文  参考訳(メタデータ)   (Wed, 30 Nov 2022 18:54:49 GMT)
  • 前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
  • 当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論(訂正)せねばならず面白い。
  • リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)