LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

  • LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
    人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 14:56:13 GMT)
  • よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
  • リポジトリはGitHub – dmg-illc/JUDGE-BENCH

Text-Animator: Controllable Visual Text Video Generation

  • Text-Animator: Controllable Visual Text Video Generation [149.9]
    ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:59:41 GMT)
  • 文字が入ったアニメ動画を生成する研究、通常の位置制御とカメラの位置制御も可能とのこと。短い動画ではあるがテキストの保持が綺麗にできておりすごい。
  • プロジェクトサイトはText-Animator (laulampaul.github.io)

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing 

  • LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.5]
    大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。 本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。 私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 01:30:22 GMT)
  • LLMが研究者を支援できるかどうか、レビュワー・メタレビュワーの観点で試行した論文
  • 結論として「Our analysis reveals that while LLMs can generate reviews, they often produce Deficient and paper-unspecific segments, lacking the diversity and constructive feedbacks.Additionally, even state-of-the-art LLMs struggle to assess review deficiencies effectively.」