DD-Ranking: Rethinking the Evaluation of Dataset Distillation

  • DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.3]
    本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。 DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 16:19:50 GMT)
  • データセット蒸留に対するベンチマークの提案。「It aims to provide a fair evaluation scheme for DD methods that can decouple the impacts from knowledge distillation and data augmentation to reflect the real informativeness of the distilled data. Under the finding that the test accuracy no longer fits the need for fair and comprehensive evaluation, we design new metrics for both the label representation and data augmentation.」とのこと。モチベーションの一つになっているものだが「DD-Ranking demonstrate that previous performance improvements commonly originate from the enhanced model training techniques instead of the distilled dataset.」という指摘も興味深い。
  • リポジトリはGitHub – NUS-HPC-AI-Lab/DD-Ranking: Data distillation benchmark

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection

  • Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection [48.2]
    人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。 WikiDYKはウィキペディアの「Did You Know…」エントリから最近追加された人文的な事実を活用する。 WikiDYKには12,290の事実と77,180の質問が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 May 2025 08:39:05 GMT)
  • 「Our extensive experiments reveal a critical limitation: under continued pre-training, Causal Language Models (CLMs) exhibit significantly weaker knowledge memorization compared to Bidirectional Language Models (BiLMs). To address this gap, we proposed a modular collaborative framework that integrates BiLMs as dynamic external knowledge repositories with LLMs.」とのこと。今はCausal LM全盛という感じだが、BiLMの活用はありえるのだろうか。速度的な問題次第・・・?
  • リポジトリはGitHub – zhang-yu-wei/WikiDYK

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

  • Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
    本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。 開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。 この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 09:04:16 GMT)
  • Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
  • リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face

Generative AI for Autonomous Driving: Frontiers and Opportunities 

  • Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6]
    この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。 まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。 我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 17:59:20 GMT)
  • 生成AI&自動運転のサーベイ。プレイヤーもタスクも多い領域。
  • リポジトリはGitHub – taco-group/GenAI4AD: a comprehensive and critical synthesis of the emerging role of GenAI across the autonomous driving stack