The Ever-Evolving Science Exam

  • The Ever-Evolving Science Exam [32.2]
    1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(クエスト・アンサー・ペア)と,2)定期的に更新された500インスタンスサブセット**EESE*,サンプルと検証により,リーク耐性,低オーバヘッド評価を実現する。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 12:22:16 GMT)
  • 「1) We build a large-scale, high-quality, non-public instances repository, named EESE-Pool, which contains over 100,000 science in- stances. This pool is constructed under strict principles of Range, Reach, and Rigor. 2) We periodically sample a dynamic subset of 500 instances, called EESE, for actual evaluation. This subset is carefully curated to maintain Range, Reach, and Rigor, while mitigating leakage risk and reducing evaluation inefficiency through regular updates.」という大規模でLeakなどに強いベンチマークの提案。
  • リポジトリはaiben-ch/EESE: The Ever-Evolving Science Exam

Diffusion Models for Time Series Forecasting: A Survey

  • Diffusion Models for Time Series Forecasting: A Survey [14.3]
    拡散モデルは、当初は画像合成のために開発されたが、顕著な生成能力を示している。 近年, 時系列予測 (TSF) に応用が拡大され, 有望な結果が得られた。 本調査はTSFにおける拡散モデルの最近の進展と今後の展望を詳述し、この分野の研究者の参考となる。
    論文  参考訳(メタデータ)   (Sat, 19 Jul 2025 07:04:04 GMT)
  • Diffusionモデルの時系列予測への応用に関するサーベイ。
  • リポジトリはhttps://github.com/synlp/TSF-Diff-Review

Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text 

  • Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.7]
    テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。 1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。 これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
    論文  参考訳(メタデータ)   (Sat, 26 Jul 2025 14:59:04 GMT)
  • 「We introduce Text2Vis, a benchmark for evaluating LLMs in text-to-visualization tasks, featuring diverse datasets and over 20 chart types to support complex queries involving multi-step reasoning, retrieval, multi-chart generation, and conversations.」というベンチマークの提案。Agenticな処理フレームワークによって性能が向上とのこと。
  • リポジトリはvis-nlp/Text2Vis