HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

  • HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.6]
    我々は32Kの実世界の画像質問対の総合的なベンチマークであるHumaniBenchを紹介する。 HumaniBenchは、公正性、倫理、理解、推論、言語の傾き、共感、堅牢性を含む7つのHuman Centered AI(HCAI)の原則を評価している。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 17:09:44 GMT)
  • 「HumaniBench probes seven HCAI principles—fairness, ethics, understanding, reasoning, language inclusivity, empathy, robustness—through seven diverse tasks that mix open- and closed-ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests.」というベンチマーク。商用モデルが優れた結果を出しているが、個別要素ではオープンなモデルが高スコアの場合もある。
  • プロジェクトサイトはHumaniBench: A Human-Centric Benchmark for Large Multimodal Models Evaluation

HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights

  • HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.8]
    HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。 コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 22:50:23 GMT)
  • 「Despite the widespread adoption of RAG, it faces three significant technical challenges that hinder its ability to scale to millions of documents.」はまさにその通りで、大規模RAGの構築にとって参考になる論文。
  • かなり凝ったことも行っている。(分野によっては)実用上もこのようなアプローチが必要になるんだろうか…

Whisper:OpenAIの高性能ASR

OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。