- HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.8]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。 コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 22:50:23 GMT) - 「Despite the widespread adoption of RAG, it faces three significant technical challenges that hinder its ability to scale to millions of documents.」はまさにその通りで、大規模RAGの構築にとって参考になる論文。
- かなり凝ったことも行っている。(分野によっては)実用上もこのようなアプローチが必要になるんだろうか…
カテゴリー: 未分類
Whisper:OpenAIの高性能ASR
- Introducing Whisper (openai.com)
- Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)
OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。
多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる
競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI
コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。
- DeepMindが競技プログラミングを解けるレベルの自動コード生成が可能なAlphaCodeを発表
- OpenAIは数学オリンピックの問題を解く(大幅に性能向上させた)AIを発表