コンテンツへスキップ
- A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。 医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。 我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 30 Jan 2022 18:06:31 GMT)
- COIN++: Data Agnostic Neural Compression [55.3]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。 様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (Sun, 30 Jan 2022 20:12:04 GMT)- 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能
- IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 18:53:22 GMT)- 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)