コンテンツへスキップ
- Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文 参考訳(メタデータ) (Fri, 23 Aug 2024 07:31:01 GMT)
- マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
- 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
- リポジトリはGitHub – DeepReasoning/aihealth
- MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:46:51 GMT)
- Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:09:54 GMT)
- 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
- リポジトリはArboretum (baskargroup.github.io)
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.8]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。 この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 17:58:52 GMT)
- 画像編集に関するサーベイ、引用数が300を超える包括的内容、GitHub – xinchengshuai/Awesome-Image-Editingとリポジトリも公開されている。
- MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:52 GMT)
- マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
- リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face
- A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges [35.9]
マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
論文 参考訳(メタデータ) (Tue, 21 May 2024 10:34:47 GMT)
- マルチモーダルな機械翻訳に関するサーベイ。研究が続いてきた分野ではあるがMLLMの影響を大きく受けそうな雰囲気(サーベイにも言及はある)
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (Tue, 26 Mar 2024 10:04:24 GMT)
- 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
- データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face