- Towards Vision-Language Geo-Foundation Model: A Survey [65.7]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 17:57:30 GMT) - Vision-Language Geo-Foundation Model(VLGFM)に関するサーベイ。Vision & Languageな基盤モデルで地球観測(地理的なもの)を含むものをVLGFMとしている。数多く発表されているのに若干驚き。
- リポジトリはGitHub – zytx121/Awesome-VLGFM: A Survey on Vision-Language Geo-Foundation Models (VLGFMs)
タグ: Survey
LLMs Meet Multimodal Generation and Editing: A Survey
- LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
論文 参考訳(メタデータ) (Wed, 29 May 2024 17:59:20 GMT) - 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
- 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).
Transformer in Touch: A Survey
- Transformer in Touch: A Survey [29.6]
自然言語処理の分野で最初に大きな成功を収めたTransformerモデルは、最近、触覚認識の応用に大きな可能性を示している。 本稿では,触覚技術におけるトランスフォーマーの適用と開発について概観する。
論文 参考訳(メタデータ) (Tue, 21 May 2024 13:26:27 GMT) - 触覚の領域にもTransformerが応用されつつあるようで、そのサーベイ
- いろいろなところで使われていて本当にすごい
A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges
- A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges [35.9]
マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
論文 参考訳(メタデータ) (Tue, 21 May 2024 10:34:47 GMT) - マルチモーダルな機械翻訳に関するサーベイ。研究が続いてきた分野ではあるがMLLMの影響を大きく受けそうな雰囲気(サーベイにも言及はある)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers
- A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.3]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。 本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (Fri, 17 May 2024 17:47:39 GMT) - LLMの多言語対応に関するサーベイ。
- リポジトリも参考になる GitHub – kaiyuhwang/MLLM-Survey: The paper list of multilingual pre-trained models (Continual Updated).
Large Language Models Meet NLP: A Survey
- Large Language Models Meet NLP: A Survey [79.7]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。 本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
論文 参考訳(メタデータ) (Tue, 21 May 2024 14:24:01 GMT) - 典型的なNLPタスクについてLLMを用いるアプローチを整理したサーベイ。結果がまとめられていないのがやや残念ではあるが、論文がリポジトリ(GitHub – LightChen233/Awesome-LLM-for-NLP)にまとまっているのが非常にありがたい。
Multimodal Fusion on Low-quality Data: A Comprehensive Survey
- Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.2]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。 低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。 この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (Sun, 05 May 2024 08:29:35 GMT) - multimodal fusion、クロスモーダルを含む低品質データ(ノイジーだったり不均衡だったり)取り扱いのサーベイ
A Comprehensive Survey on Data Augmentation
- A Comprehensive Survey on Data Augmentation [55.4]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。 既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。 本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (Wed, 15 May 2024 11:58:08 GMT) - データ拡張のサーベイ。生成AIを用いた手法も含まれる。
A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode
- A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode [33.2]
伝統的な時系列モデルはタスク固有であり、特異な機能と限定的な一般化能力を備えている。 大規模な言語基盤モデルは、クロスタスク転送性、ゼロショット/フェーショット学習、意思決定説明性といった、目覚ましい機能を公開した。 本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。
論文 参考訳(メタデータ) (Fri, 03 May 2024 03:12:55 GMT) - 時系列分析の基盤モデルのサーベイ。LLMから派生させているモデルも多い。
- Why Tabular Foundation Models Should Be a Research Priority – arXiv最新論文の紹介 (devneko.jp)でも思ったが汎用的知識がどのくらいあるのか気になるところ。
- 論文等がGitHub – start2020/Awesome-TimeSeries-LLM-FM: The collection of resources about LLM for Time series tasksにまとまっている
NeRF in Robotics: A Survey
- NeRF in Robotics: A Survey [95.1]
近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
論文 参考訳(メタデータ) (Thu, 02 May 2024 14:38:18 GMT) - Neural Radiance Fields のロボット分野への応用に関するサーベイ
- 「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。