Survey – ページ 11 – arXiv最新論文の紹介

A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities

A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
論文参考訳（メタデータ） (Mon, 13 Jan 2025 16:35:52 GMT)
医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える

Harnessing Large Language Models for Disaster Management: A Survey

Harnessing Large Language Models for Disaster Management: A Survey [57.0]
大規模言語モデル(LLM)は、その例外的な能力で科学研究に革命をもたらし、様々な分野を変革した。本研究の目的は,災害対策のための高度LLMの開発における専門家コミュニティの指導であり,自然災害に対するレジリエンスを高めることである。
論文参考訳（メタデータ） (Sun, 12 Jan 2025 21:00:50 GMT)
災害へのLLM適用に関するサーベイで、Mitigation、Preparedness、Response、Recoveryの軸で整理

Generative AI for Cel-Animation: A Survey

Generative AI for Cel-Animation: A Survey [40.2]
GenAIは、技術的障壁を低くし、アクセシビリティを拡大し、アーティストがクリエイティブな表現と芸術的革新に集中できるようにすることによって、伝統的なアニメーションに革命をもたらしている。その可能性にもかかわらず、一貫性の維持、スタイリスティックな一貫性の確保、倫理的配慮への対処といった問題は引き続き課題を提起している。
論文参考訳（メタデータ） (Wed, 08 Jan 2025 20:57:39 GMT)
アニメーションにおける生成AIのサーベイ。
リポジトリはGitHub – yunlong10/Awesome-AI4Animation: 🔥🔥🔥 This repository includes latest papers, projects and datasets on GenAI for Cel-Animation.

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文参考訳（メタデータ） (Thu, 16 Jan 2025 17:37:58 GMT)
OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
下記でも思ったが本当に進展が速い

O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文参考訳（メタデータ） (Sat, 11 Jan 2025 07:10:23 GMT)
プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。 VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
論文参考訳（メタデータ） (Sat, 04 Jan 2025 04:59:33 GMT)
「we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed over the past five years (2019-2024); [2] the main architectures and training methods of these VLMs; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the applications of VLMs including embodied agents, robotics, and video generation; [5] the challenges and issues faced by current VLMs such as hallucination, fairness, and safety.」とVLMのサーベイ。
リポジトリはGitHub – zli12321/VLM-surveys: A most Frontend Collection and survey of vision-language model papers, and models GitHub repository

Open Problems in Machine Unlearning for AI Safety

Open Problems in Machine Unlearning for AI Safety [61.4]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文参考訳（メタデータ） (Thu, 09 Jan 2025 03:59:10 GMT)
重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。

LLM4SR: A Survey on Large Language Models for Scientific Research

LLM4SR: A Survey on Large Language Models for Scientific Research [15.5]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文参考訳（メタデータ） (Wed, 08 Jan 2025 06:44:02 GMT)
LLM、特にAgenticな動作が流行って以降、実用性がでてきている感のある研究へのLLM利用に関するサーベイ。仮説を作るところからピアレビューまで一連のプロセスを対象にしている。

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey [93.7]
Next Token Prediction (NTP)は、機械学習タスクの多目的な学習目標である。本調査では,マルチモーダル学習における理解と生成を一体化する包括的分類法を導入する。提案した分類法は,マルチモーダルトークン化,MMNTPモデルアーキテクチャ,統合タスク表現,データセットと評価,オープンチャレンジの5つの重要な側面を網羅している。
論文参考訳（メタデータ） (Mon, 30 Dec 2024 03:00:30 GMT)
一般的なテクニックとなったNext token predictionのサーベイ、マルチモーダルな学習を対象にしている。
リポジトリはGitHub – LMM101/Awesome-Multimodal-Next-Token-Prediction: Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Knowledge Boundary of Large Language Models: A Survey

Knowledge Boundary of Large Language Models: A Survey [75.7]
大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。これは、LLMの知識境界を理解するための重要な必要性を強調している。本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文参考訳（メタデータ） (Tue, 17 Dec 2024 02:14:02 GMT)
LLMの知識境界に関するサーベイ
面白い視点

GUI Agents: A Survey

GUI Agents: A Survey [129.9]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 04:48:28 GMT)
GUIをつかうエージェントに関するサーベイ

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30