Survey – ページ 24 – arXiv最新論文の紹介

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [31.5]
従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
論文参考訳（メタデータ） (Fri, 8 Mar 2024 07:58:13 GMT)
World modelになるかもというsoraの主張に対してのサーベイ。「it is understandable that OpenAI claims Sora as an AI model that understands and thus, can simulate the physical world.」としながらも様々な課題も指摘している。「Nonetheless, why scaling up is not a cure-all and how to liberate Sora from contemporary issues in vision generation tasks is still left as a blue ocean in vision generation research community」

A Survey of Graph Neural Networks in Real world: Imbalance, Noise, Privacy and OOD Challenges

A Survey of Graph Neural Networks in Real world: Imbalance, Noise, Privacy and OOD Challenges [75.4]
本稿では,既存のグラフニューラルネットワーク(GNN)を体系的にレビューする。まず、既存のGNNが直面している4つの重要な課題を強調し、現実のGNNモデルを探究する道を開く。
論文参考訳（メタデータ） (Thu, 7 Mar 2024 13:10:37 GMT)
GNN活用のサーベイ。imbalance, noise, privacy, OODを課題の軸として整理されている。内容は良いが、不思議な整理軸だなと思わなくもない。

Knowledge Conflictのサーベイ

Knowledge Conflicts for LLMs: A Survey [20.5]
調査では、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリに焦点が当てられている。これらの対立は、大規模言語モデルの信頼性と性能に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (Wed, 13 Mar 2024 08:02:23 GMT)
context-memory conflict, inter-context conflict, intra-memory conflictといったKnowledge Conflictsのサーベイ
サーベイはあまり見ないが、応用面で重要なもの。

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models [77.9]
ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
論文参考訳（メタデータ） (Thu, 7 Mar 2024 04:19:13 GMT)
アライメントのサーベイ、と同時にLLMの急速な進化が感じられる。

Datasets for Large Language Models

Datasets for Large Language Models: A Comprehensive Survey [37.2]
この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
論文参考訳（メタデータ） (Wed, 28 Feb 2024 04:35:51 GMT)
LLM向けデータセットのサーベイ。日本語を含むものはあれど、日本語をターゲットに作られたものは少ない。
リポジトリはlmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets. (github.com)

Large Multimodal Agents: A Survey

Large Multimodal Agents: A Survey [78.8]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (Fri, 23 Feb 2024 06:04:23 GMT)
研究が流行っているLLM＆マルチモーダル＆エージェントのサーベイ
リポジトリも参考になる　jun0wanan/awesome-large-multimodal-agents (github.com)

A Survey on Data Selection for Language Models

A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (Mon, 26 Feb 2024 18:54:35 GMT)
データ選択（クレンジング含む）に関するサーベイ。40ページ超と分量が多い。
この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

Open-world Machine Learning: A Review and New Outlooks

Open-world Machine Learning: A Review and New Outlooks [88.6]
本稿では,新たなオープンワールド機械学習パラダイムを包括的に紹介することを目的としている。研究者がそれぞれの分野でより強力なAIシステムを構築するのを支援し、人工知能の開発を促進することを目的としている。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 06:25:26 GMT)
「This paper provides a holistic view of open-world machine learning by investigating unknown rejection, novel class discovery, and class-incremental learning in a unified paradigm」ということで開かれた世界に対する機械学習で必要な要素を整理した論文。
対象ドメインやどの程度のことが起こりうるのかという意味でもオープンさにもよるのだろうが、LLM時代においても難しい部分が多いのだろうか。

Spurious Correlations in Machine Learning: A Survey

Spurious Correlations in Machine Learning: A Survey [69.9]
機械学習システムは、入力の偏りのある特徴と対応するラベルの間の急激な相関に敏感である。これらの特徴とそのラベルとの相関は”spurious”として知られている。我々は、機械学習モデルにおける素早い相関に対処する現在の最先端の手法の分類とともに、この問題を包括的にレビューする。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 04:49:34 GMT)
頭の痛い問題を引き起こす機械学習における疑似相関に関するサーベイ、「When the correlations captured during training no longer hold in the test data, the performance of ML models tends to deteriorate, resulting in robustness issues and negative social impact in critical domains, such as healthcare.」はその通り。
対処法も参考になるがdetectionをどうにかしたいところ。

The (R)Evolution of Multimodal Large Language Models: A Survey

The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 19:01:01 GMT)
マルチモーダルなLLMのサーベイ
本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31