Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey 

  • Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey [93.7]
    Next Token Prediction (NTP)は、機械学習タスクの多目的な学習目標である。 本調査では,マルチモーダル学習における理解と生成を一体化する包括的分類法を導入する。 提案した分類法は,マルチモーダルトークン化,MMNTPモデルアーキテクチャ,統合タスク表現,データセットと評価,オープンチャレンジの5つの重要な側面を網羅している。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 03:00:30 GMT)
  • 一般的なテクニックとなったNext token predictionのサーベイ、マルチモーダルな学習を対象にしている。
  • リポジトリはGitHub – LMM101/Awesome-Multimodal-Next-Token-Prediction: Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Knowledge Boundary of Large Language Models: A Survey

  • Knowledge Boundary of Large Language Models: A Survey [75.7]
    大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。 これは、LLMの知識境界を理解するための重要な必要性を強調している。 本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
    論文  参考訳(メタデータ)   (Tue, 17 Dec 2024 02:14:02 GMT)
  • LLMの知識境界に関するサーベイ
  • 面白い視点

GUI Agents: A Survey

  • GUI Agents: A Survey [129.9]
    グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 04:48:28 GMT)
  • GUIをつかうエージェントに関するサーベイ

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

A Survey on LLM Inference-Time Self-Improvement

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice

  • Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.1]
    非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。 未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。 これら2つの目標 – モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 – は、様々な技術的および現実的な課題を表す。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 20:18:43 GMT)
  • Machine unlearningに関する包括的な情報。「despite the intuitive alignment of the meanings of the words “removal” and “deletion,” it is unclear if technical removal is indeed necessary to satisfy deletion requirements in law and policy.」など技術的な部分以外への言及に力を入れた整理でとても参考になる。

A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios

  • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
    ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。 本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 06:46:46 GMT)
  • ゲーム理論な文脈でのLLM based Agentsのサーベイ。

Personalized Multimodal Large Language Models: A Survey

  • Personalized Multimodal Large Language Models: A Survey [128.0]
    マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。 本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 03:59:03 GMT)
  • MLLMのパーソナライズに関するサーベイ。テキスト生成、画像生成、レコメンデーション、検索が対象。

Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models 

  • Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9]
    データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 02:47:45 GMT)
  • 合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。

Large Language Model-Brained GUI Agents: A Survey

  • Large Language Model-Brained GUI Agents: A Survey [43.2]
    マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 12:13:39 GMT)
  • GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。