Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

A Survey on Data Selection for Language Models

  • A Survey on Data Selection for Language Models [151.6]
    データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 18:54:35 GMT)
  • データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
  • この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

Open-world Machine Learning: A Review and New Outlooks 

  • Open-world Machine Learning: A Review and New Outlooks [88.6]
    本稿では,新たなオープンワールド機械学習パラダイムを包括的に紹介することを目的としている。 研究者がそれぞれの分野でより強力なAIシステムを構築するのを支援し、人工知能の開発を促進することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 4 Mar 2024 06:25:26 GMT)
  • 「This paper provides a holistic view of open-world machine learning by investigating unknown rejection, novel class discovery, and class-incremental learning in a unified paradigm」ということで開かれた世界に対する機械学習で必要な要素を整理した論文。
  • 対象ドメインやどの程度のことが起こりうるのかという意味でもオープンさにもよるのだろうが、LLM時代においても難しい部分が多いのだろうか。

Spurious Correlations in Machine Learning: A Survey

  • Spurious Correlations in Machine Learning: A Survey [69.9]
    機械学習システムは、入力の偏りのある特徴と対応するラベルの間の急激な相関に敏感である。 これらの特徴とそのラベルとの相関は”spurious”として知られている。 我々は、機械学習モデルにおける素早い相関に対処する現在の最先端の手法の分類とともに、この問題を包括的にレビューする。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 04:49:34 GMT)
  • 頭の痛い問題を引き起こす機械学習における疑似相関に関するサーベイ、「When the correlations captured during training no longer hold in the test data, the performance of ML models tends to deteriorate, resulting in robustness issues and negative social impact in critical domains, such as healthcare.」はその通り。
  • 対処法も参考になるがdetectionをどうにかしたいところ。

The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

Video as the New Language for Real-World Decision Making

  • Video as the New Language for Real-World Decision Making [100.7]
    ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
    論文  参考訳(メタデータ)   (Tue, 27 Feb 2024 02:05:29 GMT)
  • ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
  • 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。

TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization

  • TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization [37.9]
    本稿では,ニューラルテキスト要約に関する文献を探索する新たなツールであるTL;DR Progressについて述べる。 テキスト要約アプローチのための包括的なアノテーションスキームに基づいて、514の論文を整理する。
    論文  参考訳(メタデータ)   (Sat, 10 Feb 2024 09:16:56 GMT)
  • 要約関連の論文まとめサイトの提供。動作しているWEBシステムであり分類のやり方など実践的。
  • プロジェクトサイトはTLDR Progress (tldr-progress.de)

Large Language Models: A Survey

  • Large Language Models: A Survey [69.7]
    大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 05:37:09 GMT)
  • LLMのサーベイ。この分野のサーベイは多いが整理軸が様々で面白い。

Continual Learning for Large Language Models: A Survey

  • Continual Learning for Large Language Models: A Survey [95.8]
    大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。 本稿では,LLMの連続学習に関する最近の研究について述べる。
    論文  参考訳(メタデータ)   (Fri, 2 Feb 2024 12:34:09 GMT)
  • LLMに対する継続学習のサーベイだが、Continual Pre-training、Continual Instruction Tuning、Continual Alignment と事前学習以後の話題を扱っているのが興味深い。
  • Fact, Domain, Language, Task, Skills, Values, Preferencesのどこを対象としているか表している図2も参考にある(ザックリとしているので異論もあるだろうけど)

Let’s Negotiate! A Survey of Negotiation Dialogue Systems

  • Let’s Negotiate! A Survey of Negotiation Dialogue Systems [56.0]
    交渉は人間のコミュニケーションにおいて重要な能力である。 近年の交渉対話システムへの関心は、紛争の解決や合意の達成を支援するインテリジェントなエージェントを作ることを目標としている。
    論文  参考訳(メタデータ)   (Fri, 2 Feb 2024 02:12:46 GMT)
  • 交渉を行うエージェントのサーベイ