FSCIL(Few-shot Class-Incremental Learning)のサーベイ

  • Few-shot Class-incremental Learning: A Survey [16.7]
    FSCIL(Few-shot Class-Incremental Learning)は、機械学習においてユニークな課題である。 本稿は、FSCILの総合的かつ体系的なレビューを提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 13 Aug 2023 13:01:21 GMT)
  • 学習した知識を忘れずに新たなクラスを扱う(各クラスは限られたデータしかない)手法(FSCIL(Few-shot Class-Incremental Learning))のサーベイ

Machine Unlearningのサーベイ

  • Machine Unlearning: Solutions and Challenges [23.1]
    機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ侵害、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 10:45:51 GMT)
  • Machine Unlearningのサーベイ、EXACT UNLEARNING、APPROXIMATE UNLEARNINGに分けてレビューがなされている。SISA(Sharding, Isolation, Slicing, and Aggregation )が有名な気がしつつ、いろいろなアプローチがあって興味深い。

When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study

  • When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.2]
    Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。 我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
    論文  参考訳(メタデータ)   (Tue, 8 Aug 2023 16:17:46 GMT)
  • カモフラージュされたものに対するObject Detectionと超解像のサーベイ。
  • 超シンプルにやるとどうなるんだろうという気もしなくはない

Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

Secrets of RLHF in Large Language Models Part I: PPO

  • Secrets of RLHF in Large Language Models Part I: PPO [81.0]
    大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。 現在の技術ルートには、人間の嗜好を測定するための reward モデル、ポリシーモデルの出力を最適化する Proximal Policy Optimization (PPO)、ステップバイステップの推論能力を改善する process 監督が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの大規模な試行とエラーコストが相まって、AI研究者が技術的アライメントの開発を動機付ける大きな障壁がある。
    論文  参考訳(メタデータ)   (Tue, 11 Jul 2023 01:55:24 GMT)
  • RLHFに関する詳細なレポート、リポジトリはGitHub – OpenLMLab/MOSS-RLHF: MOSS-RLHF、プロジェクトサイトがMOSS-RLHF (openlmlab.github.io)にある。

Recommender Systems in the Era of Large Language Models (LLMs)

  • Recommender Systems in the Era of Large Language Models (LLMs) [31.5]
    大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 06:03:40 GMT)
  • LLM時代の推薦システムに関すルサーベイ。この分野にもLLMの影響は大きく、ChatGPTをバックボーンにしている研究も多い。

A Survey on Evaluation of Large Language Models 

  • A Survey on Evaluation of Large Language Models [69.7]
    大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:28:35 GMT)
  • LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
  • 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
  • リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey

Towards Open Vocabulary Learning: A Survey

  • Towards Open Vocabulary Learning: A Survey [122.4]
    ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。 近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。 本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 28 Jun 2023 02:33:06 GMT)
  • open vocabulary object detection やsegmentaitonといったOpen Vocabulary Learningのサーベイ。リポジトリがGitHub – jianzongwu/Awesome-Open-Vocabularyにあり、論文一覧やカテゴリなど非常に参考になる。

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

  • A Survey on Multimodal Large Language Models [56.8]
    マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 15:21:52 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
  • リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。
  • Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
    このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。 視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。 前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。 最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:31 GMT)
  • CVPRのマルチモーダルモデルのチュートリアル
  • スライド:https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

Recent Developments in Recommender Systems: A Survey

  • Recent Developments in Recommender Systems: A Survey [34.8]
    この研究は、パーソナライズされたシステムやグループレコメンデーションシステムを含む、レコメンデーションシステムの主要な分類を包括的にまとめることから始まる。 この調査は、レコメンデータシステムにおける堅牢性、データバイアス、公平性の問題を分析します。 この研究は、リコメンデータシステムの開発における最新のトレンドについての洞察を提供し、この分野における今後の研究の方向性を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 05:51:49 GMT)
  • レコメンデーションのサーベイ、ChatGPT関連の言及は最終章に若干ある程度ではあるが、高度化の流れや実装上の課題と対応を振り返るには良いサーベイ。