When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study

  • When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.2]
    Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。 我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
    論文  参考訳(メタデータ)   (Tue, 8 Aug 2023 16:17:46 GMT)
  • カモフラージュされたものに対するObject Detectionと超解像のサーベイ。
  • 超シンプルにやるとどうなるんだろうという気もしなくはない

Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

Secrets of RLHF in Large Language Models Part I: PPO

  • Secrets of RLHF in Large Language Models Part I: PPO [81.0]
    大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。 現在の技術ルートには、人間の嗜好を測定するための reward モデル、ポリシーモデルの出力を最適化する Proximal Policy Optimization (PPO)、ステップバイステップの推論能力を改善する process 監督が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの大規模な試行とエラーコストが相まって、AI研究者が技術的アライメントの開発を動機付ける大きな障壁がある。
    論文  参考訳(メタデータ)   (Tue, 11 Jul 2023 01:55:24 GMT)
  • RLHFに関する詳細なレポート、リポジトリはGitHub – OpenLMLab/MOSS-RLHF: MOSS-RLHF、プロジェクトサイトがMOSS-RLHF (openlmlab.github.io)にある。

Recommender Systems in the Era of Large Language Models (LLMs)

  • Recommender Systems in the Era of Large Language Models (LLMs) [31.5]
    大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 06:03:40 GMT)
  • LLM時代の推薦システムに関すルサーベイ。この分野にもLLMの影響は大きく、ChatGPTをバックボーンにしている研究も多い。

A Survey on Evaluation of Large Language Models 

  • A Survey on Evaluation of Large Language Models [69.7]
    大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:28:35 GMT)
  • LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
  • 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
  • リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey

Towards Open Vocabulary Learning: A Survey

  • Towards Open Vocabulary Learning: A Survey [122.4]
    ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。 近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。 本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 28 Jun 2023 02:33:06 GMT)
  • open vocabulary object detection やsegmentaitonといったOpen Vocabulary Learningのサーベイ。リポジトリがGitHub – jianzongwu/Awesome-Open-Vocabularyにあり、論文一覧やカテゴリなど非常に参考になる。

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

  • A Survey on Multimodal Large Language Models [56.8]
    マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 15:21:52 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
  • リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。
  • Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
    このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。 視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。 前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。 最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:31 GMT)
  • CVPRのマルチモーダルモデルのチュートリアル
  • スライド:https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

Recent Developments in Recommender Systems: A Survey

  • Recent Developments in Recommender Systems: A Survey [34.8]
    この研究は、パーソナライズされたシステムやグループレコメンデーションシステムを含む、レコメンデーションシステムの主要な分類を包括的にまとめることから始まる。 この調査は、レコメンデータシステムにおける堅牢性、データバイアス、公平性の問題を分析します。 この研究は、リコメンデータシステムの開発における最新のトレンドについての洞察を提供し、この分野における今後の研究の方向性を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 05:51:49 GMT)
  • レコメンデーションのサーベイ、ChatGPT関連の言及は最終章に若干ある程度ではあるが、高度化の流れや実装上の課題と対応を振り返るには良いサーベイ。

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

  • A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.4]
    Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。 我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
    論文  参考訳(メタデータ)   (Sun, 11 Jun 2023 23:13:51 GMT)
  • Transformerの適用に関する総合的なサーベイ、分野としてNatural Language Processing, Computer Vision, Multi-Modal, Audio/Speech, Signal Processingを挙げ、様々な手法を紹介している。
  • 時系列での手法進化を振り返るのに良いサーベイ

GPT-4とGPT-3.5の信頼性

  • DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
    本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 17:24:23 GMT)
  • GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は(jailbreakingされた場合も)より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
  • プロジェクトサイトはDecodingTrust Benchmark