LongBench

  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
    LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。 英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 11:53:40 GMT)
  • LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning(「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など), Synthetic Tasks(「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など), Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
  • リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

A Survey on Large Language Model based Autonomous Agents

  • A Survey on Large Language Model based Autonomous Agents [107.8]
    大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。 本稿では,自律エージェントの分野を包括的観点から体系的に検討する。 社会科学,自然科学,工学の分野におけるLLMベースのAIエージェントの様々な応用について概説する。 
    論文  参考訳(メタデータ)   (Tue, 22 Aug 2023 13:30:37 GMT)
  • LLMを用いたAIエージェントに関するサーベイ。フレームワークとしてprofiling module, memory module, planning module, action moduleでの構成が想定されている。LLM活用が流行ってからエージェントへの応用、さらにそれらのサーベイが出るというスピード感がとても早い。。。
  • 関連するリポジトリが用意されている。https://github.com/Paitesanshi/LLM-Agent-Survey

PIPPA: Personal Interaction Pairs between People and AI

  • PIPPA: A Partially Synthetic Conversational Dataset [13.4]
    PIPPA(Personal Interaction Pairs between People and AI)という部分合成データセットを導入する。 PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。 データセットは、26,000の会話セッションに分散された100万以上の発話で構成されている。
    論文  参考訳(メタデータ)   (Fri, 11 Aug 2023 00:33:26 GMT)
  •  26,000 conversation sessions、100万発話という大規模な人間-対話エージェント間のデータセット。
  • データとモデルはHuggingfaceで公開されている PygmalionAI (Pygmalion) (huggingface.co)、データのライセンスはAGPLとのこと。

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

  • An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [74.0]
    カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい情報を学ぶ際に学習した情報を忘れたときに発生する現象である。 本研究では,大言語モデルの知識における忘れ現象を,ドメイン知識,推論,理解という観点から実証的に評価する。 
    論文  参考訳(メタデータ)   (Thu, 17 Aug 2023 02:53:23 GMT)
  • 破壊的忘却に関する報告、デコーダonlyなBLOOMZとエンコーダ-デコーダなmT0を比較すると、BLOOMZの方が知識を維持しやすいという結果。「 diverse instruction tuning can help mitigate the CF phenomenon 」を含めとても興味深い。
  • リポジトリはhttps://github.com/LuoXiaoHeics/Continual-Tune

FSCIL(Few-shot Class-Incremental Learning)のサーベイ

  • Few-shot Class-incremental Learning: A Survey [16.7]
    FSCIL(Few-shot Class-Incremental Learning)は、機械学習においてユニークな課題である。 本稿は、FSCILの総合的かつ体系的なレビューを提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 13 Aug 2023 13:01:21 GMT)
  • 学習した知識を忘れずに新たなクラスを扱う(各クラスは限られたデータしかない)手法(FSCIL(Few-shot Class-Incremental Learning))のサーベイ

ExpeL: Experiential Learning

  • ExpeL: LLM Agents Are Experiential Learners [60.5]
    実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。 我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。 推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。 
    論文  参考訳(メタデータ)   (Sun, 20 Aug 2023 03:03:34 GMT)
  • Experiential Learningとしてパラメータチューニングを必要としないLLMの自律的な学習?手法を提案。過去の経験を記憶、評価、修正していくアプローチのようにみえ、全てを自然言語で処理していくのが面白い。人間がとって活用していくメモのように見える。ReActより優れたパフォーマンスとのこと。
  • リポジトリはhttps://github.com/Andrewzh112/ExpeLだがComing soon

Machine Unlearningのサーベイ

  • Machine Unlearning: Solutions and Challenges [23.1]
    機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ侵害、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 10:45:51 GMT)
  • Machine Unlearningのサーベイ、EXACT UNLEARNING、APPROXIMATE UNLEARNINGに分けてレビューがなされている。SISA(Sharding, Isolation, Slicing, and Aggregation )が有名な気がしつつ、いろいろなアプローチがあって興味深い。

Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection

  • Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [65.9]
    本研究では,カモフラージュデータの合成フレームワークを提案する。 提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。 我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
    論文  参考訳(メタデータ)   (Sun, 13 Aug 2023 06:55:05 GMT)
  • camouflaged object detectionに合成データを用いるアプローチを提案、複数のデータでSoTAを主張。データ生成はGANベースとのこと。
  • 正直やや意外な結果、カモフラージュデータの生成の方が物体検出より容易とのことなのだろうか・・・?

ChatEval

LLMRec: Benchmarking Large Language Models on Recommendation Task

  • LLMRec: Benchmarking Large Language Models on Recommendation Task [54.5]
    推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。 我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。 ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。 
    論文  参考訳(メタデータ)   (Wed, 23 Aug 2023 16:32:54 GMT)
  • LLMを用いた推薦システム用ベンチマークの提案。「The benchmark results demonstrate that existing LLMs perform well in rating prediction tasks but show poor performance in sequential and direct recommendation tasks.」とのことでいわゆる普通のレコメンデーションタスクについては厳しめの結果。
  • リポジトリはhttps://github.com/williamliujl/llmrec