Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale

  • Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale [97.2]
    LLMは、デジタル環境と対話し、特定の目的を完遂する自律エージェントとして機能する。 デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、正確性はまだ十分ではない。 我々は、この間接的な知識を大規模に直接監督するアプローチであるSynatraを提案する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 00:51:45 GMT)
  • 複雑なタスクを対象としてAgentがとるべき行動を合成するアプローチの提案。マニュアル等で「キーワードを入力する」と書かれているような曖昧な箇所をLLMで補間することが性能向上寄与するという話のよう。Agentの限界(人間との違い)を感じるとともに合成データの有効性、LLMの強力さを感じる。
  • 「We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web.」と有効性を確認。「In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.1」コストパフォーマンスも優れる。
  • リポジトリはSynatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale (oootttyyy.github.io)

Empirical Insights on Fine-Tuning Large Language Models for Question-Answering 

  • Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.1]
    大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。 我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。 実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 07:38:38 GMT)
  • 「To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes.」、「What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes, implying that a simple post-processing calibration would bring back the pre-trained model’s capability and at the same time unveil the feature improvement over all classes.」という指摘。
  • リポジトリはGitHub – OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey 

  • Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.3]
    Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。 本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
    論文  参考訳(メタデータ)   (Mon, 16 Sep 2024 09:06:44 GMT)
  • 信頼できるAIに関するサーベイはよくあるがRAGを対象としたものは珍しいように思う。
  • リポジトリはGitHub – smallporridge/TrustworthyRAG