Learning to Reason and Memorize with Self-Notes 

  • Learning to Reason and Memorize with Self-Notes [41.7]
    大規模言語モデルは、限られた文脈記憶と多段階推論に苦しむことが示されている。 本稿では,これらの問題を解決するための簡単な手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 1 May 2023 14:02:48 GMT)
  • Self-Noteというスクラッチパッドとして機能する部分をプロンプトに入れてモデル自体がそこをメモとして利用可能とする研究
  • LLMを使っていると長さ制限に苦しむことが多く非常に欲しい機能

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

  • Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
    このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。 実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 17:56:11 GMT)
  • 進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう(細かい点ではいろいろあるが)
  • 実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう!と思った。
  • Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
    大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。 我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 19:00:43 GMT)
  • 因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
  • GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。
  • Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
    OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。 記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 22:35:03 GMT)
  • 結構な書籍の内容がGPT-4の中に記憶されているのでは?という内容。membership inference系。
  • (当然だが)記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要(ということはわかりつつも具体的な対策は簡単ではない…)
  • リポジトリが公開されている GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”
  • Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
    我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。 人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 05:46:48 GMT)
  • ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
  • リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code
  • New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
    機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。 本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 03:27:27 GMT)
  • 機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
  • Personalized MTも今まではなかなか困難だったが、LLM+プロンプトでかなり有効に実現できそうな予感(機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している)
  • Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
    大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。 まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 05:21:09 GMT)
  • GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題
  • AutoML-GPT: Automatic Machine Learning with GPT [74.3]
    本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。 本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。 このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 02:09:43 GMT)
  • AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野