GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

  • GPT-4 Technical Report [0.0]
    GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。 試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 04:59:24 GMT)
  • GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証(GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))からも性能が向上していることは間違いなさそう。
  • 一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている(Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com))。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう(Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog)。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.(非商用利用のみ)、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub(Apache-2ライセンス)などが発表されている。

様々な観点(性能やコスト、Trustworthyな要素など)から比較してみたいのと、純粋になぜ多く問題が取り扱えるか?という理由が知りたい。

SelfCheckGPT

  • SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [35.6]
    SelfCheckGPTは、ゼロリソース方式でファクトチェックブラックボックスモデルに対する単純なサンプリングベースアプローチである。 我々は、GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する。 我々は,SelfCheckGPTが,非事実文と事実文とを検出できることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Mar 2023 19:31:21 GMT)
  • ゼロリソース、ブラックボックス(LLMの応答のみ利用)で実行可能なHullucination検出方法の提案。Hullucinationが起きない、LLMが良く知っているものであれば応答も近しくなるというアイデア
  • リポジトリはGitHub – potsawee/selfcheckgpt: SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models