GPT-4の話題、Bardの登場

今週もGPT-4関連の話題、論文が多く出ていた。GoogleのBardが出たり「Sign up to try Bard from Google (blog.google)」、CopilotがGPT-4に対応したり「GitHub Copilot X: The AI-powered developer experience | The GitHub Blog」、ChatGPTにPlugin機能が付いたり「ChatGPT plugins (openai.com)」、llama_indexが対応したり「llama_index/ChatGPT_Retrieval_Plugin_Upload.ipynb at main · jerryjliu/llama_index · GitHub」と関連する話題も多かった。

  • GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [0.4]
    ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)は、経済的、社会的、政策的な意味を持つ可能性がある。 アメリカの労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を担っていた。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 03:32:25 GMT)
  • GPT-4による仕事への影響を整理した論文。「影響を受ける=GPT-4により50%以上時間削減が可能」で80%の労働者のタスクの10%に影響というだけでも結構な規模になる。高度な仕事への影響の方が大きいというのも特徴的
  • Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1]
    OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。 我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。 我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 16:51:28 GMT)
  • 「Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system.」(GPT-4の能力の幅と深さを考えると、人工知能(AGI)システムの初期の(まだ不完全な)バージョンと見なすことができると考えています。 ※FuguMT訳)という衝撃的な記載のある論文。
  • ほんまかいな、であり、見方によっては、という注釈も付くわけだが、ひとつ前の論文も含めて社会的インパクトが相当あるのは間違いなさそうではある。
  • Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [39.2]
    われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補のプロンプトが一般的にうまく機能し、性能差が小さいことを確かめる。 ChatGPTは、高リソースのヨーロッパ言語で商用翻訳製品と競合するが、低リソースまたは遠方の言語ではかなり遅れている。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
    論文  参考訳(メタデータ)   (Sun, 19 Mar 2023 11:53:20 GMT)
  • GPT-4によって機械翻訳品質が商用製品レベルになったとする論文(もともとGPT-3.5までを扱っていた論文のアップデート)
  • GPT-3.5、ChatGPTまでであれば商用製品の性能には及んでいなかったが、GPT-4では商用製品レベルに達しているとのこと。個人的に英語→日本語で検証した結果(GPT-4を用いた翻訳の検証(vs GPT-3.5 vs FuguMT) | ぷるーふおぶこんせぷと (staka.jp))も同じ傾向。なかなか衝撃的。
  • A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? [112.1]
    生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。 純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。 本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
    論文  参考訳(メタデータ)   (Tue, 21 Mar 2023 10:09:47 GMT)
  • 生成AI( Generative AI (AIGC, a.k.a AI-generated content) )に関するサーベイ
  • 現在の動きを概観するのに良い論文

その他、arXivではないがGPT-3をマーケティングに使うというUsing GPT for Market Research by James Brand, Ayelet Israeli, Donald Ngwe :: SSRN(GPT-3モデルは,ランダムに選択された顧客であるかのように促されると富と状態依存を伴う価格感度の低下を含む経済理論と整合する多くの行動を示す。GPT-3が生成する製品や特徴に対する支払い意欲の推定は妥当な大きさである。マーケティング目的でGPT-3から情報をクエリする最善の方法に関する予備ガイドラインを提供する。)が面白かった

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

Users are the North Star for AI Transparency 

  • Users are the North Star for AI Transparency [111.6]
    透明な人工知能システムを求める声が広まっているにもかかわらず、この用語は、厳密な政策の目的や具体的な研究ラインのオリエント化を表すために、多義的な意味に過大評価されている。 このことが起こる理由の1つは、AI透明性の明確な理想が、この仕事の体で実現されないことである。 透明性はユーザ中心で、ユーザ指向で、誠実です。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 18:53:29 GMT)
  • AIの透明性(AI Transparency)について調査した論文で、様々な文脈・意図で使われていることが分かる。
  • 何とか性とカテゴライズすると安心しがちだが、実はその解釈が異なっていることは多いので詳細を詰めていくことはとても重要。

CaFo: Cascade of Foundation models

  • Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
    CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 18:58:16 GMT)
  • Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
  • プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

Consistency Analysis of ChatGPT

  • Consistency Analysis of ChatGPT [54.2]
    ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。 論理的に一貫した行動に関するChatGPTの信頼性について検討する。
    論文  参考訳(メタデータ)   (Sat, 11 Mar 2023 01:19:01 GMT)
  • ChatGPTの一貫性評価、BECEL: Benchmark for Consistency Evaluation of Language Models (aclanthology.org)を利用
  • ChatGPTはnegation consistencyに優れている一方でsymmetric consistencyがいまいちという結果。
  • 「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。

TGDataset

  • TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
    本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。 我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 15:42:38 GMT)
  • 120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach(シードとなるチャネルから初めて送信元チャネルを取得していく)で作成されたとのこと。
  • リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram ChannelsTGDataset | Zenodo

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

Scaling up GANs for Text-to-Image Synthesis

  • Scaling up GANs for Text-to-Image Synthesis [59.5]
    テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 18:59:47 GMT)
  • Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
  • リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

  • GPT-4 Technical Report [0.0]
    GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。 試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 04:59:24 GMT)
  • GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証(GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))からも性能が向上していることは間違いなさそう。
  • 一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている(Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com))。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう(Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog)。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.(非商用利用のみ)、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub(Apache-2ライセンス)などが発表されている。

様々な観点(性能やコスト、Trustworthyな要素など)から比較してみたいのと、純粋になぜ多く問題が取り扱えるか?という理由が知りたい。