Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

Scaling up GANs for Text-to-Image Synthesis

  • Scaling up GANs for Text-to-Image Synthesis [59.5]
    テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 18:59:47 GMT)
  • Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
  • リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

  • GPT-4 Technical Report [0.0]
    GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。 試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 04:59:24 GMT)
  • GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証(GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))からも性能が向上していることは間違いなさそう。
  • 一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている(Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com))。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう(Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog)。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.(非商用利用のみ)、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub(Apache-2ライセンス)などが発表されている。

様々な観点(性能やコスト、Trustworthyな要素など)から比較してみたいのと、純粋になぜ多く問題が取り扱えるか?という理由が知りたい。

SelfCheckGPT

  • SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [35.6]
    SelfCheckGPTは、ゼロリソース方式でファクトチェックブラックボックスモデルに対する単純なサンプリングベースアプローチである。 我々は、GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する。 我々は,SelfCheckGPTが,非事実文と事実文とを検出できることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Mar 2023 19:31:21 GMT)
  • ゼロリソース、ブラックボックス(LLMの応答のみ利用)で実行可能なHullucination検出方法の提案。Hullucinationが起きない、LLMが良く知っているものであれば応答も近しくなるというアイデア
  • リポジトリはGitHub – potsawee/selfcheckgpt: SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

A Survey on Long Text Modeling with Transformers

  • A Survey on Long Text Modeling with Transformers [33.9]
    本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。 長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。 本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 11:34:30 GMT)
  • 長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
  • 対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。

SMC-Bench

Word-As-Image for Semantic Typography

  • Word-As-Image for Semantic Typography [41.4]
    単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 09:59:25 GMT)
  • 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
  • プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)

CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

OpenICL

  • OpenICL: An Open-Source Framework for In-context Learning [48.8]
    In-context Learning (ICL) と大規模言語モデル評価のためのオープンソースツールキット OpenICL を紹介する。 OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。 OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 06:20:25 GMT)
  • OSS(Apache-2)のIn-context Learningフレームワーク
  • 様々なRetriever(コンテキスト内のサンプル取得)とInferencer(LMとのやり取りや最終的な回答、chain-of-thoughtやselection-inferenceにも対応)を選ぶことができる
  • リポジトリはGitHub – Shark-NLP/OpenICL: OpenICL is an open-source framework to facilitate research, development, and prototyping of in-context learning.