ChatGPTの分析

ChatGPTの分析が複数出ていた。一つ目は数学的能力の検証で今までも指摘されている通りよろしくない結果となっている(改善バージョンが最近出ているのでどうなっているかも興味がある)。もう一つは倫理的側面で過去のモデルに対しての改善はみられるものの、なかなか厳しい指摘がなされている。

  • Mathematical Capabilities of ChatGPT [35.7]
    我々は、ChatGPTの数学的能力について、公開データセットや手作りデータセットで検証し、その性能をMinervaのような数学的コーパスで訓練された他のモデルと比較することで検討する。 また,ChatGPTの数学能力は,平均的な数学の大学院生の数学能力よりも有意に劣っていると結論づけた。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:59:03 GMT)
  • リポジトリはGitHub – friederrr/science-GHOSTS
  • Exploring AI Ethics of ChatGPT: A Diagnostic Analysis [19.9]
    大きな言語モデル(LLM)は要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。 観察の結果、LSMは社会的偏見と毒性を示し、無責任な結果の倫理的および社会的危険を生じさせる可能性が示唆された。
    論文  参考訳(メタデータ)   (Mon, 30 Jan 2023 13:20:48 GMT)

ExaRanker

  • ExaRanker: Explanation-Augmented Neural Ranker [67.5]
    本研究は,ニューラルランカーが説明の恩恵を受けることを示す。 我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 11:03:04 GMT)
  • 大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
  • リポジトリはGitHub – unicamp-dl/ExaRanker

Chain-of-Thoughtの改善 

マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う&改善が結構な幅で行われているのが凄い。

  • Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
    大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。 本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 07:51:19 GMT)
  • Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
    大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。 そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。 本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 17:33:12 GMT)
  • Faithful Chain-of-Thought Reasoning [29.9]
    CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。 推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。 提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 03:04:26 GMT)

Dreamix

  • Dreamix: Video Diffusion Models are General Video Editors [22.1]
    テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。 一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 18:58:58 GMT)
  • ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
  • デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
  • 論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。

Benchmarking Large Language Models for News Summarization

  • Benchmarking Large Language Models for News Summarization [79.4]
    大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:46:19 GMT)
  • GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
  • リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

REPLUG: Retrieve and Plug

  • REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
    REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。 その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 00:15:18 GMT)
  • 外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整(学習)可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。(当然かもだが)REPLUG LSRの方が性能が高そう。
  • 検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

The Flan Collection

  • The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [118.7]
    本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。 タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。 インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 15:03:44 GMT)
  •  instruction tuningに関するコレクションとそれと使って構築したモデルに関する論文。 Flan-T5 XL は過去のモデル(GLM 130BやOPT-175Bなど巨大モデル含)を超える性能。
  • リポジトリはFLAN/flan/v2 at main · google-research/FLAN · GitHub

大規模言語モデルへの透かし

  • A Watermark for Large Language Models [60.7]
    本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 18:52:59 GMT)
  • 大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
    ChatGPTにはすでに導入されいたりするのだろうか・・・?
  • リポジトリはGitHub – jwkirchenbauer/lm-watermarking

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing 

  • BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
    本稿では,深層モデル変異検査に基づく防御手法を提案する。 バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。 次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 05:24:46 GMT)
  • 「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃(現時点でメジャーなすべての攻撃)に対応可能とのこと。
  • この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 

  • XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
    我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。 我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 09:15:17 GMT)
  • 多言語モデルで問題(かつ議論)となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
  • 「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。