2023年2月27日 – arXiv最新論文の紹介

先週もChatGPTの話題は多かった。

ChatGPT: Jack of all trades, master of none [4.7]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 15:20:37 GMT)
ChatGPTのタスク別の性能
概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 20:51:09 GMT)
BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ

How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 02:11:36 GMT)
GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと（MS Translatorの実装にもよるが）単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。

Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:46:42 GMT)
LLMによる機械翻訳では辞書の併用に効果があるとする報告
確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい

Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文参考訳（メタデータ） (Mon, 20 Feb 2023 12:57:12 GMT)
ゼロショットでの知識抽出タスクへのChatGPTの応用
２段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では４０４、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう？

Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 12:29:33 GMT)
BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 22 Feb 2023 11:01:20 GMT)
ChatGPTをRobustnessの観点で検証、Microsoftの論文
GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classiﬁcationではChatGPTが有利という結果になっている
データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う

日: 2023年2月27日