ChatGPT – arXiv最新論文の紹介

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
論文参考訳（メタデータ） (Fri, 25 Aug 2023 17:51:23 GMT)
ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。

LIMA: Less Is More for Alignment

LIMA: Less Is More for Alignment [112.9]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (Thu, 18 May 2023 17:45:22 GMT)
強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 17:56:11 GMT)
進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう（細かい点ではいろいろあるが）
実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう！と思った。

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 19:00:43 GMT)
因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 22:35:03 GMT)
結構な書籍の内容がGPT-4の中に記憶されているのでは？という内容。membership inference系。
（当然だが）記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要（ということはわかりつつも具体的な対策は簡単ではない…）
リポジトリが公開されている　GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
論文参考訳（メタデータ） (Tue, 2 May 2023 05:46:48 GMT)
ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code

New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
論文参考訳（メタデータ） (Tue, 2 May 2023 03:27:27 GMT)
機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
Personalized MTも今まではなかなか困難だったが、LLM＋プロンプトでかなり有効に実現できそうな予感（機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している）

Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
論文参考訳（メタデータ） (Thu, 4 May 2023 05:21:09 GMT)
GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題

AutoML-GPT: Automatic Machine Learning with GPT [74.3]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (Thu, 4 May 2023 02:09:43 GMT)
AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野

WizardLM

WizardLM: Empowering Large Language Models to Follow Complex Instructions [67.4]
ヒトの代わりに大規模言語モデルを用いて、様々なレベルの複雑さを持つ大量の命令データを作成する方法を示す。我々は提案したEvol-Instructを使って、より複雑な命令と微調整のLLaMAを段階的に書き直す。複雑性バランステストベッド上での人間評価は、Evol-Instructからの指示が人間が作ったものよりも優れていることを示している。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 16:31:06 GMT)
現実問題として規約的にできない場合はあるが、LLMを用いた instruction dataの作成。様々な複雑さのデータを作れるのが特徴とのこと。作成したデータ＋LLaMAで作ったモデルはAlpaca、Vicunaより優れているように見えるがChatGPTには及んでいなさそう。
リポジトリはGitHub – nlpxucan/WizardLM: WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions

GPT-#関連

毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。

Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 17:54:28 GMT)
医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている（ゆえに情報ニーズに合っていない）という結果のよう

Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 07:38:07 GMT)
ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to ﬂuency and logic, and usually express general terminologies rather than eﬀective information speciﬁc to the context of the problem.」という結果は一つ上の論文と整合的に思える。

Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 04:02:04 GMT)
ToM特性の測定とin-context learningの有効性に関する報告
chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの（近い例題を参照しつつ）ToM測るというのはそもそもありなんだろうか？と思いつつGPT-4の有用性は表れているように思う

AI-assisted coding: Experiments with GPT-4 [0.2]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 22:59:01 GMT)
GPT-4のコーディング支援に関する報告
「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい

Can GPT-4 Perform Neural Architecture Search? [57.0]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 14:56:54 GMT)
GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。（それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが）
リポジトリはGitHub – mingkai-zheng/GENIUS

ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 13:25:43 GMT)
キーフレーズ生成における比較
KeyBARTを超える性能でこの手のタスクの相性はさすが

Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 16:15:20 GMT)
ChatGPTをNLGの評価用に使おうという報告
今までもかなり性能が良いのでは？という論文が多かったが、基本的には同じ結論
リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 12:33:18 GMT)
情報抽出分野での比較
標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的

今週のGPT周辺

GPT関連の論文はとても多い。

オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。

Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – （英語Stability AI

GitHub – FreedomIntelligence/LLMZoo: ⚡LLM Zoo is a project that provides data, models, and evaluation benchmark for large language models.⚡

Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 13:33:42 GMT)
コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか？とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.

ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (Mon, 17 Apr 2023 17:13:42 GMT)
radiology report summarizationタスクにおけるGPT系モデルの利用
動的なプロンプト作成など実利用でも参考になるかも

Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:48:43 GMT)
ChatGPTの間違い分析
外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる

Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 08:08:12 GMT)
ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。

LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 15:35:43 GMT)
LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。

Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 15:25:44 GMT)
logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも（ReClorを除き）人間のパフォーマンスとは大きな差がある。「However, the performance drops signiﬁcantly when handling newly released and out-of-distribution datasets.」という指摘が印象的（leak…?）。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
ベンチマークが公開されている　GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models

Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:09:12 GMT)
データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話
リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language

GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 16:17:26 GMT)
苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
GitHub – ShuheWang1998/GPT-NER

GPT-4関連

毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。

Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。

Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)

Free Dolly: Introducing the World’s First Open and Commercially Viable Instruction-Tuned LLM – The Databricks Blog

OpenAssistant (OpenAssistant) (huggingface.co)

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 09:39:30 GMT)
AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
リポジトリはGitHub – microsoft/AGIEval

Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 16:47:49 GMT)
チェックにLLMを使う提案。Interpretable・・・？
GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 10:59:39 GMT)
上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
「its great potential for factual inconsistency evaluation」としている。

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 14:51:40 GMT)
GPT-4がクラウドワーカーより優れた性能との指摘
Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある

ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (Wed, 12 Apr 2023 05:08:52 GMT)
ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう？（ChatGPTの言語比率が謎なので本当に類推しかできないが・・・）
タスクによってもまちまちではあるが英語での性能が高いことが分かる。（この辺りは実感にも反していない）

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 16:53:54 GMT)
ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。

Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 13:05:04 GMT)
ChatGPTから個人情報を抽出するための攻撃。
強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう（用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう）

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:51:30 GMT)
LLMに対する機械翻訳性能の評価
言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…

ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 08:33:08 GMT)
データ準備のためのアプリケーション
色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容（とはいえ実態はこんな感じだとも思う）

週刊GPT

ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。

先週に引き続きオープンな取り組みも続けられており期待大。

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 17:59:09 GMT)
LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。（ベースが作れないという話あるけど…）
リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 20:58:15 GMT)
オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge（8 GPU hour）が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
リポジトリはGitHub – EleutherAI/pythia

医学関連の質問に対応できるかの話

Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 05:43:21 GMT)
韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 13:04:47 GMT)
こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA

次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成

Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 15:37:17 GMT)

次に頑健性の話。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 14:21:51 GMT)
頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
（翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは？と思わなくもない）

上記にも関連するが、翻訳における検証

Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 01:17:59 GMT)
ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。（当然ながらBLEUへの影響も大きい）

最後に要約に関する検証

Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 09:27:37 GMT)
LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル＆複数のプロンプトのパターンを評価しているのが凄い
全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。

Hallucinations in Large Multilingual Translation Models

Hallucinations in Large Multilingual Translation Models [70.1]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 16:17:59 GMT)
最近よく話題になるHallucinationについて多言語翻訳の観点で分析した論文。ChatGPTの検証も行っている。
多言語翻訳モデルでは（当然ながら）リソースの少ない言語に対してHallucinationが多発するが、ChatGPTではむしろ中リソースの言語に対して問題が多く行るのが興味深い。Hallucinationの緩和としてfallback systemを使う場合、同じトレーニングデータとアーキテクチャを共有するモデルでは効果が薄く別の外部システムを使うことが有効としている。

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 12:46:54 GMT)
GPT-4（＋CoT）を用いたNLGの評価手法
LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい

BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:30:36 GMT)
金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:48:28 GMT)
ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう？
リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 03:30:38 GMT)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文参考訳（メタデータ） (Mon, 27 Mar 2023 09:59:48 GMT)
tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
（とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする）

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:03:21 GMT)
上記と近しい報告。
良いプロンプトの作り方にまで踏み込んでいて参考になる。（のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは？という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか？最新の利用規約など詳細の確認が必要。）

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 00:35:50 GMT)
ChatGPTの文法エラー訂正能力の検証
商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31