- What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文 参考訳(メタデータ) (Mon, 15 May 2023 07:48:31 GMT) - ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。
タグ: GPT-#
GPT-#のライバル、Google Bard、Anthropic Claude
Google Bard、AntropicなどOpenAI GPTシリーズの対抗モデルのニュースが多い一週間だった。
Google Japan Blog: Bard が日本語に対応 (googleblog.com)
色々テストしてみた感じ、Bardはかなり強力な感じ。いつもの翻訳でのベンチマークをしてみたいところ。
- palm2techreport.pdf (ai.google)
- より優れた多言語および推論能力を持ち、前任の PaLM (Chowdhery et al , 2022) よりも計算効率が高い新しい最先端言語モデルである PaLM 2 を紹介する。PaLM 2は、UL2(Tay et al , 2023)と同様の目的の混合を用いて訓練されたトランスフォーマーベースのモデルである。英語と多言語の広範な評価と推論タスクを通じて、PaLM2は異なるモデルサイズにわたる下流タスクの品質を著しく向上させ、同時にPaLMと比較してより高速で効率的な推論を示すことを実証する。この改善された効率により、より広範なデプロイが可能になり、モデルがより自然なインタラクションのペースで迅速に応答できるようになる。PaLM 2は、BIG-Benchや他の推論タスクにおけるPaLMの大幅な改善によって例示される堅牢な推論能力を示す。
- PaLMの ver2で推論能力が大幅に向上。翻訳性能でGoogle Translateを超えているという評価は驚き。
Anthropic | Introducing 100K Context Windows
非常に長いコンテキストに対応したClaude、こちらも日本語が使えるようでベンチマークをしてみたい。
日本企業もLLM構築を行っているようでこちらも期待大
- サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現― | 株式会社サイバーエージェント (cyberagent.co.jp)
- ソフトバンク、LINEと和製GPT立ち上げへ 「やらなければ今後の参加権がなくなる」 – ITmedia NEWS
競合が多く出てくるフェーズでは性能や速度など正しく評価するのが大事だと思う。
今週のGPT-#
今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)
bigcode/starcoderbase · Hugging Face
- Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。 実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (Thu, 27 Apr 2023 17:56:11 GMT) - 進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう(細かい点ではいろいろあるが)
- 実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう!と思った。
- Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。 我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
論文 参考訳(メタデータ) (Fri, 28 Apr 2023 19:00:43 GMT) - 因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
- GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。
- Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。 記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
論文 参考訳(メタデータ) (Fri, 28 Apr 2023 22:35:03 GMT) - 結構な書籍の内容がGPT-4の中に記憶されているのでは?という内容。membership inference系。
- (当然だが)記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要(ということはわかりつつも具体的な対策は簡単ではない…)
- リポジトリが公開されている GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”
- Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。 人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
論文 参考訳(メタデータ) (Tue, 2 May 2023 05:46:48 GMT) - ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
- リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code
- New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。 本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
論文 参考訳(メタデータ) (Tue, 2 May 2023 03:27:27 GMT) - 機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
- Personalized MTも今まではなかなか困難だったが、LLM+プロンプトでかなり有効に実現できそうな予感(機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している)
- Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。 まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
論文 参考訳(メタデータ) (Thu, 4 May 2023 05:21:09 GMT) - GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題
- AutoML-GPT: Automatic Machine Learning with GPT [74.3]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。 本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。 このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (Thu, 4 May 2023 02:09:43 GMT) - AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野
GPT-#関連
毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。
- Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。 回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文 参考訳(メタデータ) (Wed, 26 Apr 2023 17:54:28 GMT) - 医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
- 「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている(ゆえに情報ニーズに合っていない)という結果のよう
- Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。 本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。 次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
論文 参考訳(メタデータ) (Sun, 23 Apr 2023 07:38:07 GMT) - ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
- 「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to fluency and logic, and usually express general terminologies rather than effective information specific to the context of the problem.」という結果は一つ上の論文と整合的に思える。
- Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (Wed, 26 Apr 2023 04:02:04 GMT) - ToM特性の測定とin-context learningの有効性に関する報告
- chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの(近い例題を参照しつつ)ToM測るというのはそもそもありなんだろうか?と思いつつGPT-4の有用性は表れているように思う
- AI-assisted coding: Experiments with GPT-4 [0.2]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。 これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (Tue, 25 Apr 2023 22:59:01 GMT) - GPT-4のコーディング支援に関する報告
- 「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい
- Can GPT-4 Perform Neural Architecture Search? [57.0]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。 提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (Mon, 24 Apr 2023 14:56:54 GMT) - GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。(それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが)
- リポジトリはGitHub – mingkai-zheng/GENIUS
- ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。 本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
論文 参考訳(メタデータ) (Thu, 27 Apr 2023 13:25:43 GMT) - キーフレーズ生成における比較
- KeyBARTを超える性能でこの手のタスクの相性はさすが
- Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。 実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。 我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (Tue, 25 Apr 2023 16:15:20 GMT) - ChatGPTをNLGの評価用に使おうという報告
- 今までもかなり性能が良いのでは?という論文が多かったが、基本的には同じ結論
- リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
- Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。 標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文 参考訳(メタデータ) (Sun, 23 Apr 2023 12:33:18 GMT) - 情報抽出分野での比較
- 標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
- 特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的
今週のGPT周辺
GPT関連の論文はとても多い。
オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。
Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – (英語Stability AI
- Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。 この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 13:33:42 GMT) - コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか?とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
- リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.
- ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。 近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。 これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (Mon, 17 Apr 2023 17:13:42 GMT) - radiology report summarizationタスクにおけるGPT系モデルの利用
- 動的なプロンプト作成など実利用でも参考になるかも
- Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。 我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:48:43 GMT) - ChatGPTの間違い分析
- 外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる
- Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。 姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 08:08:12 GMT) - ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。
- LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。 分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 15:35:43 GMT) - LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。
- Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 15:25:44 GMT) - logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
- ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも(ReClorを除き)人間のパフォーマンスとは大きな差がある。「However, the performance drops significantly when handling newly released and out-of-distribution datasets.」という指摘が印象的(leak…?)。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
- ベンチマークが公開されている GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models
- Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:09:12 GMT) - データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話 - リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language
- GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 16:17:26 GMT) - 苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
- GitHub – ShuheWang1998/GPT-NER
GPT-4関連
毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。
Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。
Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)
OpenAssistant (OpenAssistant) (huggingface.co)
- AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 09:39:30 GMT) - AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
- リポジトリはGitHub – microsoft/AGIEval
- Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。 ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (Fri, 7 Apr 2023 16:47:49 GMT) - チェックにLLMを使う提案。Interpretable・・・?
- GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models
- ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。 一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。 しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 10:59:39 GMT) - 上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
- 「its great potential for factual inconsistency evaluation」としている。
- ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 14:51:40 GMT) - GPT-4がクラウドワーカーより優れた性能との指摘
- Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある
- ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。 本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。 従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (Wed, 12 Apr 2023 05:08:52 GMT) - ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
- 残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう?(ChatGPTの言語比率が謎なので本当に類推しかできないが・・・)
- タスクによってもまちまちではあるが英語での性能が高いことが分かる。(この辺りは実感にも反していない)
- Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。 一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。 その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (Tue, 11 Apr 2023 16:53:54 GMT) - ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
- 特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。
- Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。 我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (Tue, 11 Apr 2023 13:05:04 GMT) - ChatGPTから個人情報を抽出するための攻撃。
- 強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう(用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう)
- Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。 本稿では, MMT における LLM の利点と課題を体系的に検討する。 我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文 参考訳(メタデータ) (Mon, 10 Apr 2023 15:51:30 GMT) - LLMに対する機械翻訳性能の評価
- 言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
- 「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…
- ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。 われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文 参考訳(メタデータ) (Fri, 7 Apr 2023 08:33:08 GMT) - データ準備のためのアプリケーション
- 色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容(とはいえ実態はこんな感じだとも思う)
Large language models effectively leverage document-level context for literary translation, but critical errors persist
- Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.5]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。 我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (Thu, 6 Apr 2023 17:27:45 GMT) - GPT-3.5を用いて文レベル、段落レベルの翻訳を検証した論文。18言語ペア(日本語含む)と広い検証で人間による評価が行われていることも特徴的。(一方で有名な作品を利用するのはリークの危険が…という気もしている。)
- リポジトリはGitHub – marzenakrp/LiteraryTranslation
週刊GPT
ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。
先週に引き続きオープンな取り組みも続けられており期待大。
- Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。 我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。 得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文 参考訳(メタデータ) (Mon, 3 Apr 2023 17:59:09 GMT) - LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。(ベースが作れないという話あるけど…)
- リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!
- Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。 トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文 参考訳(メタデータ) (Mon, 3 Apr 2023 20:58:15 GMT) - オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge(8 GPU hour)が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
- リポジトリはGitHub – EleutherAI/pythia
医学関連の質問に対応できるかの話
- Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。 本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 05:43:21 GMT) - 韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能
- Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。 実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。 ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 13:04:47 GMT) - こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
- 使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA
次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成
- Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。 現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 15:37:17 GMT)
次に頑健性の話。
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。 その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (Wed, 29 Mar 2023 14:21:51 GMT) - 頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
- (翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは?と思わなくもない)
上記にも関連するが、翻訳における検証
- Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。 私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。 私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (Wed, 5 Apr 2023 01:17:59 GMT) - ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
- 機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。(当然ながらBLEUへの影響も大きい)
最後に要約に関する検証
- Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。 近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。 本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (Thu, 6 Apr 2023 09:27:37 GMT) - LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル&複数のプロンプトのパターンを評価しているのが凄い
- 全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。
週刊GPT
今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。
- Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems – Cerebras
- GitHub – geov-ai/geov: The GeoV model is a large langauge model designed by Georges Harik and uses Rotary Positional Embeddings with Relative distances (RoPER). We have shared a pre-trained 9B parameter model.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego (lmsys.org)
- 2023_GPT4All_Technical_Report.pdf
などオープンソースの取り組みも盛ん。
- GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (Wed, 29 Mar 2023 12:46:54 GMT) - GPT-4(+CoT)を用いたNLGの評価手法
- LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい
- BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。 我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文 参考訳(メタデータ) (Thu, 30 Mar 2023 17:30:36 GMT) - 金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
- 流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。
- HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文 参考訳(メタデータ) (Thu, 30 Mar 2023 17:48:28 GMT) - ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
- 自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう?
- リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community
- TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。 このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (Wed, 29 Mar 2023 03:30:38 GMT)
- ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文 参考訳(メタデータ) (Mon, 27 Mar 2023 09:59:48 GMT) - tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
- (とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする)
- AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文 参考訳(メタデータ) (Wed, 29 Mar 2023 17:03:21 GMT) - 上記と近しい報告。
- 良いプロンプトの作り方にまで踏み込んでいて参考になる。(のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは?という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか?最新の利用規約など詳細の確認が必要。)
- ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。 商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。 また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文 参考訳(メタデータ) (Wed, 15 Mar 2023 00:35:50 GMT) - ChatGPTの文法エラー訂正能力の検証
- 商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models
- A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (Sat, 18 Mar 2023 14:02:04 GMT) - GPTシリーズモデルの性能比較
- 学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
- 日本語での評価も知りたいところ。(比較すればよいって話ではあるが。。。)