GPT-# – arXiv最新論文の紹介

XNLP: Structured Natural Language Processing

XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
論文参考訳（メタデータ） (Thu, 3 Aug 2023 16:13:05 GMT)
テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
デモサイトはXNLP (haofei.vip)

How is ChatGPT’s behavior changing over time?

How is ChatGPT’s behavior changing over time? [36.9]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (Tue, 18 Jul 2023 06:56:08 GMT)
6月バージョンのGPT-4の性能が3月バージョンより落ちているのでは？としてバズった論文。
APIの挙動は変化するわけで総合的なタスクで評価しないと何とも言えないが、英文和訳タスクでも性能が落ちていそうだった OpenAI APIのアップデート（gpt-3.5-turbo-16k, gpt-4-0613）と機械翻訳 | ぷるーふおぶこんせぷと (staka.jp)
OpenAIはtwitterで「Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.（https://twitter.com/OpenAI/status/1682059830499082240?s=20）」としており、過去バージョンのサポートが伸びるのはありがたい。評価フレームワークもあるとのことGitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.。

GPT-4とGPT-3.5の信頼性

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 17:24:23 GMT)
GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は（jailbreakingされた場合も）より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
プロジェクトサイトはDecodingTrust Benchmark

h2oGPT

h2oGPT: Democratizing Large Language Models [1.8]
h2oGPTは、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づいたLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリのスイートである。このプロジェクトの目的は、クローズドソースのGPTに対して、世界で最高のオープンソース代替品を作ることです。
論文参考訳（メタデータ） (Tue, 13 Jun 2023 22:19:53 GMT)
GPT（チャットボットとドキュメント検索がユースケース）構築のためのフレームワークの提案。AutoMLツールとして有名なh2oによるオープンな実装で、主要なOSS基盤モデルをチューニングした結果もダウンロード可能。性能評価がモデルカードに含まれているのがありがたいのとLangChainなどとの連携も可能そう。
リポジトリはGitHub – h2oai/h2ogpt: Join us at H2O.ai to make the world’s best open-source GPT with document and image Q&A, 100% private chat, no data leaks, Apache 2.0 https://arxiv.org/pdf/2306.08161.pdf

What’s the Meaning of Superhuman Performance in Today’s NLU?

What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文参考訳（メタデータ） (Mon, 15 May 2023 07:48:31 GMT)
ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは？について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

GPT-#のライバル、Google Bard、Anthropic Claude

Google Bard、AntropicなどOpenAI GPTシリーズの対抗モデルのニュースが多い一週間だった。

Google Japan Blog: Bard が日本語に対応 (googleblog.com)
色々テストしてみた感じ、Bardはかなり強力な感じ。いつもの翻訳でのベンチマークをしてみたいところ。

palm2techreport.pdf (ai.google)
より優れた多言語および推論能力を持ち、前任の PaLM (Chowdhery et al , 2022) よりも計算効率が高い新しい最先端言語モデルである PaLM 2 を紹介する。PaLM 2は、UL2(Tay et al , 2023)と同様の目的の混合を用いて訓練されたトランスフォーマーベースのモデルである。英語と多言語の広範な評価と推論タスクを通じて、PaLM2は異なるモデルサイズにわたる下流タスクの品質を著しく向上させ、同時にPaLMと比較してより高速で効率的な推論を示すことを実証する。この改善された効率により、より広範なデプロイが可能になり、モデルがより自然なインタラクションのペースで迅速に応答できるようになる。PaLM 2は、BIG-Benchや他の推論タスクにおけるPaLMの大幅な改善によって例示される堅牢な推論能力を示す。
PaLMの ver2で推論能力が大幅に向上。翻訳性能でGoogle Translateを超えているという評価は驚き。

Anthropic | Introducing 100K Context Windows
非常に長いコンテキストに対応したClaude、こちらも日本語が使えるようでベンチマークをしてみたい。

日本企業もLLM構築を行っているようでこちらも期待大

競合が多く出てくるフェーズでは性能や速度など正しく評価するのが大事だと思う。

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 17:56:11 GMT)
進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう（細かい点ではいろいろあるが）
実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう！と思った。

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 19:00:43 GMT)
因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 22:35:03 GMT)
結構な書籍の内容がGPT-4の中に記憶されているのでは？という内容。membership inference系。
（当然だが）記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要（ということはわかりつつも具体的な対策は簡単ではない…）
リポジトリが公開されている　GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
論文参考訳（メタデータ） (Tue, 2 May 2023 05:46:48 GMT)
ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code

New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
論文参考訳（メタデータ） (Tue, 2 May 2023 03:27:27 GMT)
機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
Personalized MTも今まではなかなか困難だったが、LLM＋プロンプトでかなり有効に実現できそうな予感（機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している）

Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
論文参考訳（メタデータ） (Thu, 4 May 2023 05:21:09 GMT)
GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題

AutoML-GPT: Automatic Machine Learning with GPT [74.3]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (Thu, 4 May 2023 02:09:43 GMT)
AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野

GPT-#関連

毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。

Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 17:54:28 GMT)
医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている（ゆえに情報ニーズに合っていない）という結果のよう

Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 07:38:07 GMT)
ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to ﬂuency and logic, and usually express general terminologies rather than eﬀective information speciﬁc to the context of the problem.」という結果は一つ上の論文と整合的に思える。

Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 04:02:04 GMT)
ToM特性の測定とin-context learningの有効性に関する報告
chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの（近い例題を参照しつつ）ToM測るというのはそもそもありなんだろうか？と思いつつGPT-4の有用性は表れているように思う

AI-assisted coding: Experiments with GPT-4 [0.2]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 22:59:01 GMT)
GPT-4のコーディング支援に関する報告
「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい

Can GPT-4 Perform Neural Architecture Search? [57.0]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 14:56:54 GMT)
GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。（それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが）
リポジトリはGitHub – mingkai-zheng/GENIUS

ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 13:25:43 GMT)
キーフレーズ生成における比較
KeyBARTを超える性能でこの手のタスクの相性はさすが

Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 16:15:20 GMT)
ChatGPTをNLGの評価用に使おうという報告
今までもかなり性能が良いのでは？という論文が多かったが、基本的には同じ結論
リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 12:33:18 GMT)
情報抽出分野での比較
標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的

今週のGPT周辺

GPT関連の論文はとても多い。

オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。

Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – （英語Stability AI

GitHub – FreedomIntelligence/LLMZoo: ⚡LLM Zoo is a project that provides data, models, and evaluation benchmark for large language models.⚡

Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 13:33:42 GMT)
コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか？とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.

ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (Mon, 17 Apr 2023 17:13:42 GMT)
radiology report summarizationタスクにおけるGPT系モデルの利用
動的なプロンプト作成など実利用でも参考になるかも

Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:48:43 GMT)
ChatGPTの間違い分析
外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる

Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 08:08:12 GMT)
ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。

LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 15:35:43 GMT)
LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。

Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 15:25:44 GMT)
logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも（ReClorを除き）人間のパフォーマンスとは大きな差がある。「However, the performance drops signiﬁcantly when handling newly released and out-of-distribution datasets.」という指摘が印象的（leak…?）。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
ベンチマークが公開されている　GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models

Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:09:12 GMT)
データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話
リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language

GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 16:17:26 GMT)
苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
GitHub – ShuheWang1998/GPT-NER

GPT-4関連

毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。

Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。

Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)

Free Dolly: Introducing the World’s First Open and Commercially Viable Instruction-Tuned LLM – The Databricks Blog

OpenAssistant (OpenAssistant) (huggingface.co)

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 09:39:30 GMT)
AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
リポジトリはGitHub – microsoft/AGIEval

Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 16:47:49 GMT)
チェックにLLMを使う提案。Interpretable・・・？
GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 10:59:39 GMT)
上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
「its great potential for factual inconsistency evaluation」としている。

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 14:51:40 GMT)
GPT-4がクラウドワーカーより優れた性能との指摘
Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある

ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (Wed, 12 Apr 2023 05:08:52 GMT)
ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう？（ChatGPTの言語比率が謎なので本当に類推しかできないが・・・）
タスクによってもまちまちではあるが英語での性能が高いことが分かる。（この辺りは実感にも反していない）

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 16:53:54 GMT)
ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。

Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 13:05:04 GMT)
ChatGPTから個人情報を抽出するための攻撃。
強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう（用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう）

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:51:30 GMT)
LLMに対する機械翻訳性能の評価
言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…

ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 08:33:08 GMT)
データ準備のためのアプリケーション
色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容（とはいえ実態はこんな感じだとも思う）

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31