GPT-# – ページ 2 – arXiv最新論文の紹介

Large language models effectively leverage document-level context for literary translation, but critical errors persist

Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.5]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 17:27:45 GMT)
GPT-3.5を用いて文レベル、段落レベルの翻訳を検証した論文。18言語ペア（日本語含む）と広い検証で人間による評価が行われていることも特徴的。（一方で有名な作品を利用するのはリークの危険が…という気もしている。）
リポジトリはGitHub – marzenakrp/LiteraryTranslation

週刊GPT

ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。

先週に引き続きオープンな取り組みも続けられており期待大。

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 17:59:09 GMT)
LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。（ベースが作れないという話あるけど…）
リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 20:58:15 GMT)
オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge（8 GPU hour）が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
リポジトリはGitHub – EleutherAI/pythia

医学関連の質問に対応できるかの話

Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 05:43:21 GMT)
韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 13:04:47 GMT)
こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA

次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成

Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 15:37:17 GMT)

次に頑健性の話。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 14:21:51 GMT)
頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
（翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは？と思わなくもない）

上記にも関連するが、翻訳における検証

Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 01:17:59 GMT)
ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。（当然ながらBLEUへの影響も大きい）

最後に要約に関する検証

Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 09:27:37 GMT)
LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル＆複数のプロンプトのパターンを評価しているのが凄い
全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 12:46:54 GMT)
GPT-4（＋CoT）を用いたNLGの評価手法
LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい

BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:30:36 GMT)
金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:48:28 GMT)
ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう？
リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 03:30:38 GMT)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文参考訳（メタデータ） (Mon, 27 Mar 2023 09:59:48 GMT)
tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
（とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする）

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:03:21 GMT)
上記と近しい報告。
良いプロンプトの作り方にまで踏み込んでいて参考になる。（のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは？という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか？最新の利用規約など詳細の確認が必要。）

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 00:35:50 GMT)
ChatGPTの文法エラー訂正能力の検証
商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (Sat, 18 Mar 2023 14:02:04 GMT)
GPTシリーズモデルの性能比較
学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
日本語での評価も知りたいところ。（比較すればよいって話ではあるが。。。）

GPT-4の話題、Bardの登場

今週もGPT-4関連の話題、論文が多く出ていた。GoogleのBardが出たり「Sign up to try Bard from Google (blog.google)」、CopilotがGPT-4に対応したり「GitHub Copilot X: The AI-powered developer experience | The GitHub Blog」、ChatGPTにPlugin機能が付いたり「ChatGPT plugins (openai.com)」、llama_indexが対応したり「llama_index/ChatGPT_Retrieval_Plugin_Upload.ipynb at main · jerryjliu/llama_index · GitHub」と関連する話題も多かった。

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [0.4]
ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)は、経済的、社会的、政策的な意味を持つ可能性がある。アメリカの労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を担っていた。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 03:32:25 GMT)
GPT-4による仕事への影響を整理した論文。「影響を受ける＝GPT-4により50%以上時間削減が可能」で80%の労働者のタスクの10%に影響というだけでも結構な規模になる。高度な仕事への影響の方が大きいというのも特徴的

Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 16:51:28 GMT)
「Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artiﬁcial general intelligence (AGI) system.」（GPT-4の能力の幅と深さを考えると、人工知能(AGI)システムの初期の(まだ不完全な)バージョンと見なすことができると考えています。 ※FuguMT訳）という衝撃的な記載のある論文。
ほんまかいな、であり、見方によっては、という注釈も付くわけだが、ひとつ前の論文も含めて社会的インパクトが相当あるのは間違いなさそうではある。

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [39.2]
われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補のプロンプトが一般的にうまく機能し、性能差が小さいことを確かめる。 ChatGPTは、高リソースのヨーロッパ言語で商用翻訳製品と競合するが、低リソースまたは遠方の言語ではかなり遅れている。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
論文参考訳（メタデータ） (Sun, 19 Mar 2023 11:53:20 GMT)
GPT-4によって機械翻訳品質が商用製品レベルになったとする論文（もともとGPT-3.5までを扱っていた論文のアップデート）
GPT-3.5、ChatGPTまでであれば商用製品の性能には及んでいなかったが、GPT-4では商用製品レベルに達しているとのこと。個人的に英語→日本語で検証した結果（GPT-4を用いた翻訳の検証（vs GPT-3.5 vs FuguMT） | ぷるーふおぶこんせぷと (staka.jp)）も同じ傾向。なかなか衝撃的。

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? [112.1]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文参考訳（メタデータ） (Tue, 21 Mar 2023 10:09:47 GMT)
生成AI（ Generative AI (AIGC, a.k.a AI-generated content) ）に関するサーベイ
現在の動きを概観するのに良い論文

Reflexion: an autonomous agent with dynamic memory and self-reflection [0.0]
本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
論文参考訳（メタデータ） (Mon, 20 Mar 2023 18:08:50 GMT)
LLMを繰り返し使い結果を改善していくReflexionの提案
本論文の著者によるHumanEvalでの効果がとても高く驚き（GitHub – noahshinn024/reflexion-human-eval）
リポジトリはGitHub – noahshinn024/reflexion: Reflexion: an autonomous agent with dynamic memory and self-reflection

その他、arXivではないがGPT-3をマーケティングに使うというUsing GPT for Market Research by James Brand, Ayelet Israeli, Donald Ngwe :: SSRN（GPT-3モデルは,ランダムに選択された顧客であるかのように促されると富と状態依存を伴う価格感度の低下を含む経済理論と整合する多くの行動を示す。GPT-3が生成する製品や特徴に対する支払い意欲の推定は妥当な大きさである。マーケティング目的でGPT-3から情報をクエリする最善の方法に関する予備ガイドラインを提供する。）が面白かった

Consistency Analysis of ChatGPT

Consistency Analysis of ChatGPT [54.2]
ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。論理的に一貫した行動に関するChatGPTの信頼性について検討する。
論文参考訳（メタデータ） (Sat, 11 Mar 2023 01:19:01 GMT)
ChatGPTの一貫性評価、BECEL: Benchmark for Consistency Evaluation of Language Models (aclanthology.org)を利用
ChatGPTはnegation consistencyに優れている一方でsymmetric consistencyがいまいちという結果。
「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。

GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

GPT-4 Technical Report [0.0]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (Thu, 16 Mar 2023 04:59:24 GMT)
GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証（GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）からも性能が向上していることは間違いなさそう。
一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている（Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com)）。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう（Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog）。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.（非商用利用のみ）、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub（Apache-2ライセンス）などが発表されている。

様々な観点（性能やコスト、Trustworthyな要素など）から比較してみたいのと、純粋になぜ多く問題が取り扱えるか？という理由が知りたい。

SelfCheckGPT

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [35.6]
SelfCheckGPTは、ゼロリソース方式でファクトチェックブラックボックスモデルに対する単純なサンプリングベースアプローチである。我々は、GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する。我々は,SelfCheckGPTが,非事実文と事実文とを検出できることを示す。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 19:31:21 GMT)
ゼロリソース、ブラックボックス（LLMの応答のみ利用）で実行可能なHullucination検出方法の提案。Hullucinationが起きない、LLMが良く知っているものであれば応答も近しくなるというアイデア
リポジトリはGitHub – potsawee/selfcheckgpt: SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

ChatGPT関連

今週のChatGPT関連論文

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.1]
ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
論文参考訳（メタデータ） (Wed, 8 Mar 2023 15:50:02 GMT)
マルチモーダルなChatGPT、多種のFoundation Modelsを組み合わせるアプローチでPrompt ManagerがそれぞれのFoundation Modelをうまく使うようなシステムになっている。（単一のマルチモーダルモデルではない）
リポジトリはGitHub – microsoft/visual-chatgpt: VisualChatGPT

Is ChatGPT a Good NLG Evaluator? A Preliminary Study [55.1]
ChatGPTは、計算言語学コミュニティから広く注目を集めている。広く使われている3つのNLGメタ評価データセットについて実験を行った。その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
論文参考訳（メタデータ） (Tue, 7 Mar 2023 16:57:20 GMT)
ChatGPTを評価用に使用する話
機械翻訳で似た話があったがそれと同じで有望そうという結果。Hallucinate対策も同じように自己完結できるんじゃないかと思ったりする。
リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.2]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (Wed, 8 Mar 2023 03:56:31 GMT)
合成データ作成への応用。ゼロショット（Promptのみ）より合成データを介した方が性能が高いというのはGPT-3を用いた機械翻訳（GPT-3から知識を引き出したうえで翻訳モデルを作る方がGPT-3で直接翻訳するよりも高い性能）でも近い結果が出ていたように思う。

Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.8]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (Tue, 7 Mar 2023 18:44:07 GMT)
Foundation Modelsに関するサーベイ

ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification [0.0]
ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。その結果、ChatGPTは、どちらのモデルでもこれまで見られなかったデータセットに適用した場合、微調整されたモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (Wed, 8 Mar 2023 09:35:09 GMT)
スロベニア語というリソースの少ない言語に対してゼロショット能力が非常に高いという話。「In contrast, once the model is also prompted in the under-resourced language, the results start to deteriorate.」は日本語でも同じ気がしている。

週間ChatGPT

先週もChatGPTの話題は多かった。

ChatGPT: Jack of all trades, master of none [4.7]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 15:20:37 GMT)
ChatGPTのタスク別の性能
概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 20:51:09 GMT)
BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ

How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 02:11:36 GMT)
GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと（MS Translatorの実装にもよるが）単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。

Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:46:42 GMT)
LLMによる機械翻訳では辞書の併用に効果があるとする報告
確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい

Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文参考訳（メタデータ） (Mon, 20 Feb 2023 12:57:12 GMT)
ゼロショットでの知識抽出タスクへのChatGPTの応用
２段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では４０４、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう？

Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 12:29:33 GMT)
BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 22 Feb 2023 11:01:20 GMT)
ChatGPTをRobustnessの観点で検証、Microsoftの論文
GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classiﬁcationではChatGPTが有利という結果になっている
データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31