GPT-4 – ページ 2 – arXiv最新論文の紹介

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 17:56:11 GMT)
進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう（細かい点ではいろいろあるが）
実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう！と思った。

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 19:00:43 GMT)
因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
論文参考訳（メタデータ） (Fri, 28 Apr 2023 22:35:03 GMT)
結構な書籍の内容がGPT-4の中に記憶されているのでは？という内容。membership inference系。
（当然だが）記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要（ということはわかりつつも具体的な対策は簡単ではない…）
リポジトリが公開されている　GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
論文参考訳（メタデータ） (Tue, 2 May 2023 05:46:48 GMT)
ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code

New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
論文参考訳（メタデータ） (Tue, 2 May 2023 03:27:27 GMT)
機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
Personalized MTも今まではなかなか困難だったが、LLM＋プロンプトでかなり有効に実現できそうな予感（機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している）

Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
論文参考訳（メタデータ） (Thu, 4 May 2023 05:21:09 GMT)
GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題

AutoML-GPT: Automatic Machine Learning with GPT [74.3]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (Thu, 4 May 2023 02:09:43 GMT)
AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野

週刊GPT

ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。

先週に引き続きオープンな取り組みも続けられており期待大。

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 17:59:09 GMT)
LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。（ベースが作れないという話あるけど…）
リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 20:58:15 GMT)
オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge（8 GPU hour）が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
リポジトリはGitHub – EleutherAI/pythia

医学関連の質問に対応できるかの話

Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 05:43:21 GMT)
韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 13:04:47 GMT)
こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA

次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成

Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 15:37:17 GMT)

次に頑健性の話。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 14:21:51 GMT)
頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
（翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは？と思わなくもない）

上記にも関連するが、翻訳における検証

Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 01:17:59 GMT)
ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。（当然ながらBLEUへの影響も大きい）

最後に要約に関する検証

Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 09:27:37 GMT)
LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル＆複数のプロンプトのパターンを評価しているのが凄い
全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 12:46:54 GMT)
GPT-4（＋CoT）を用いたNLGの評価手法
LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい

BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:30:36 GMT)
金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:48:28 GMT)
ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう？
リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 03:30:38 GMT)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文参考訳（メタデータ） (Mon, 27 Mar 2023 09:59:48 GMT)
tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
（とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする）

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:03:21 GMT)
上記と近しい報告。
良いプロンプトの作り方にまで踏み込んでいて参考になる。（のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは？という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか？最新の利用規約など詳細の確認が必要。）

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 00:35:50 GMT)
ChatGPTの文法エラー訂正能力の検証
商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

GPT-4の話題、Bardの登場

今週もGPT-4関連の話題、論文が多く出ていた。GoogleのBardが出たり「Sign up to try Bard from Google (blog.google)」、CopilotがGPT-4に対応したり「GitHub Copilot X: The AI-powered developer experience | The GitHub Blog」、ChatGPTにPlugin機能が付いたり「ChatGPT plugins (openai.com)」、llama_indexが対応したり「llama_index/ChatGPT_Retrieval_Plugin_Upload.ipynb at main · jerryjliu/llama_index · GitHub」と関連する話題も多かった。

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [0.4]
ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)は、経済的、社会的、政策的な意味を持つ可能性がある。アメリカの労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を担っていた。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 03:32:25 GMT)
GPT-4による仕事への影響を整理した論文。「影響を受ける＝GPT-4により50%以上時間削減が可能」で80%の労働者のタスクの10%に影響というだけでも結構な規模になる。高度な仕事への影響の方が大きいというのも特徴的

Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 16:51:28 GMT)
「Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artiﬁcial general intelligence (AGI) system.」（GPT-4の能力の幅と深さを考えると、人工知能(AGI)システムの初期の(まだ不完全な)バージョンと見なすことができると考えています。 ※FuguMT訳）という衝撃的な記載のある論文。
ほんまかいな、であり、見方によっては、という注釈も付くわけだが、ひとつ前の論文も含めて社会的インパクトが相当あるのは間違いなさそうではある。

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [39.2]
われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補のプロンプトが一般的にうまく機能し、性能差が小さいことを確かめる。 ChatGPTは、高リソースのヨーロッパ言語で商用翻訳製品と競合するが、低リソースまたは遠方の言語ではかなり遅れている。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
論文参考訳（メタデータ） (Sun, 19 Mar 2023 11:53:20 GMT)
GPT-4によって機械翻訳品質が商用製品レベルになったとする論文（もともとGPT-3.5までを扱っていた論文のアップデート）
GPT-3.5、ChatGPTまでであれば商用製品の性能には及んでいなかったが、GPT-4では商用製品レベルに達しているとのこと。個人的に英語→日本語で検証した結果（GPT-4を用いた翻訳の検証（vs GPT-3.5 vs FuguMT） | ぷるーふおぶこんせぷと (staka.jp)）も同じ傾向。なかなか衝撃的。

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? [112.1]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文参考訳（メタデータ） (Tue, 21 Mar 2023 10:09:47 GMT)
生成AI（ Generative AI (AIGC, a.k.a AI-generated content) ）に関するサーベイ
現在の動きを概観するのに良い論文

Reflexion: an autonomous agent with dynamic memory and self-reflection [0.0]
本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
論文参考訳（メタデータ） (Mon, 20 Mar 2023 18:08:50 GMT)
LLMを繰り返し使い結果を改善していくReflexionの提案
本論文の著者によるHumanEvalでの効果がとても高く驚き（GitHub – noahshinn024/reflexion-human-eval）
リポジトリはGitHub – noahshinn024/reflexion: Reflexion: an autonomous agent with dynamic memory and self-reflection

その他、arXivではないがGPT-3をマーケティングに使うというUsing GPT for Market Research by James Brand, Ayelet Israeli, Donald Ngwe :: SSRN（GPT-3モデルは,ランダムに選択された顧客であるかのように促されると富と状態依存を伴う価格感度の低下を含む経済理論と整合する多くの行動を示す。GPT-3が生成する製品や特徴に対する支払い意欲の推定は妥当な大きさである。マーケティング目的でGPT-3から情報をクエリする最善の方法に関する予備ガイドラインを提供する。）が面白かった

GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

GPT-4 Technical Report [0.0]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (Thu, 16 Mar 2023 04:59:24 GMT)
GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証（GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）からも性能が向上していることは間違いなさそう。
一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている（Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com)）。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう（Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog）。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.（非商用利用のみ）、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub（Apache-2ライセンス）などが発表されている。

様々な観点（性能やコスト、Trustworthyな要素など）から比較してみたいのと、純粋になぜ多く問題が取り扱えるか？という理由が知りたい。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31