2023年7月24日 – arXiv最新論文の紹介

How is ChatGPT’s behavior changing over time?

How is ChatGPT’s behavior changing over time? [36.9]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (Tue, 18 Jul 2023 06:56:08 GMT)
6月バージョンのGPT-4の性能が3月バージョンより落ちているのでは？としてバズった論文。
APIの挙動は変化するわけで総合的なタスクで評価しないと何とも言えないが、英文和訳タスクでも性能が落ちていそうだった OpenAI APIのアップデート（gpt-3.5-turbo-16k, gpt-4-0613）と機械翻訳 | ぷるーふおぶこんせぷと (staka.jp)
OpenAIはtwitterで「Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.（https://twitter.com/OpenAI/status/1682059830499082240?s=20）」としており、過去バージョンのサポートが伸びるのはありがたい。評価フレームワークもあるとのことGitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.。

Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文参考訳（メタデータ） (Wed, 19 Jul 2023 17:08:59 GMT)
Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU（7ooM）がある場合は別途申請が必要、出力を他のモデルの強化に使えない（You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).）などApache-2ライセンスなどとは異なる点に注意が必要。
StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
公式サイトはLlama 2 – Meta AI　huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)

On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models [0.0]
大規模言語モデル(LLM)は、ChatGPTやBardといったLLMが数百万のユーザを獲得して、非常に注目されている。我々は15,821 LLMのコンステレーションをナビゲートし探索するための公開ウェブアプリケーションを提案する。
論文参考訳（メタデータ） (Wed, 19 Jul 2023 07:17:43 GMT)
派生モデルを含め非常に多くのモデルが出ているLLMを探索するためのアプリケーションの提案
プロジェクトサイトはConstellation (stanford.edu)で、リンクから利用可能。データセットなどはandrewgcodes (Andrew Kean Gao) · GitHubで公開予定とのこと。