GPT-4 – arXiv最新論文の紹介

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text [33.4]
GPT-4は、スクランブルされた文から元の文をほぼ完全に再構築することができる。 LLMが入力トークン化を著しく破壊しているにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
論文参考訳（メタデータ） (Thu, 30 Nov 2023 18:51:38 GMT)
人はタイプミスが含まれていても文書の意味が把握できるが、LLMだとどうかを検証した論文。GPT-4のリカバリーレートが凄すぎる面白い結果。暗号文読解能力があることが関連しているんやろか。
リポジトリはGitHub – ccqq77/unnatural-error-correctionだがcoming soon

Tracking the Newsworthiness of Public Documents

Tracking the Newsworthiness of Public Documents [107.1]
この研究は、サンフランシスコ・クロニクル(San Francisco Chronicle)によるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てている。まず、新聞記事、公共政策文書、会議記録を収集し、確率的関係モデルを用いてそれらをリンクする。第二に、ポリシー項目がカバーされるかどうかを予測するために、newsworthiness predictionという新しいタスクを定義します。
論文参考訳（メタデータ） (Thu, 16 Nov 2023 10:05:26 GMT)
政策とニュースのリンク、および報道する価値があるか予測するnewsworthiness predictionというタスクの提案。リアルなニーズに自然言語処理で対応していく論文であり興味深い。また、シンプルな手法が複雑な手法を上回っている部分もありその点も面白い。一方でLLMを使う部分はleakの懸念がぬぐえない気もする。

SOTOPIA

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 02:27:01 GMT)
様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標（目標の達成度合い）における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
プロジェクトサイトはSotopia

GPT-4V, LLaVA-1.5

GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文参考訳（メタデータ） (Fri, 29 Sep 2023 17:34:51 GMT)
GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 17:59:56 GMT)
OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文参考訳（メタデータ） (Sat, 12 Aug 2023 04:05:57 GMT)
暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs

How is ChatGPT’s behavior changing over time?

How is ChatGPT’s behavior changing over time? [36.9]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (Tue, 18 Jul 2023 06:56:08 GMT)
6月バージョンのGPT-4の性能が3月バージョンより落ちているのでは？としてバズった論文。
APIの挙動は変化するわけで総合的なタスクで評価しないと何とも言えないが、英文和訳タスクでも性能が落ちていそうだった OpenAI APIのアップデート（gpt-3.5-turbo-16k, gpt-4-0613）と機械翻訳 | ぷるーふおぶこんせぷと (staka.jp)
OpenAIはtwitterで「Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.（https://twitter.com/OpenAI/status/1682059830499082240?s=20）」としており、過去バージョンのサポートが伸びるのはありがたい。評価フレームワークもあるとのことGitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.。

GPT-4とGPT-3.5の信頼性

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 17:24:23 GMT)
GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は（jailbreakingされた場合も）より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
プロジェクトサイトはDecodingTrust Benchmark

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models

WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models [2.4]
我々はMEDIQA-Chat 2023の共有タスクを医師と患者との会話から自動的な臨床ノート作成のために提出した。本稿では,共有タスクデータに事前学習言語モデル(PLM)を1つ,大言語モデル(LLM)を2つ導入し,その2つについて報告する。専門家の人間の精査は、ICLベースのGPT-4によるアプローチによって生成されたメモが、人間によるメモと同じくらい頻繁に好まれていることを示している。
論文参考訳（メタデータ） (Sat, 3 Jun 2023 17:56:29 GMT)
患者との対話記録からの臨床ノート作成、コンペティションで行われたもののよう。GPT-4 + ICLがPLM + finetuneに勝っている点、GPT-4 + ICLが人が書いたGrund Truthと互角レベルで人に好まれる点など面白い結果となっている。
リポジトリはGitHub – bowang-lab/MEDIQA-Chat-2023: A repository for organizing our submission to the MEDIQA-Chat Tasks @ ACL-ClinicalNLP 2023

An Empirical Study on Challenging Math Problem Solving with GPT-4

An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 02:34:35 GMT)
ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (Sun, 4 Jun 2023 17:02:59 GMT)
こちらも数学的な問題を解くためのフレームワーク提案（データセットの提案も）
リポジトリはGitHub – RUCAIBox/CARP

TheoremQA

TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (Tue, 23 May 2023 22:35:20 GMT)
定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31