GPT関連の論文はとても多い。
オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。
Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – (英語Stability AI
- Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。 この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 13:33:42 GMT) - コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか?とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
- リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.
- ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。 近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。 これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (Mon, 17 Apr 2023 17:13:42 GMT) - radiology report summarizationタスクにおけるGPT系モデルの利用
- 動的なプロンプト作成など実利用でも参考になるかも
- Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。 我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:48:43 GMT) - ChatGPTの間違い分析
- 外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる
- Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。 姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 08:08:12 GMT) - ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。
- LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。 分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 15:35:43 GMT) - LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。
- Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 15:25:44 GMT) - logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
- ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも(ReClorを除き)人間のパフォーマンスとは大きな差がある。「However, the performance drops significantly when handling newly released and out-of-distribution datasets.」という指摘が印象的(leak…?)。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
- ベンチマークが公開されている GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models
- Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:09:12 GMT) - データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話 - リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language
- GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 16:17:26 GMT) - 苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
- GitHub – ShuheWang1998/GPT-NER