2023年1月23日 – arXiv最新論文の紹介

Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。分類精度を主指標として,様々なモデルの分類器の性能を評価する。次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 16:51:58 GMT)
テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
（結局は目的次第ではありつつ）現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
ChatGPTは、幅広い人間の質問に効果的に反応できる。人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
論文参考訳（メタデータ） (Wed, 18 Jan 2023 15:23:25 GMT)
ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約４万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため（と思われる）」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

日: 2023年1月23日