Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1] 本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。 論文参考訳(メタデータ) (Tue, 17 Jan 2023 16:51:58 GMT)
How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1] ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。 論文参考訳(メタデータ) (Wed, 18 Jan 2023 15:23:25 GMT)
本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想