Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (Tue, 14 Mar 2023 17:01:59 GMT)
「Graduate Job Classiﬁcation（求職が大学・入学レベルの職位に適切かどうかを判断する問題）」を例にPLMを用いた分類モデルとLLM＋Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している（メトリクスによってはDeBERTa-V3の負けているが…）
色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
プロンプトを改善していく過程も非常に参考になる。

コメントを残す

コメントを残す コメントをキャンセル