テキスト分類に何を使うか?(GPT-3? T5? ロジスティック回帰?)

  • Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
    本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 16:51:58 GMT)
  • テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
  • アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
  • (結局は目的次第ではありつつ)現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

バイト列(トークン化なし)でのT5

  • ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
    最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。 標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。 また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
    論文  参考訳(メタデータ)   (Fri, 28 May 2021 07:03:22 GMT)