T5 – arXiv最新論文の紹介

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection [48.2]
人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。 WikiDYKはウィキペディアの「Did You Know…」エントリから最近追加された人文的な事実を活用する。 WikiDYKには12,290の事実と77,180の質問が含まれている。
論文参考訳（メタデータ） (Sun, 18 May 2025 08:39:05 GMT)
「Our extensive experiments reveal a critical limitation: under continued pre-training, Causal Language Models (CLMs) exhibit significantly weaker knowledge memorization compared to Bidirectional Language Models (BiLMs). To address this gap, we proposed a modular collaborative framework that integrates BiLMs as dynamic external knowledge repositories with LLMs.」とのこと。今はCausal LM全盛という感じだが、BiLMの活用はありえるのだろうか。速度的な問題次第・・・？
リポジトリはGitHub – zhang-yu-wei/WikiDYK

FLAME: A small language model for spreadsheet formulas [12.4]
本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 17:29:43 GMT)
Excelを対象にしたプログラム（？）用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分（6/10タスクで他を上回る）とのこと
巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。（FLAME自体小規模というにはやや抵抗が無いわけではないが。。。）

Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。分類精度を主指標として,様々なモデルの分類器の性能を評価する。次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 16:51:58 GMT)
テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
（結局は目的次第ではありつつ）現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文参考訳（メタデータ） (Fri, 28 May 2021 07:03:22 GMT)
- MeCabを用いた形態素解析（分かち書き）やsentence pieceを用いたtokenizeなどをせずに事前学習を行うという論文。Fugu-MT 論文翻訳(概要): CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation が思い浮かんだがそれよりも進んでいるよう。