2023年11月13日 – arXiv最新論文の紹介

PASTA: Post-hoc Attention Steering for LLMs

Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs [84.0]
PASTAは、大きな言語モデルでユーザーが指定した強調マークでテキストを読むことができる方法である。 LLMのユーザ命令に従う能力を大幅に強化したり、ユーザ入力から新たな知識を統合することができる。
論文参考訳（メタデータ） (Fri, 3 Nov 2023 22:56:43 GMT)
斜体や太字などLLMを協調書体へ対応させる方法の提案。Post hocなアプローチでfine tuningのようなパラメータ更新を必要としないが特徴的。効果は高いとのこと。
リポジトリはGitHub – QingruZhang/PASTA: PASTA: Post-hoc Attention Steering for LLMs

QualEval: Qualitative Evaluation for Model Improvement [86.3]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (Mon, 6 Nov 2023 00:21:44 GMT)
LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)

Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (Fri, 3 Nov 2023 14:59:54 GMT)
LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

On the Opportunities of Green Computing: A Survey [80.2]
人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 03:08:34 GMT)
これから重要なGreen Computingのサーベイ。「The latest version of Generative Pre-trained Transformers GPT-4 with 1.8 trillion parameters, can emit between 12,456 and 14,994 metric tons CO2e if it was trained on normal grid electricity in California,」とのこと。排出権買うだけで1億円以上と考えてよいんだろうか。