コンテンツへスキップ
- Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 14:59:54 GMT)
- LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
- 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。
- On the Opportunities of Green Computing: A Survey [80.2]
人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。 高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 03:08:34 GMT)
- これから重要なGreen Computingのサーベイ。「The latest version of Generative Pre-trained Transformers GPT-4 with 1.8 trillion parameters, can emit between 12,456 and 14,994 metric tons CO2e if it was trained on normal grid electricity in California,」とのこと。排出権買うだけで1億円以上と考えてよいんだろうか。