コンテンツへスキップ
- Causal Evaluation of Language Models [33.3]
言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
論文 参考訳(メタデータ) (Wed, 01 May 2024 16:43:21 GMT)
- LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
- プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)
- Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3 [2.6]
本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。 最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
論文 参考訳(メタデータ) (Wed, 01 May 2024 17:50:37 GMT)
- Llama-3を対象としたモデル編集、出るのが速い・・・
- 「Contrary to previous belief, our experiments show that earlier layers may be more optimal intervention points, and that smaller, frequent sequential batch size edits have a superior performance in comparison to larger batch sizes.」、この手のテクニックはモデルが更新されるたび変わるのだろうか。。。