Causal Evaluation of Language Models 

  • Causal Evaluation of Language Models [33.3]
    言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 16:43:21 GMT)
  • LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
  • プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3 

  • Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3 [2.6]
    本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。 最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 17:50:37 GMT)
  • Llama-3を対象としたモデル編集、出るのが速い・・・
  • 「Contrary to previous belief, our experiments show that earlier layers may be more optimal intervention points, and that smaller, frequent sequential batch size edits have a superior performance in comparison to larger batch sizes.」、この手のテクニックはモデルが更新されるたび変わるのだろうか。。。