2023年7月12日 – arXiv最新論文の紹介

A Survey on Evaluation of Large Language Models

A Survey on Evaluation of Large Language Models [69.7]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 16:28:35 GMT)
LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい（そして素早いなと思う）
２ページ目の図が分かりやすく、様々な側面（NLPの性能、頑健性、倫理、社会科学、・・・）からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
リポジトリがあり、こちらも参考になる　GitHub – MLGroupJLU/LLM-eval-survey

CausalVLRとLLMを用いた因果グラフの同定

CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (Fri, 30 Jun 2023 08:17:38 GMT)
因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning

Causal Discovery with Language Models as Imperfect Experts [119.2]
専門知識を用いて因果グラフの同定を改善する方法について検討する。整合性に基づく専門家の知識を改良するための戦略を提案する。本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 16:01:38 GMT)
別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。