2023年9月18日 – arXiv最新論文の紹介

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 06:41:58 GMT)
LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」（PA: Percentage Agreement ）「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
GPT-4とかだと英語で有効だった手法が日本語でも動く（ように見える）わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。

Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。そこで本研究では,ICLの優れた実演方法について検討する。意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 17:48:34 GMT)
通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。

ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 16:54:34 GMT)
高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

Large Language Model for Science: A Study on P vs. NP [88.7]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 17:49:27 GMT)
P vs NP問題を対象にLLM（GPT-4） + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)