Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

  • Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
    大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 06:41:58 GMT)
  • LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
  • GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。

Ambiguity-Aware In-Context Learning with Large Language Models

  • Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
    インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。 そこで本研究では,ICLの優れた実演方法について検討する。 意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 17:48:34 GMT)
  • 通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
  • Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。

ExpertQA

  • ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
    本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 16:54:34 GMT)
  • 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
  • リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

Large Language Model for Science: A Study on P vs. NP

  • Large Language Model for Science: A Study on P vs. NP [88.7]
    大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。 具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。 我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
    論文  参考訳(メタデータ)   (Mon, 11 Sep 2023 17:49:27 GMT)
  •  P vs NP問題を対象にLLM(GPT-4) + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

On Large Language Models’ Selection Bias in Multi-Choice Questions

  • On Large Language Models’ Selection Bias in Multi-Choice Questions [117.7]
    大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。 我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。 選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 17:44:56 GMT)
  • 多肢選択問題で回答の位置によりLLMの性能が変わることが知られている(For instance, moving the golden answers to position D degrades the accuracy of gpt-3.5-turbo by 6.3 (from 67.2 to 60.9))。この報告ではそのバイアスを軽減する手法 PriDe(Debiasing with Prior estimation)を提案している。
  • 「It cannot be mitigated via basic prompting strategies (§2.5), such as explicit debiasing instruction (i.e., instructing LLMs to treat each option fairly) and Chain-of-Thought prompting (Wei et al , 2022).」や「We find that removing option IDs can debias LLMs,」というのも面白い。正しくバイアス除去を行うと全体的なパフォーマンスも向上するよう。

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

  • Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
    我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。 検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。 驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
    論文  参考訳(メタデータ)   (Fri, 1 Sep 2023 17:59:44 GMT)
  • LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
  • 「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

MathGLM

  • GPT Can Solve Mathematical Problems Without a Calculator [24.1]
    大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。 また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
    論文  参考訳(メタデータ)   (Wed, 6 Sep 2023 06:18:16 GMT)
  • LLMで算術計算(多桁数、小数点数、分数)は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは?と直感的にも思うが、可能という結論になっている。

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection

  • ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
    本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。 本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
    論文  参考訳(メタデータ)   (Fri, 25 Aug 2023 17:51:23 GMT)
  • ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。

WeatherBench 2

  • WeatherBench 2: A benchmark for the next generation of data-driven global weather models [42.3]
    WeatherBench 2は、Raspらによって提案されたグローバルな中距離(1~14日)の天気予報ベンチマークのアップデートである。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。
    論文  参考訳(メタデータ)   (Tue, 29 Aug 2023 18:32:08 GMT)
  • data-driven weather modeling用データ、プロジェクトサイトがとても充実している。
  • プロジェクトサイトはWeatherBench (research.google)

DoLa: Decoding by Contrasting Layers

  • DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.0]
    大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。 事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。 コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 17:45:31 GMT)
  • Hallucinationを低減させる手法の提案。「By emphasizing the knowledge from higher layers and downplaying the lower or intermediate layer knowledge, we can potentially make LMs more factual and consequently reduce hallucinations. 」とのこと。とても興味深い。
  • リポジトリはGitHub – voidism/DoLa: Official implementation for the paper “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”