コンテンツへスキップ
- Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。 そこで本研究では,ICLの優れた実演方法について検討する。 意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 17:48:34 GMT)
- 通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
- Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。
- ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 16:54:34 GMT)
- 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
- リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers
- Large Language Model for Science: A Study on P vs. NP [88.7]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。 具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。 我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文 参考訳(メタデータ) (Mon, 11 Sep 2023 17:49:27 GMT)
- P vs NP問題を対象にLLM(GPT-4) + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- On Large Language Models’ Selection Bias in Multi-Choice Questions [117.7]
大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。 我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。 選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (Thu, 7 Sep 2023 17:44:56 GMT)
- 多肢選択問題で回答の位置によりLLMの性能が変わることが知られている(For instance, moving the golden answers to position D degrades the accuracy of gpt-3.5-turbo by 6.3 (from 67.2 to 60.9))。この報告ではそのバイアスを軽減する手法 PriDe(Debiasing with Prior estimation)を提案している。
- 「It cannot be mitigated via basic prompting strategies (§2.5), such as explicit debiasing instruction (i.e., instructing LLMs to treat each option fairly) and Chain-of-Thought prompting (Wei et al , 2022).」や「We find that removing option IDs can debias LLMs,」というのも面白い。正しくバイアス除去を行うと全体的なパフォーマンスも向上するよう。
- Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。 検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。 驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文 参考訳(メタデータ) (Fri, 1 Sep 2023 17:59:44 GMT)
- LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
- 「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。
- GPT Can Solve Mathematical Problems Without a Calculator [24.1]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。 また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文 参考訳(メタデータ) (Wed, 6 Sep 2023 06:18:16 GMT)
- LLMで算術計算(多桁数、小数点数、分数)は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは?と直感的にも思うが、可能という結論になっている。
- ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。 本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
論文 参考訳(メタデータ) (Fri, 25 Aug 2023 17:51:23 GMT)
- ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。
- WeatherBench 2: A benchmark for the next generation of data-driven global weather models [42.3]
WeatherBench 2は、Raspらによって提案されたグローバルな中距離(1~14日)の天気予報ベンチマークのアップデートである。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。
論文 参考訳(メタデータ) (Tue, 29 Aug 2023 18:32:08 GMT)
- data-driven weather modeling用データ、プロジェクトサイトがとても充実している。
- プロジェクトサイトはWeatherBench (research.google)
- FLM-101B: An Open LLM and How to Train It with $100K Budget [64.8]
大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
論文 参考訳(メタデータ) (Thu, 7 Sep 2023 17:07:36 GMT)
- 限られた予算での大規模言語モデル構築を扱った論文。100B+パラメータのモデルを100,000 USDで作り、他の主要モデルと競合的な性能とのこと。モデル構築戦略が非常に興味深い。(データ側の話が少ないような。。。)
- モデルはCofeAI/FLM-101B · Hugging Faceで公開され、Apache-2、英語・中国語のバイリンガル