arXiv – ページ 77 – arXiv最新論文の紹介

Large Language Model for Science: A Study on P vs. NP

Large Language Model for Science: A Study on P vs. NP [88.7]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 17:49:27 GMT)
P vs NP問題を対象にLLM（GPT-4） + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

On Large Language Models’ Selection Bias in Multi-Choice Questions

On Large Language Models’ Selection Bias in Multi-Choice Questions [117.7]
大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:44:56 GMT)
多肢選択問題で回答の位置によりLLMの性能が変わることが知られている（For instance, moving the golden answers to position D degrades the accuracy of gpt-3.5-turbo by 6.3 (from 67.2 to 60.9)）。この報告ではそのバイアスを軽減する手法 PriDe(Debiasing with Prior estimation)を提案している。
「It cannot be mitigated via basic prompting strategies (§2.5), such as explicit debiasing instruction (i.e., instructing LLMs to treat each option fairly) and Chain-of-Thought prompting (Wei et al , 2022).」や「We find that removing option IDs can debias LLMs,」というのも面白い。正しくバイアス除去を行うと全体的なパフォーマンスも向上するよう。

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文参考訳（メタデータ） (Fri, 1 Sep 2023 17:59:44 GMT)
LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

MathGLM

GPT Can Solve Mathematical Problems Without a Calculator [24.1]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文参考訳（メタデータ） (Wed, 6 Sep 2023 06:18:16 GMT)
LLMで算術計算（多桁数、小数点数、分数）は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは？と直感的にも思うが、可能という結論になっている。

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
論文参考訳（メタデータ） (Fri, 25 Aug 2023 17:51:23 GMT)
ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。

WeatherBench 2

WeatherBench 2: A benchmark for the next generation of data-driven global weather models [42.3]
WeatherBench 2は、Raspらによって提案されたグローバルな中距離(1～14日)の天気予報ベンチマークのアップデートである。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。
論文参考訳（メタデータ） (Tue, 29 Aug 2023 18:32:08 GMT)
data-driven weather modeling用データ、プロジェクトサイトがとても充実している。
プロジェクトサイトはWeatherBench (research.google)

DoLa: Decoding by Contrasting Layers

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.0]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:45:31 GMT)
Hallucinationを低減させる手法の提案。「By emphasizing the knowledge from higher layers and downplaying the lower or intermediate layer knowledge, we can potentially make LMs more factual and consequently reduce hallucinations. 」とのこと。とても興味深い。
リポジトリはGitHub – voidism/DoLa: Official implementation for the paper “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”

FLM-101B　限られた予算でのLLM構築

FLM-101B: An Open LLM and How to Train It with $100K Budget [64.8]
大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:07:36 GMT)
限られた予算での大規模言語モデル構築を扱った論文。100B+パラメータのモデルを100,000 USDで作り、他の主要モデルと競合的な性能とのこと。モデル構築戦略が非常に興味深い。（データ側の話が少ないような。。。）
モデルはCofeAI/FLM-101B · Hugging Faceで公開され、Apache-2、英語・中国語のバイリンガル

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.0]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。
論文参考訳（メタデータ） (Sun, 3 Sep 2023 16:56:48 GMT)
LLMにおけるHallucinationに関するサーベイ
HallucinationをInput-conflicting hallucination、Context-conflicting hallucination、Fact-conflicting hallucinationに分け、対応もPre train、SFT、RLHF、Inferenceとステージ別に分けて整理されており大変わかりやすい。

CoALA: Cognitive Architectures for Language Agents

Cognitive Architectures for Language Agents [47.0]
本研究では,言語エージェントのための認知的アーキテクチャ (CoALA) を提案し,推論,基礎化,学習,意思決定の多様な手法を体系化する。
論文参考訳（メタデータ） (Tue, 5 Sep 2023 17:56:20 GMT)
言語エージェントの観点からLLMに関する様々なテクニック・研究を整理しフレームワーク化した論文
「Zero-shot, Few-shot, Zero-shot Chain-of-Thought, Retrieval Augmented Generation, Socratic Models, Self-Critique」のようなテクニックの整理や「SayCan, ReAct, Voyager, Generative Agents, Tree of Thoughts」との比較などLLM周りの様々な取り組みを整理するうえでも参考になる。
リポジトリはGitHub – ysymyth/awesome-language-agents: List of language agents based on paper “Cognitive Architectures for Language Agents”

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31