LLM – ページ 45 – arXiv最新論文の紹介

Large Language Model for Science: A Study on P vs. NP

Large Language Model for Science: A Study on P vs. NP [88.7]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 17:49:27 GMT)
P vs NP問題を対象にLLM（GPT-4） + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

On Large Language Models’ Selection Bias in Multi-Choice Questions

On Large Language Models’ Selection Bias in Multi-Choice Questions [117.7]
大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:44:56 GMT)
多肢選択問題で回答の位置によりLLMの性能が変わることが知られている（For instance, moving the golden answers to position D degrades the accuracy of gpt-3.5-turbo by 6.3 (from 67.2 to 60.9)）。この報告ではそのバイアスを軽減する手法 PriDe(Debiasing with Prior estimation)を提案している。
「It cannot be mitigated via basic prompting strategies (§2.5), such as explicit debiasing instruction (i.e., instructing LLMs to treat each option fairly) and Chain-of-Thought prompting (Wei et al , 2022).」や「We find that removing option IDs can debias LLMs,」というのも面白い。正しくバイアス除去を行うと全体的なパフォーマンスも向上するよう。

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文参考訳（メタデータ） (Fri, 1 Sep 2023 17:59:44 GMT)
LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

MathGLM

GPT Can Solve Mathematical Problems Without a Calculator [24.1]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文参考訳（メタデータ） (Wed, 6 Sep 2023 06:18:16 GMT)
LLMで算術計算（多桁数、小数点数、分数）は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは？と直感的にも思うが、可能という結論になっている。

DoLa: Decoding by Contrasting Layers

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.0]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:45:31 GMT)
Hallucinationを低減させる手法の提案。「By emphasizing the knowledge from higher layers and downplaying the lower or intermediate layer knowledge, we can potentially make LMs more factual and consequently reduce hallucinations. 」とのこと。とても興味深い。
リポジトリはGitHub – voidism/DoLa: Official implementation for the paper “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”

FLM-101B　限られた予算でのLLM構築

FLM-101B: An Open LLM and How to Train It with $100K Budget [64.8]
大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 17:07:36 GMT)
限られた予算での大規模言語モデル構築を扱った論文。100B+パラメータのモデルを100,000 USDで作り、他の主要モデルと競合的な性能とのこと。モデル構築戦略が非常に興味深い。（データ側の話が少ないような。。。）
モデルはCofeAI/FLM-101B · Hugging Faceで公開され、Apache-2、英語・中国語のバイリンガル

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.0]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。
論文参考訳（メタデータ） (Sun, 3 Sep 2023 16:56:48 GMT)
LLMにおけるHallucinationに関するサーベイ
HallucinationをInput-conflicting hallucination、Context-conflicting hallucination、Fact-conflicting hallucinationに分け、対応もPre train、SFT、RLHF、Inferenceとステージ別に分けて整理されており大変わかりやすい。

CoALA: Cognitive Architectures for Language Agents

Cognitive Architectures for Language Agents [47.0]
本研究では,言語エージェントのための認知的アーキテクチャ (CoALA) を提案し,推論,基礎化,学習,意思決定の多様な手法を体系化する。
論文参考訳（メタデータ） (Tue, 5 Sep 2023 17:56:20 GMT)
言語エージェントの観点からLLMに関する様々なテクニック・研究を整理しフレームワーク化した論文
「Zero-shot, Few-shot, Zero-shot Chain-of-Thought, Retrieval Augmented Generation, Socratic Models, Self-Critique」のようなテクニックの整理や「SayCan, ReAct, Voyager, Generative Agents, Tree of Thoughts」との比較などLLM周りの様々な取り組みを整理するうえでも参考になる。
リポジトリはGitHub – ysymyth/awesome-language-agents: List of language agents based on paper “Cognitive Architectures for Language Agents”

XGen-7B Technical Report

XGen-7B Technical Report [138.7]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 02:20:03 GMT)
オープンソースかつ長いシーケンス長を入力可能なLLM。XGen-7Bの論文。パラメータサイズに比べて性能が高い。
リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、いくつかのバリエーションがあるが、Salesforce/xgen-7b-8k-base · Hugging FaceはApache-2ライセンスと非常に使いやすいライセンスである。

先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。

Explainability for Large Language Models: A Survey

Explainability for Large Language Models: A Survey [59.7]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (Sat, 2 Sep 2023 22:14:26 GMT)
LLMの説明可能性に関するサーベイ
Traditional Fine-tuning Paradigm、Prompting Paradigmという分け方がLLM的

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31