DoLa: Decoding by Contrasting Layers

  • DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.0]
    大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。 事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。 コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 17:45:31 GMT)
  • Hallucinationを低減させる手法の提案。「By emphasizing the knowledge from higher layers and downplaying the lower or intermediate layer knowledge, we can potentially make LMs more factual and consequently reduce hallucinations. 」とのこと。とても興味深い。
  • リポジトリはGitHub – voidism/DoLa: Official implementation for the paper “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”

FLM-101B 限られた予算でのLLM構築

  • FLM-101B: An Open LLM and How to Train It with $100K Budget [64.8]
    大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 17:07:36 GMT)
  • 限られた予算での大規模言語モデル構築を扱った論文。100B+パラメータのモデルを100,000 USDで作り、他の主要モデルと競合的な性能とのこと。モデル構築戦略が非常に興味深い。(データ側の話が少ないような。。。)
  • モデルはCofeAI/FLM-101B · Hugging Faceで公開され、Apache-2、英語・中国語のバイリンガル

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

  • Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.0]
    大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。
    論文  参考訳(メタデータ)   (Sun, 3 Sep 2023 16:56:48 GMT)
  • LLMにおけるHallucinationに関するサーベイ
  • HallucinationをInput-conflicting hallucination、Context-conflicting hallucination、Fact-conflicting hallucinationに分け、対応もPre train、SFT、RLHF、Inferenceとステージ別に分けて整理されており大変わかりやすい。