TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

  • TrustLLM: Trustworthiness in Large Language Models [446.2]
    本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 22:07:21 GMT)
  • LLMの信頼性に関する包括的なサーベイ
  • 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
  • プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

  • Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
    大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 09:29:56 GMT)
  • LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
  • 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。

TOFU: Task of Fictitious Unlearning

  • TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
    Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 18:57:12 GMT)
  • LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
  • 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
  • リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

Model Editing Can Hurt General Abilities of Large Language Models

  • Model Editing Can Hurt General Abilities of Large Language Models [128.3]
    大規模言語モデル(LLM)は、パラメータに格納された知識にアクセスするための新しいパラダイムを開放した。 大規模言語モデル(LLM)の最近の進歩は、パラメータに格納された知識にアクセスするための新しいパラダイムを開放した。 更新情報によるLLMの再学習は資源集約的であるため,モデル編集への関心が高まっている。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 18:03:15 GMT)
  • モデル編集の副作用に関する検証、GPT2-XLとLlama-1-7Bを対象にKN、MEND、ROME、MEMITでModel Editingし、8タスクで評価。結果として性能はかなり劣化したとのこと。
  • 結果としては納得感があり、これら技術を使うには当該分野のテスト方法を確立する必要がありそう。
  • リポジトリはJasonForJoy/Model-Editing-Hurt (github.com)

UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

  • A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.7]
    大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。 重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。 本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
    論文  参考訳(メタデータ)   (Tue, 2 Jan 2024 17:56:30 GMT)
  • ハルシネーション対策手法のサーベイ
  • 色々出てはいるが実装時に使えるもの使えないものがあり、効果も様々。言語影響が大きいものもあってなかなか決定版はない印象。

HyKGE: Hypothesis Knowledge Graph Enhanced

  • Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
    我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。 本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 26 Dec 2023 04:49:56 GMT)
  • LLM + Knowledge GraphなRAGの提案。

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

  • Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
    多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。 複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。 この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 17:48:10 GMT)
  • LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
  • 言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

  • PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
    PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 15:51:12 GMT)
  • 入力画像+テキストからのアニメーション生成。アニメ中の破綻が少ない。
  • リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 

LogicAsker

  • A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
    LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 13:53:53 GMT)
  • LLMの論理的推論(命題論理・述語論理)能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
  • GPT-4でも結構間違うな、という印象