Understanding LLMs: A Comprehensive Overview from Training to Inference

  • Understanding LLMs: A Comprehensive Overview from Training to Inference [52.7]
    大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。 トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。 推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 02:43:57 GMT)
  • LLMの作り方を一歩踏み込んで知りたいときによい資料。

AMIE: Articulate Medical Intelligence Explorer

  • Towards Conversational Diagnostic AI [32.8]
    本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 04:25:06 GMT)
  • LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
  • 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

Language Models Understand Numbers, at Least Partially

  • Language Models Understand Numbers, at Least Partially [32.5]
    数学的問題における基本要素となる数について,言語モデルが理解しているかどうかを考察する。 本研究では,付加問題を含む合成データセットを構築し,線形プローブを用いてモデルの隠れ状態から入力番号を読み取る。 予備研究は、言語モデルが数の部分的理解を示すことを示唆している。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 08:54:22 GMT)
  • LLMが数値を理解しているか?の分析。利用している立場だと怪しいと思っていたが、「Experimental results prove that LLMs do have a rough estimation of input numbers in their hidden states, but the compression process may not be lossless.」と完全ではないが肯定的な結果のよう。「LLMs exhibit the ability to utilize compressed numbers to perform arithmetic calculations, and the ability to perform calculations is explicitly related to the scale of models.」というのもとても興味深い。

TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

  • TrustLLM: Trustworthiness in Large Language Models [446.2]
    本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 22:07:21 GMT)
  • LLMの信頼性に関する包括的なサーベイ
  • 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
  • プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

  • Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
    大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 09:29:56 GMT)
  • LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
  • 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。

TOFU: Task of Fictitious Unlearning

  • TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
    Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 18:57:12 GMT)
  • LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
  • 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
  • リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

HyKGE: Hypothesis Knowledge Graph Enhanced

  • Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
    我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。 本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 26 Dec 2023 04:49:56 GMT)
  • LLM + Knowledge GraphなRAGの提案。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 

LogicAsker

  • A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
    LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 13:53:53 GMT)
  • LLMの論理的推論(命題論理・述語論理)能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
  • GPT-4でも結構間違うな、という印象

Self-Contrast

  • Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
    研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。 我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。 要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 00:32:33 GMT)
  • Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
  • 多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
  • すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。

ChartAssisstant

  • ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
    ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。 その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 17:51:48 GMT)
  • こちらはチャートを扱える(Vision-Languageでチャートに特化した)マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
  • リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。