- Tuning Language Models by Proxy [117.1]
プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。 我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
論文 参考訳(メタデータ) (Tue, 16 Jan 2024 18:49:55 GMT) - (チューニングした)小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
- 「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。
タグ: LLM
Self-Rewarding Language Models
- Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。 反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (Thu, 18 Jan 2024 14:43:47 GMT) - 自分でInstructionを生成、評価しDPO(Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com))するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
- ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、(さすがにまだなさそうだけど)新たな情報を生み出せているのかなど興味深い。
Mixtral of Experts
- Mixtral of Experts [57.4]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
論文 参考訳(メタデータ) (Mon, 8 Jan 2024 18:47:34 GMT) - 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
- Mixtral of experts | Mistral AI | Open-weight models
DIALIGHT
- DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。 ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。 評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (Thu, 4 Jan 2024 11:27:48 GMT) - 多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
- リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound
Understanding LLMs: A Comprehensive Overview from Training to Inference
- Understanding LLMs: A Comprehensive Overview from Training to Inference [52.7]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。 トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。 推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (Thu, 4 Jan 2024 02:43:57 GMT) - LLMの作り方を一歩踏み込んで知りたいときによい資料。
AMIE: Articulate Medical Intelligence Explorer
- Towards Conversational Diagnostic AI [32.8]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 04:25:06 GMT) - LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
- 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。
Language Models Understand Numbers, at Least Partially
- Language Models Understand Numbers, at Least Partially [32.5]
数学的問題における基本要素となる数について,言語モデルが理解しているかどうかを考察する。 本研究では,付加問題を含む合成データセットを構築し,線形プローブを用いてモデルの隠れ状態から入力番号を読み取る。 予備研究は、言語モデルが数の部分的理解を示すことを示唆している。
論文 参考訳(メタデータ) (Mon, 8 Jan 2024 08:54:22 GMT) - LLMが数値を理解しているか?の分析。利用している立場だと怪しいと思っていたが、「Experimental results prove that LLMs do have a rough estimation of input numbers in their hidden states, but the compression process may not be lossless.」と完全ではないが肯定的な結果のよう。「LLMs exhibit the ability to utilize compressed numbers to perform arithmetic calculations, and the ability to perform calculations is explicitly related to the scale of models.」というのもとても興味深い。
TrustLLMとLLMのリスク分類
LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。
- TrustLLM: Trustworthiness in Large Language Models [446.2]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (Wed, 10 Jan 2024 22:07:21 GMT) - LLMの信頼性に関する包括的なサーベイ
- 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
- プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)
- Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 09:29:56 GMT) - LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
- 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。
TOFU: Task of Fictitious Unlearning
- TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 18:57:12 GMT) - LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
- 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
- リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)
HyKGE: Hypothesis Knowledge Graph Enhanced
- Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。 本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
論文 参考訳(メタデータ) (Tue, 26 Dec 2023 04:49:56 GMT) - LLM + Knowledge GraphなRAGの提案。