コンテンツへスキップ
- TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 18:57:12 GMT)
- LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
- 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
- リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)
- Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。 本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
論文 参考訳(メタデータ) (Tue, 26 Dec 2023 04:49:56 GMT)
- LLM + Knowledge GraphなRAGの提案。
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (Mon, 1 Jan 2024 13:53:53 GMT)
- LLMの論理的推論(命題論理・述語論理)能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
- GPT-4でも結構間違うな、という印象
- Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。 我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。 要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (Thu, 4 Jan 2024 00:32:33 GMT)
- Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
- 多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
- すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。
- ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。 その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
論文 参考訳(メタデータ) (Thu, 4 Jan 2024 17:51:48 GMT)
- こちらはチャートを扱える(Vision-Languageでチャートに特化した)マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
- リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。
- DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (Sun, 31 Dec 2023 22:37:52 GMT)
- bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
- 「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。
- LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。 低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (Thu, 4 Jan 2024 18:53:01 GMT)
- 2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
- 実験はPaLM-XXSの特化版+PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版(だったり個人スマホで個人向けに特化した版)+Gemini Ultraみたいな構成も想定しているんだろうか。
- Shai: A large language model for asset management [8.7]
「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
論文 参考訳(メタデータ) (Thu, 21 Dec 2023 05:08:57 GMT)
- 資産管理特化型LLMの提案、14Bと小型ながら金融ドメインであればGPT-3.5以上、一部タスクではGPT-4を超えている。ドメイン特化型LLMの可能性を感じる内容。安全性についても評価されているのが興味深い(そして、Shaiのスコアは高い)。
- また、「solely focusing on domain-specific training could result in catastrophic forgetting」「To mitigate this, we included a blend of generic content in our training data.」など参考になる。