- Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (Mon, 25 Sep 2023 20:59:33 GMT) - マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
- リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。
タグ: LLM
Qwen Technical Report, PLaMo-13B
- Qwen Technical Report [132.5]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。 また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (Thu, 28 Sep 2023 17:07:49 GMT) - Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
- HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。
PFNからも日英対応LLMが出ている。日英2言語対応の大規模言語モデルPLaMo-13Bを研究・商用利用可能なオープンソースソフトウェアライセンスで公開 – 株式会社Preferred Networks、HuggingFaceはpfnet/plamo-13b · Hugging Face。Apache License v2.0で非常に使いやすそう。
MindAgent
- MindAgent: Emergent Gaming Interaction [103.7]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。 我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (Mon, 18 Sep 2023 17:52:22 GMT) - CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
- プロジェクトサイトはMindAgent
SlimPajama-DC: Understanding Data Combinations for LLM Training
- SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 17:59:54 GMT) - LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)
- データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face
ACEGPT: アラビア語のLLM
- AceGPT, Localizing Large Language Models in Arabic [75.6]
本稿では,アラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。 本論文は、アラビア語テキストによる事前学習、ネイティブアラビア語命令を用いた教師付き微調整(SFT)、アラビア語でのGPT-4応答、AIフィードバックによる強化学習(RLAIF)を含むパッケージ化されたソリューションの概要を述べる。 目的は、文化的に認識され、価値に整合したアラビア語のLLMを訓練することであり、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに役立てることである。
論文 参考訳(メタデータ) (Thu, 21 Sep 2023 13:20:13 GMT) - アラビア語に対応したLLMを作る取り組み。英語以外のLLM構築とみてもとても参考になる。評価用データ重要だなあという印象。
- リポジトリはGitHub – FreedomIntelligence/AceGPT
MINT: Multi-turn INTeraction ベンチマーク
- MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 15:25:42 GMT) - マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。(フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる)
ALMA: Advanced Language Model-based trAnslator
- A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models [27.8]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。 提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。 LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 22:53:15 GMT) - Llama-2をベースとした機械翻訳手法の提案、Monolingual Data Fine-tuning( add English monolingual data during fine-tuning to prevent English knowledge forget) → High-Quality Data Fine-tuningという流れとのこと。
- リポジトリはGitHub – fe1ixxu/ALMA: This is repository for ALMA translation models.
PDFTriage
- PDFTriage: Question Answering over Long, Structured Documents [64.6]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。 本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。 本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
論文 参考訳(メタデータ) (Sat, 16 Sep 2023 04:29:05 GMT) - 構造化文書へについて分析し、PDFTriage(Generate document metadata → LLM-based triage → Answer using retrieved content)を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
- 「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。
Document Understanding関連でもLLMの活用が進む
- LMDX: Language Model-based Document Information Extraction and Localization [15.7]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした 本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 22:32:56 GMT) - LLMを用いた文書からの情報抽出(OCRが起点)、LayoutLMv3を超えているのが凄い。
CoVe: Chain-of-Verification
- Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。 モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。 ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 17:50:55 GMT) - 初期回答を作成→検証計画(検証用の質問)を作成→検証(回答・合意確認)→最終回答とすることでHallucinationを防ぐ取り組み
- 近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。
OpenBA
- OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch [41.5]
OpenBAは、オープンソースの15Bバイリンガルな非対称seq2seqモデルである。 OpenBAを効果的かつ効率的な技術で強化し、3段階のトレーニング戦略を採用します。 私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 15:46:40 GMT) - 非対称encoder-decoderアーキテクチャのLLM、薄いとはいえencoder部分を持つのは珍しい気がする。サイズに比べて性能が高い。
- リポジトリはGitHub – OpenNLG/OpenBA: OpenBA: An Open-Sourced 15B Bilingual Asymmetric Seq2Seq Model Pre-trained from Scratch、HuggingFaceサイトはOpenBA (OpenBA) (huggingface.co)