SCALE: Specialized Translation Models (STMs) + general-purpose Large Language Models (LLMs)

  • SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.9]
    本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。 実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 08:46:38 GMT)
  • 特化型の翻訳モデルと汎用的なLLMを併用する機械翻訳
  • STMからの翻訳草案をLLMでrefineするイメージ(?)、低リソースな言語に対して特に有効とのこと。

GPT-4V, LLaVA-1.5

    GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

    • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
      大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
      論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:34:51 GMT)
    • GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

    Analogical Prompting

    • Large Language Models as Analogical Reasoners [156.0]
      アナロジカル・プロンプティング(Analogical Prompting)は、大規模言語モデルの推論プロセスを自動的にガイドするように設計されている。 類推的推論にインスパイアされた我々のアプローチは、文脈における関連する経験や知識を自己生成するよう言語モデルに促す。 実験の結果,本手法は様々な推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。
      論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 00:57:26 GMT)
    • 過去の経験を思い出すようにPromptを構成、高い性能を達成とのこと。5 shot CoTを超えているのに驚き。LLM内の知識はどんな量なんだろう。
    • 「Generating relevant and diverse exemplars is important」、「 Single-pass vs. independent exemplar generation: An alternative approach is to independently generate exemplars by separately sampling them from the LLM and then re-prompt the LLM with all the exemplars.」に対し、「single-pass prompt approach achieves comparable performance」、「Through experimentation, we have found that generating K = 3 to 5 exemplars works the best」などFindingsも興味深い。

    KICT: Knowledgeable InContext Tuning framework

    • Boosting In-Context Learning with Factual Knowledge [39.9]
      In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。 本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
      論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 09:06:39 GMT)
    • ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
    • In context learningは強力であるので、このような研究の方向性も有望だと思う。

    GPT-Fathom, NLPBench

    • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
      大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
      論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
    • NLPコースの試験から作られたデータセット
    • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
    • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

    AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

    • Calibrating LLM-Based Evaluator [92.2]
      マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
      論文  参考訳(メタデータ)   (Sat, 23 Sep 2023 08:46:11 GMT)
    • LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
    • LLMを人っぽく使っている点が非常に興味深い。

    LLaVA-RLHF

    • Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
      大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
      論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 20:59:33 GMT)
    • マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
    • リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。

    Qwen Technical Report,  PLaMo-13B

    • Qwen Technical Report [132.5]
      当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。 また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
      論文  参考訳(メタデータ)   (Thu, 28 Sep 2023 17:07:49 GMT)
    • Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
    • HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。

    PFNからも日英対応LLMが出ている。日英2言語対応の大規模言語モデルPLaMo-13Bを研究・商用利用可能なオープンソースソフトウェアライセンスで公開 – 株式会社Preferred Networks、HuggingFaceはpfnet/plamo-13b · Hugging Face。Apache License v2.0で非常に使いやすそう。

    MindAgent

    • MindAgent: Emergent Gaming Interaction [103.7]
      大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。 我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
      論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 17:52:22 GMT)
    • CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
    • プロジェクトサイトはMindAgent

    SlimPajama-DC: Understanding Data Combinations for LLM Training

    • SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
      本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
      論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 17:59:54 GMT)
    • LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)
    • データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face