オープンなLLM(LLM-jp-13B)、Transparency Index、Llemma、Lemur

130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ – 国立情報学研究所 / National Institute of Informatics
でApache-2の日本語対応(おそらく日英対応)LLMが発表された。ツール類も含めてオープンであり素晴らしい取り組み

LLMを含むFoundationModelのTransparencyレポートが Stanford HAIから出ている。Introducing The Foundation Model Transparency Index (stanford.edu)。OSSのものが一番とは限らない意外な結果だが、各指標が同じ重さだというのに無理がありそう。。

今週も特化型を含めてLLMの発表が複数あった。

  • Llemma: An Open Language Model For Mathematics [48.3]
    数学のための大きな言語モデルであるLlemmaを紹介します。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。 レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:54:07 GMT)
  • Code Llamaを継続学習し、数学の能力を強化したLLM
  • リポジトリはGitHub – EleutherAI/math-lm

State of the Art on Diffusion Models for Visual Computing

  • State of the Art on Diffusion Models for Visual Computing [191.6]
    本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 05:32:29 GMT)
  • 急速に研究&社会実装が進む拡散モデルに関するサーベイ
  • 挙げられている文献の新しさがこの分野の流行を物語っているように思う

UniSim: Learning Interactive Real-World Simulators

  • Learning Interactive Real-World Simulators [113.5]
    生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。 UniSimは、高レベルの命令と低レベルの制御の両方の視覚的結果をシミュレートすることで、人間とエージェントが世界とどのように相互作用するかをエミュレートすることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Oct 2023 19:42:22 GMT)
  • 生成モデルを活用したエージェントをシミュレーション環境を通して学習していく話、強化学習で有力だった方針であり、エージェントの学習にも有望な方針に思える。
  • プロジェクトサイトはUniSim: Learning Interactive Real-World Simulators (universal-simulator.github.io)

RoleLLM、RoleBench

Towards Better Chain-of-Thought Prompting Strategies: A Survey

  • Towards Better Chain-of-Thought Prompting Strategies: A Survey [60.8]
    CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。 近年,CoTの促進効果が注目されている。 この調査は、関連する研究全般の参考になるかもしれない。
    論文  参考訳(メタデータ)   (Sun, 8 Oct 2023 01:16:55 GMT)
  • Chain of Thoughtのサーベイ、新たな分野でありサーベイできるほどの研究があるというのも若干驚き。Extension Strategiesが非常に参考になった。

In-Context Unlearning

  • In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
    In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。 これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 15:19:31 GMT)
  • In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問

LLMのUnlearning

  • Who’s Harry Potter? Approximate Unlearning in LLMs [4.8]
    大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。 これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。 本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:48:14 GMT)
  • LLMに対するunlearning手法の提案

HtT: Hypotheses-to-Theories

  • Large Language Models can Learn Rules [111.7]
    大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。 数値的推論問題と関係的推論問題の両方の実験は、HtTが既存のプロンプト法を改善することを示している。 学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 23:07:01 GMT)
  • LLMがルールを導出できるか調査した論文。ルール生成と検証を行うINDUCTION STAGE、ルールライブラリから適用するDEDUCTION STAGEを分けるアプローチで特にGPT-4について有望な結果でありCoTを上回る。
  • XAIにも有効なアプローチに見え興味深い。

Multilingual Jailbreak Challenges in Large Language Models

  • Multilingual Jailbreak Challenges in Large Language Models [96.7]
    本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。 リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。 安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 09:44:06 GMT)
  • 多言語でのJailbreakと防御法の提案、日本語が入っていないのが悲しい
  • 現実装では多言語プロンプトに対する防御は十分でないという結果に見える。(防御方法はこの論文でも提案されている。)
  • リポジトリはGitHub – DAMO-NLP-SG/multilingual-safety-for-LLMs: Data for “Multilingual Jailbreak Challenges in Large Language Models”

Mistral 7B