HtT: Hypotheses-to-Theories

  • Large Language Models can Learn Rules [111.7]
    大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。 数値的推論問題と関係的推論問題の両方の実験は、HtTが既存のプロンプト法を改善することを示している。 学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 23:07:01 GMT)
  • LLMがルールを導出できるか調査した論文。ルール生成と検証を行うINDUCTION STAGE、ルールライブラリから適用するDEDUCTION STAGEを分けるアプローチで特にGPT-4について有望な結果でありCoTを上回る。
  • XAIにも有効なアプローチに見え興味深い。

Multilingual Jailbreak Challenges in Large Language Models

  • Multilingual Jailbreak Challenges in Large Language Models [96.7]
    本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。 リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。 安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 09:44:06 GMT)
  • 多言語でのJailbreakと防御法の提案、日本語が入っていないのが悲しい
  • 現実装では多言語プロンプトに対する防御は十分でないという結果に見える。(防御方法はこの論文でも提案されている。)
  • リポジトリはGitHub – DAMO-NLP-SG/multilingual-safety-for-LLMs: Data for “Multilingual Jailbreak Challenges in Large Language Models”