SciGLM

  • SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning [60.1]
    LLM(Large Language Models)は、科学的な発見を支援することを約束している。 我々はSciGLMを紹介した。SciGLMは大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。 より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、そして自己表現フレームワークと微調整コードをリリースします。
    論文  参考訳(メタデータ)   (Mon, 15 Jan 2024 20:22:21 GMT)
  • LLMの科学分野の能力を向上するデータ作成フレームワークを提案、モデルを構築し高い性能を達成。C-Eval Hardなど中国語のタスクにおいてはGPT-4をこえているように見える。CoT、self-reflective frameworkなど様々なテクニックを使ってデータを作るアプローチ。
  • リポジトリはTHUDM/SciGLM: SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning (github.com)

Question Translation Training for Better Multilingual Reasoning

  • Question Translation Training for Better Multilingual Reasoning [113.5]
    大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
    論文  参考訳(メタデータ)   (Mon, 15 Jan 2024 16:39:10 GMT)
  • 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
  • リポジトリはNJUNLP/QAlign (github.com)

Tuning Language Models by Proxy 

  • Tuning Language Models by Proxy [117.1]
    プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。 我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
    論文  参考訳(メタデータ)   (Tue, 16 Jan 2024 18:49:55 GMT)
  • (チューニングした)小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
  • 「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。

Self-Rewarding Language Models

Mixtral of Experts 

  • Mixtral of Experts [57.4]
    Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 18:47:34 GMT)
  • 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
  • Mixtral of experts | Mistral AI | Open-weight models

DIALIGHT

  • DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
    DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。 ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。 評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 11:27:48 GMT)
  • 多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
  • リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound

Understanding LLMs: A Comprehensive Overview from Training to Inference

  • Understanding LLMs: A Comprehensive Overview from Training to Inference [52.7]
    大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。 トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。 推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 02:43:57 GMT)
  • LLMの作り方を一歩踏み込んで知りたいときによい資料。

AMIE: Articulate Medical Intelligence Explorer

  • Towards Conversational Diagnostic AI [32.8]
    本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 04:25:06 GMT)
  • LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
  • 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

Language Models Understand Numbers, at Least Partially

  • Language Models Understand Numbers, at Least Partially [32.5]
    数学的問題における基本要素となる数について,言語モデルが理解しているかどうかを考察する。 本研究では,付加問題を含む合成データセットを構築し,線形プローブを用いてモデルの隠れ状態から入力番号を読み取る。 予備研究は、言語モデルが数の部分的理解を示すことを示唆している。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 08:54:22 GMT)
  • LLMが数値を理解しているか?の分析。利用している立場だと怪しいと思っていたが、「Experimental results prove that LLMs do have a rough estimation of input numbers in their hidden states, but the compression process may not be lossless.」と完全ではないが肯定的な結果のよう。「LLMs exhibit the ability to utilize compressed numbers to perform arithmetic calculations, and the ability to perform calculations is explicitly related to the scale of models.」というのもとても興味深い。

TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

  • TrustLLM: Trustworthiness in Large Language Models [446.2]
    本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 22:07:21 GMT)
  • LLMの信頼性に関する包括的なサーベイ
  • 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
  • プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

  • Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
    大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 09:29:56 GMT)
  • LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
  • 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。