AMIE: Articulate Medical Intelligence Explorer

  • Towards Conversational Diagnostic AI [32.8]
    本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 04:25:06 GMT)
  • LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
  • 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

  • TrustLLM: Trustworthiness in Large Language Models [446.2]
    本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 22:07:21 GMT)
  • LLMの信頼性に関する包括的なサーベイ
  • 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
  • プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

  • Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
    大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 09:29:56 GMT)
  • LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
  • 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

  • From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape [5.9]
    生成人工知能(AI)の現状と今後の動向について批判的考察 GoogleのGeminiや、予想されるOpenAI Q*プロジェクトといったイノベーションが、さまざまなドメインにわたる研究の優先順位とアプリケーションをどう変えているのかを調査した。 この研究は、倫理的および人間中心の手法をAI開発に取り入れることの重要性を強調し、社会規範と福祉の整合性を確保した。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 01:11:39 GMT)
  • 生成AIに関するサーベイで歴史を振り返るのに参考になる。刺激的な内容も含まれるがほんまかいなと思わなくもない。

SciGuardとSciMT-Safety

  • Control Risk for Potential Misuse of Artificial Intelligence in Science [85.9]
    我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。 化学科学における誤用の実例を取り上げる。 我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 18:50:57 GMT)
  • 科学におけるAI誤用の危険性を防ぐフレームワークを提案。化学分野での具体的検討して有毒物質の合成経路を出させるものを挙げている。
  • 上記を防ぐため規制ガイドラインデータベースなどを中に持つSciGuard フレームワークを提案。同時にベンチマークとしてSciMT-Safetyを提案。「The SciMT-Safety dataset comprises hundreds of refined red-teaming queries that span the fields of chemistry and biology.」とのこと。不公正・攻撃性の高い言動や違法行為に関するような社会的な誤用に対するベンチマークはよく見るが、科学分野におけるベンチマークは珍しい。
  • ベンチマークはGitHub – SciMT/SciMT-benchmarkで公開予定とのこと。

CyberSecEval

  • Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
    本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 22:07:54 GMT)
  • セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
  • 「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
  • リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem

  • LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
    本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:50:26 GMT)
  • LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。

Don’t Make Your LLM an Evaluation Benchmark Cheater

  • Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
    大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 14:59:54 GMT)
  • LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
  • 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

WIMBD: WHAT’S IN MY BIG DATA?

  • What’s In My Big Data? [67.0]
    大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:59:38 GMT)
  • 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
  • リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

The Generative AI Paradox: “What It Can Create, It May Not Understand”

  • The Generative AI Paradox: “What It Can Create, It May Not Understand” [81.9]
    生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。 同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。 一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 18:07:07 GMT)
  • 様々な軸での生成AIのテストと評価、「In particular, they imply that existing conceptualizations of intelligence, as derived from experience with humans, may not be applicable to artificial intelligence—although AI capabilities may resemble human intelligence, the capability landscape may diverge in fundamental ways from expected patterns based on humans.」という指摘が面白い。English benchmark for stress-testing machine ToM – arXiv最新論文の紹介 (devneko.jp)の時も思ったが知性って何だろう?と改めて不思議になる。

ELBERT: Equal Long-term BEnefit RaTe