社会実装 – arXiv最新論文の紹介

Introducing v0.5 of the AI Safety Benchmark from MLCommons

Introducing v0.5 of the AI Safety Benchmark from MLCommons [94.1]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文参考訳（メタデータ） (Thu, 18 Apr 2024 15:01:00 GMT)
AI Safety Benchmark の紹介、対象はチャット。分類など参考になる部分も多い。
リポジトリはmlcommons/modelbench: Run safety benchmarks against AI models and view detailed reports showing how well they performed. (github.com)

Mapping the Increasing Use of LLMs in Scientific Papers

Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
論文参考訳（メタデータ） (Mon, 01 Apr 2024 17:45:15 GMT)
LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。

Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models

Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [60.2]
赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
論文参考訳（メタデータ） (Sun, 31 Mar 2024 09:50:39 GMT)
社会実装において重要なRed Teamingに関するサーベイ。「Figure 2: An overview of GenAI red teaming flow.」から始まる構成がわかりやすい。CC-BYなのもうれしいところ。

Many-shot jailbreaking \ Anthropic
我々は、有用で無害で正直なAIアシスタントをターゲットにした多発ジェイルブレーキング(MSJ)を研究した。MSJは数発のジェイルブレークの概念を拡張し、攻撃者はモデルが通常答えることを拒否する一連のクエリを含む架空の対話でモデルをプロンプトする。
「We found that the effectiveness of attacks, and of in-context learning more generally, could be characterized by simple power laws.」というとてもシンプルな攻撃が有効であったりもして攻撃戦略も日々進化している状況で安全性を確保していくのはとても大変。

Video as the New Language for Real-World Decision Making

Video as the New Language for Real-World Decision Making [100.7]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文参考訳（メタデータ） (Tue, 27 Feb 2024 02:05:29 GMT)
ビデオの合成を通して現実世界のタスクを解けるのでは？という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。

AMIE: Articulate Medical Intelligence Explorer

Towards Conversational Diagnostic AI [32.8]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 04:25:06 GMT)
LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

TrustLLM: Trustworthiness in Large Language Models [446.2]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文参考訳（メタデータ） (Wed, 10 Jan 2024 22:07:21 GMT)
LLMの信頼性に関する包括的なサーベイ
「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 09:29:56 GMT)
LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の４つを対象としている。
非常によくまとまっているのとライセンスがCC-BYというのがありがたい。

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape [5.9]
生成人工知能(AI)の現状と今後の動向について批判的考察 GoogleのGeminiや、予想されるOpenAI Q*プロジェクトといったイノベーションが、さまざまなドメインにわたる研究の優先順位とアプリケーションをどう変えているのかを調査した。この研究は、倫理的および人間中心の手法をAI開発に取り入れることの重要性を強調し、社会規範と福祉の整合性を確保した。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 01:11:39 GMT)
生成AIに関するサーベイで歴史を振り返るのに参考になる。刺激的な内容も含まれるがほんまかいなと思わなくもない。

SciGuardとSciMT-Safety

Control Risk for Potential Misuse of Artificial Intelligence in Science [85.9]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。化学科学における誤用の実例を取り上げる。我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 18:50:57 GMT)
科学におけるAI誤用の危険性を防ぐフレームワークを提案。化学分野での具体的検討して有毒物質の合成経路を出させるものを挙げている。
上記を防ぐため規制ガイドラインデータベースなどを中に持つSciGuard フレームワークを提案。同時にベンチマークとしてSciMT-Safetyを提案。「The SciMT-Safety dataset comprises hundreds of refined red-teaming queries that span the fields of chemistry and biology.」とのこと。不公正・攻撃性の高い言動や違法行為に関するような社会的な誤用に対するベンチマークはよく見るが、科学分野におけるベンチマークは珍しい。
ベンチマークはGitHub – SciMT/SciMT-benchmarkで公開予定とのこと。

CyberSecEval

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 22:07:54 GMT)
セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 18:50:26 GMT)
LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30