Trustworthy LLMs

  • Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment [15.7]
    本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。 この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。 結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 06:43:44 GMT)
  • LLMの社会実装に関する包括的なサーベイ。reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, robustnessが対象で大規模。

Jailbroken: How Does LLM Safety Training Fail?

  • Jailbroken: How Does LLM Safety Training Fail? [92.9]
    ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。 このような攻撃がなぜ成功し、どのように発生できるかを考察する。 障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:58:10 GMT)
  • LLM(のAPIなどのサービス)に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。

A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India

  • A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India [19.5]
    本稿では,米国,英国,インドにおける医療機関のプライバシポリシを監査するための大規模データ駆動型研究を提案する。 まず、これらの国の何千もの医療機関のプライバシポリシを収集し、クラスタリングベースの混合メソッド技術を使用して、このプライバシポリシデータをクリーン化した。 第2に、各国の正確なデータプラクティスを明らかにし、重要な違いに気づくために、要約ベースの手法を採用しました。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 14:21:37 GMT)
  • 医療機関のプライバシーポリシーの分析に自然言語処理を使った研究
  • この手の分析にはfew-shotで高速な試行が可能なLLMが向いていそうな気がする(本研究では用いられていない)

You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks

  • You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks [31.1]
    機械学習モデルを不規則な予測に変換する能力は驚くべきものだ。 現行の緩和には高いコストが伴い、同時にモデルの精度が低下する。 これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するか、という視点で行われます。
    論文  参考訳(メタデータ)   (Fri, 16 Jun 2023 16:32:27 GMT)
  • 衝撃的なタイトルだが、「Our work elucidates that not all situations require robust machine learning to defend against adversarial attacks, and that a larger risk assessment should be performed.」「In real-life deployments, the cost of adding robustness may exceed its benefits.」とのことで結論は納得のいくものとなっている。不必要に頑張る必要はない。

GPT-4とGPT-3.5の信頼性

  • DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
    本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 17:24:23 GMT)
  • GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は(jailbreakingされた場合も)より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
  • プロジェクトサイトはDecodingTrust Benchmark

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon

  • 14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon [31.1]
    我々は化学、材料科学などにおける大規模言語モデル(LLM)の適用についてハッカソンを開催した。 この記事ではハッカソンの一部として構築されたプロジェクトを概説する。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
    論文  参考訳(メタデータ)   (Tue, 13 Jun 2023 07:44:32 GMT)
  • 化学分野におけるLLM利用ハッカソンの報告、いろいろなアイデアがあって興味深いのとデモがあるのが凄い。「The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields.」との記載が印象的。

Multi-lingual and Multi-cultural Figurative Language Understanding

  • Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
    図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。 我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。 全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 15:30:31 GMT)
  • 多言語(多文化)な比喩表現(figurative language)のデータセット。
  • 面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
  • GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications

  • A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications [62.6]
    本研究の目的は,mHealthアプリのユーザ受け入れに影響を与える要因を検討することである。 利用者のデジタルリテラシーは、個人情報を共有するオンライン習慣に続き、使用意欲に最も強い影響を与える。 居住国、年齢、民族、教育などの利用者の人口統計学的背景は、顕著な緩和効果がある。
    論文  参考訳(メタデータ)   (Wed, 10 May 2023 08:11:21 GMT)
  • モバイルヘルスアプリケーションを受け入れるか否かについて、どのような因子が重要か調べた論文。複数の国が対象だが、残念ながら日本は入っていない。
  • 「our study reveals that users’ privacy concern had only a moderate impact, which was outweighed by users’ digital literacy.」というのはやや意外な結果。日本だと話は別だったりするのだろうか。

バイアス修正

同日に公平性関連の論文が出ており非常に参考になった。社会実装上とても大事。

  • FairBalance: How to Achieve Equalized Odds With Data Pre-processing [33.0]
    本研究は、機械学習ソフトウェアにおける等化オッズフェアネスを達成するための、単純で効果的な前処理アプローチを提供することにより、ソフトウェア工学社会の利益を目指している。 学習データに計算重みを割り当てることで,各階層群のクラス分布のバランスをとる前処理アルゴリズムであるFairBalanceを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 13:48:17 GMT)
  • Equalized Oddsを達成するための前処理手法の提案
  • 性能を完全に維持できているわけではないが優秀そうな方法
  • リポジトリはGitHub – hil-se/FairBalance

AIOpsのサーベイ

  • AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges [60.6]
    IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。 我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。 主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
    論文  参考訳(メタデータ)   (Mon, 10 Apr 2023 15:38:12 GMT)
  • AIOpsのサーベイ、AIOpsの定義は「AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination」とのこと。
  • 監視部分には(マルチモーダルな)LLMが入ったりしていくんだろうなと思わなくもない。