CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

  • CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.0]
    言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。 LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。 リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
    論文  参考訳(メタデータ)   (Tue, 09 Jul 2024 17:58:18 GMT)
  • (シンプルな)Literal copyingだけでなくパラフェージングなどを通して行われるNon-literal copyingも対象にしたベンチマークの提案と検証。リテラルコピーが大規模モデルで問題になるのは直観的に明らかとして「In proprietary models, the transition from GPT-3.5 to GPT-4 interestingly reduces literal copying but increases non-literal copying.」や「we find that current inference-time mitigation methods, although effective at reducing literal copying, are insufficient for addressing nonliteral copying.」という記載は興味深い。
  • リポジトリはGitHub – chentong0/copy-bench: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods 

  • Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
    テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
    論文  参考訳(メタデータ)   (Fri, 21 Jun 2024 18:31:49 GMT)
  • テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
  • 必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。

A Survey on Safe Multi-Modal Learning System

  • A Survey on Safe Multi-Modal Learning System [10.9]
    マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力で注目を集めている。 安全に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 05:42:43 GMT)
  • マルチモーダルなシステムに対する安全性のサーベイ
  • この手の対策が必要になってきたことに進化を感じる

Multilingual Trolley Problems for Language Models

  • Multilingual Trolley Problems for Language Models [138.1]
    この研究は、「道徳機械実験」という人間の道徳的嗜好に関する大規模横断的な研究から着想を得たものである。 大規模な言語モデル(LLM)は、英語、韓国語、ハンガリー語、中国語などの言語では人間の好みと一致しているが、ヒンディー語やソマリ語(アフリカ)のような言語では一致していないことを示す。 また, LLMが道徳的選択に与える説明を特徴付けるとともに, GPT-3によるGPT-4の決定と実用主義の裏側において, 公平性が最も有力であることを示す。
    論文  参考訳(メタデータ)   (Tue, 02 Jul 2024 14:02:53 GMT)
  • トロッコ問題のような道徳的なジレンマを含む問題を多数の言語に翻訳し、LLMの回答と人間の回答を比較した論文。「We discover that LLMs are more aligned with human preferences in languages such as English, Korean, Hungarian, and Chinese, but less aligned in languages such as Hindi and Somali (in Africa).」とのことで言語間の差異は気になるところ。また、「Moreover, we characterize the explanations LLMs give for their moral choices and find that fairness is the most dominant supporting reason behind GPT-4’s decisions and utilitarianism by GPT-3.」は面白い結果。LLMの規模によるものか、アライメントの方針が変わったのか、興味がある。
  • リポジトリはGitHub – causalNLP/moralmachine

“You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations

  • “You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
    我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 03:11:43 GMT)
  • LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
  • 日本語で実行した場合どのようになるか興味がある。

Evaluating Copyright Takedown Methods for Language Models

  • Evaluating Copyright Takedown Methods for Language Models [100.4]
    言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 18:09:46 GMT)
  • 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
  • リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art 

  • Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
    文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。 文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 10:16:43 GMT)
  • NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
  • (長く研究されてきた分野ではあるが)最近特に注目が集まっている分野だと思う。

Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey 

  • Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey [9.1]
    予測保守(PdM)は産業4.0の柱の一つとして登場した。 この調査は、鉄鋼業界におけるAIベースのPdM分野における知識の現状を総合するものである。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:32:46 GMT)
  • 鉄鋼業界&予測保守におけるAI活用のサーベイ。
  • 業界・タスク特化であるが35ページと長く伝統的な手法を含めていろいろなアプローチがされているのだなと興味深かった。 PdMだとProduct Managerを思い浮かべるかもしれないが、ここではPredictive Maintenance。

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

  • Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
    本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
    論文  参考訳(メタデータ)   (Mon, 20 May 2024 07:34:48 GMT)
  • 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
  • リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence