MGTBench: Machine-Generated Textの検出ベンチマーク

  • MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
    大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Mar 2023 21:12:36 GMT)
  • 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
  • リポジトリはGitHub – xinleihe/MGTBench

Segment Anything

  • Segment Anything [108.2]
    私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。 このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。 多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
    論文  参考訳(メタデータ)   (Wed, 5 Apr 2023 17:59:46 GMT)
  • 強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
  • プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。