AI-generated Text Detection – arXiv最新論文の紹介

LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.4]
我々は、細粒度MGT検出用に設計されたシステムであるtextbfLLM-DetectAIveを提示する。テキストは、人書き、機械生成、機械化、人書きの機械ポリッシュの4つのカテゴリに分類することができる。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 07:43:17 GMT)
機械が生成したテキストを検出するシステムの提案。
デモがMGT – a Hugging Face Space by raj-tomar001にある。残念ながら日本語には対応していなさそう。というのと、この論文のAbstractがMachine Generaterdと判定されたのだが。。。（というのとConclusionは入れる文の数によって判定が変わり、長さに対するロバストさもなさそう…）

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 18:11:32 GMT)
AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の（たいして読まれない）EULAで逃げないでほしい。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31