コンテンツへスキップ
- Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text [33.4]
GPT-4は、スクランブルされた文から元の文をほぼ完全に再構築することができる。 LLMが入力トークン化を著しく破壊しているにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 18:51:38 GMT)
- 人はタイプミスが含まれていても文書の意味が把握できるが、LLMだとどうかを検証した論文。GPT-4のリカバリーレートが凄すぎる面白い結果。暗号文読解能力があることが関連しているんやろか。
- リポジトリはGitHub – ccqq77/unnatural-error-correctionだがcoming soon
- Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.3]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 08:39:17 GMT)
- reference-freeなハルシネーション検出手法の提案、「The proposed method aims to imitate human factuality checking by considering three aspects: focus on informative keywords, focus on preceding words and focus on token properties.」という方法
- リポジトリはGitHub – zthang/Focus
- A Reevaluation of Event Extraction: Past, Present, and Future Challenges [136.7]
イベント抽出は近年、多くの応用の可能性から多くの注目を集めている。 最近の研究では、いくつかの評価課題が観察されており、報告されたスコアは真のパフォーマンスを反映していない可能性があることを示唆している。 イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTEXTEEを提案する。
論文 参考訳(メタデータ) (Thu, 16 Nov 2023 04:43:03 GMT)
- Event Extractionのサーベイとベンチマークの提案。以前の評価の問題点の一個目が「Unfair comparison」、「Due to the lack of a standardized evaluation framework, we observe that many approaches are inappropriately compared in the previous literature.」とかなり厳しめ。
- LLM関連として Llama-2-13B、GPT3.5-turboの結果も記載されているが、特化型モデルと比べて低いスコアとなっている。
- リポジトリはGitHub – ej0cl6/TextEE: A standardized, fair, and reproducible benchmark for evaluating event extraction approaches