- PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.5]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。 提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。 我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (Wed, 21 Dec 2022 04:03:33 GMT) - entailment taskのデータセット、文内にもアノテーションがされていることが特徴できめ細かい、かつ、大規模
- リポジトリはGitHub – google-research-datasets/PropSegmEnt: PropSegmEnt is an annotated dataset for segmenting English text into propositions, and recognizing proposition-level entailment relations – whether a different, related document entails each proposition, contradicts it, or neither. It consists of clusters of closely related documents from the news and Wikipedia domains.