BigSurvey: 学術論文の大規模データセット

  • Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
    本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。 我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。 数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 11:42:07 GMT)
  • 7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
  • リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

Weakly Supervised Anomaly Detection: A Survey 

  • Weakly Supervised Anomaly Detection: A Survey [75.3]
    異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。 弱教師付き異常検出法(WSAD)の総合的な調査を行った。 各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 10:27:21 GMT)
  • 弱教師有り設定の異常検知(WSAD: Weakly Supervised Anomaly Detection)に関するサーベイ
  • 異常検知はアノテーションが難しいことが多く、通常の教師有り学習をしにくいことが多い。かといって単純に教師無し学習を適用すると精度的な問題を抱える事も多い。直接的ではないが何らかの情報を与える弱教師ありのようなアプローチは非常に有望だと思う。