コンテンツへスキップ
- Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 15:24:16 GMT)
- 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
- mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…
- PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
論文 参考訳(メタデータ) (Sat, 19 Nov 2022 18:31:34 GMT)
- セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
- リポジトリはlutao2021/PIDray (github.com)
- Execution-based Evaluation for Data Science Code Generation Models [98.0]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。 表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 07:04:11 GMT)
- データサイエンスの問題を解くためのコード生成ベンチマークの提案。より実用的なタスク(&評価)で面白い。
- 生成されたコードの近さとアウトプットの近さには距離があるのは直感通りとして、Codeexがコード的には遠いがアウトプットではまずまずの結果を出している点が興味深い。意味まで理解しているっぽい動き。
- https://github.com/Jun-jie-Huang/ExeDSがリポジトリとのことだが、現時点では404
- DiaASQ: A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis [84.8]
そこで本稿では,対話におけるターゲット・アスペクト・オピニオン・センタティメントの感情四重項を検出するために,対話的側面に基づく感情四重項分析,すなわちDiaASQを導入する。 大規模で高品質な中国語データセットを手動で構築し、手動翻訳による英語版データセットも取得する。 エンドツーエンドの四重項予測を効果的に実行し、より優れた発話四重項抽出のために、リッチな対話特化特徴表現と談話特徴表現を組み込むことに成功している。
論文 参考訳(メタデータ) (Thu, 10 Nov 2022 17:18:20 GMT)
- 対話の「target-aspect-opinion-sentiment」を判別するためのデータセット。規模は1000対話、7452発話。中国語のデータで構築されたうえで、手動で英語に翻訳されたデータが存在するとのことで様々な問題設定で使用できそう。
- プロジェクトサイトはhttps://github.com/unikcc/DiaASQとのことだが、現時点では404
- AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.7]
既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。 我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。 分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
論文 参考訳(メタデータ) (Thu, 10 Nov 2022 17:26:21 GMT)
- FormLM: Recommending Creation Ideas for Online Forms by Modelling Semantic and Structural Information [33.7]
オンラインフォームをモデル化し、フォーム作成のアイデアを推奨するためにFormLMを提示します。 モデルトレーニングと評価のために、62Kのオンラインフォームを持つ最初の公開オンラインフォームデータセットを収集する。 実験の結果,FormLMはすべてのタスクにおいて汎用言語モデルよりも優れていた。
論文 参考訳(メタデータ) (Thu, 10 Nov 2022 01:32:55 GMT)
- オンラインアンケートなどのフォーム生成を支援するためのモデルの提案、データセットから構築している。「Form Creation Ideasは過去には体系的に研究されていない」というのはその通りだと思う…実用的なタスクとPLMを用いた問題解決の方針が参考になる。
- プロジェクトサイトはhttps://github.com/microsoft/FormLMとのことだが、現時点では404。