コンテンツへスキップ
- SummerTime: Text Summarization Toolkit for Non-experts [23.0]
SummerTimeは、さまざまなモデル、データセット、評価メトリクスを含む、テキスト要約のための完全なツールキットである。 SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 29 Aug 2021 03:24:48 GMT)- モデル、データセット、評価方法が入ったツールキット。Multi documentやQuery basedなものまでまとめて入るのは素晴らしいと思う。
- モデル:
- Single-doc: BartModel, LexRankModel, LongformerModel, PegasusModel, TextRankModel
- Multi-doc: MultiDocJointModel, MultiDocSeparateModel
- Dialogue-based: HMNetModel
- Query-based:BM25SummModel, TFIDFSummModel
- データセット: ArXiv, CNN/DM(3.0.0), MlsumDataset, Multi-News, SAMSum, Pubmedqa, QMSum, ScisummNet, SummScreen, XSum
- 評価方法: BERT Score, BLEU, ROUGE
- Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
論文 参考訳(メタデータ) (Mon, 30 Aug 2021 12:29:25 GMT)- 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
- GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。
- N15News: A New Dataset for Multimodal News Classification [7.8]
我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (Mon, 30 Aug 2021 15:46:09 GMT) - マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
- データはPDFからGoogle driveで共有されている。