2022年8月1日 – arXiv最新論文の紹介

NewsStories

NewsStories: Illustrating articles with visual summaries [49.9]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (Tue, 26 Jul 2022 17:34:11 GMT)
- 記事と画像、ビデオの大規模データセット。ニュースを要約適切な画像を付与するというタスクを狙っているよう。
- リポジトリはGitHub – NewsStoriesData/newsstories.github.io

RealTime QA: What’s the Answer Right Now? [113.0]
本稿では,動的質問応答(QA)プラットフォームであるRealTime QAを紹介する。 GPT-3は、新しく検索された文書に基づいて、しばしばその生成結果を適切に更新することができる。検索した文書が回答を見つけるのに十分な情報を提供していない場合、GPT-3は時代遅れの回答を返す傾向にある。
論文参考訳（メタデータ） (Wed, 27 Jul 2022 07:26:01 GMT)
- QAを現実世界、実時間で評価していく取り組み。Question Answeringモデルの実運用が現実的なのか知る上でも非常に興味深い。
- プロジェクトサイトはHome | RealTime QA

MLRIP: Pre-training a military language representation model with informative factual knowledge and professional knowledge base [11.0]
現在の事前学習手順は、通常、知識マスキング、知識融合、知識置換を用いて、外部知識をモデルに注入する。本研究では,ERNIE-Baidu が提案する知識マスキング戦略を改良した MLRIP を提案する。包括的な分析による大規模な実験は、軍事知識駆動NLPタスクにおけるBERTモデルよりもMLRIPの方が優れていることを示している。
論文参考訳（メタデータ） (Thu, 28 Jul 2022 07:39:30 GMT)
- 軍事のように通常のテキストとは大きく異なるドメイン向けの事前学習モデルの提案。軍事関連の外部知識を取り入れるためにマスキング戦略を修正している。
- ドメイン特化により（当然だが）性能が向上するとのこと。