コンテンツへスキップ
- MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 20 Dec 2021 18:23:30 GMT)- クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon
- Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。 すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 13:04:18 GMT)- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ(?)結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法(アプローチ)が異なるのは納得感がある。
- Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 17:05:11 GMT)
- MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。 マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 06:48:31 GMT)
- Few-shot Learning with Multilingual Language Models [66.5]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。 私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。 本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 16:52:35 GMT)
- KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 04:37:10 GMT)- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。
- All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 16 Dec 2021 21:54:26 GMT)- RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。
- Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.9]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。 単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (Fri, 17 Dec 2021 18:29:56 GMT)- 偽のホテルレビューか否かを判定するモデルに対し説明手法を適用、そのモデルを騙す(ラベルを変化させる)事に資するかをもって説明手法を評価する研究。BERTに対する説明ではLIMEなど局所説明は役に立たず、BERTを模倣するよう構築された線形モデル(学生モデル)が効果的だったとのこと。
- コード等は公開予定とのことだが、現状では404
- 3D Question Answering [22.2]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。 本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。 提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
論文 参考訳(メタデータ) (Wed, 15 Dec 2021 18:59:59 GMT)
- Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods [2.9]
Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。 その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。 これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
論文 参考訳(メタデータ) (Wed, 15 Dec 2021 09:21:32 GMT)- 分析過程や結果、結論には疑問も多いが、やっている事やVCのポートフォリオなどのデータが興味深かった。この手の分析は公開されていない事例が多数あるんだろうなと思う。