コンテンツへスキップ
- WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.0]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。 我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。 結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (Sun, 16 Jan 2022 03:13:49 GMT)- クラウドワーカーとAIとのコラボレーションによる高品質データの構築。自由形式で例を書くことをクラウドワーカに求めるよりも、GPT-3などで作成されたコンテンツの修正を求める方がより効果的であることを示唆しているとのこと。
- 賛否両論あるポストエディットの話に似ているように感じた。
- Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale [40.4]
Hyper-Tuneは、効率的で堅牢な分散ハイパーパラメータチューニングフレームワークである。 最先端のBOHBとA-BOHBを比較し、それぞれ11.2倍と5.1倍のスピードアップを達成している。
論文 参考訳(メタデータ) (Tue, 18 Jan 2022 09:12:32 GMT)
- MT-GBM: A Multi-Task Gradient Boosting Machine with Shared Decision Trees [15.6]
マルチタスク学習のためのGBDT方式であるマルチタスク・グラディエント・ブースティング・マシン(MT-GBM)を提案する。 MT-GBMがメインタスクの性能を大幅に向上することを示す実験を行った。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 17 Jan 2022 06:43:14 GMT)
- Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。 事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。 ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。 本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
論文 参考訳(メタデータ) (Tue, 11 Jan 2022 23:03:57 GMT)
- Fighting Money Laundering with Statistics and Machine Learning: An Introduction and Review [95.4]
マネーロンダリングは深刻なグローバルな問題です。 このトピックに関する統計学と機械学習の研究はほとんどない。 大きな課題の1つは、公開データセットの欠如である。
論文 参考訳(メタデータ) (Thu, 13 Jan 2022 13:54:31 GMT)- AI利用のアンチマネーロンダリングのサーベイ。想像がつくことではあるが公開されているデータがほぼないことが大きな課題。これに加えて不均衡データであることも課題として挙げられている。
- 様々な取り組みを振り返るには良い内容。
- A Survey of Pretrained Language Models Based Text Generation [97.6]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。 ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 01:44:58 GMT)
- Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer Explanation [22.2]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。 我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。 本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 13 Jan 2022 17:18:17 GMT)- 下記5つのモジュールを用いたGrow-and-Clip Evidence Distillationアルゴリズムによる証拠の提案、人による検証結果も良好とのこと。構文解析を含むがっつりとしたパイプライン構成でE2Eでできるのはまだ先なのかなという感想。
- Answer-oriented Sentences Extractor: 回答を得るための最小の文セットを選択
- Question-relevant Words Selector: 上記分から質問と強く関連する単語を抽出
- Weighted Syntactic Parsing Tree Constructor: 上記文の構文ツリーを作成
- Evidence Forest Constructor: 質問に関連する単語、ツリー構造を用いてエビデンスとなりうる複数のツリーと回答となるツリーを構成
- Optimal Evidence Distiller: エビデンスツリーの選択
- CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 06:49:15 GMT)
- Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning [48.2]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。 私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。 この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (Thu, 13 Jan 2022 18:09:08 GMT)- 多言語機械翻訳モデルの実現に向けた様々な実験結果が参考になる。モデルが対応する言語数の増減、linguistic similarityを考慮した増減、パラ / モノリンガルデータ数が与える影響、ドメイン相違の影響、pretraining / finetuning / co-training / iterative back translationなど学習方法の影響など様々な観点があり興味深い。