コンテンツへスキップ
- Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8]
我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。 また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
論文 参考訳(メタデータ) (Sat, 15 Jan 2022 16:11:55 GMT)
- Omnivore: A Single Model for Many Visual Modalities [47.9]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文 参考訳(メタデータ) (Thu, 20 Jan 2022 18:58:03 GMT)- 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。
- LaMDA: Language Models for Dialog Applications [75.8]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。 注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (Thu, 20 Jan 2022 15:44:37 GMT)- 137Bパラメータ、1.56T wordsで事前学習された対話用事前学習モデル。計算時間は1024 TPU-v3 で57.7日間とのことで計算も非常に規模が大きい。バイアスの除去など安全性にも気を使っているとのこと。
- 外部知識ソースにアクセス可能な事や論文で出ている事例も興味深い。対話インタフェースもE2Eでできるようになっていくのだろうか。
- WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.0]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。 我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。 結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (Sun, 16 Jan 2022 03:13:49 GMT)- クラウドワーカーとAIとのコラボレーションによる高品質データの構築。自由形式で例を書くことをクラウドワーカに求めるよりも、GPT-3などで作成されたコンテンツの修正を求める方がより効果的であることを示唆しているとのこと。
- 賛否両論あるポストエディットの話に似ているように感じた。
- Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale [40.4]
Hyper-Tuneは、効率的で堅牢な分散ハイパーパラメータチューニングフレームワークである。 最先端のBOHBとA-BOHBを比較し、それぞれ11.2倍と5.1倍のスピードアップを達成している。
論文 参考訳(メタデータ) (Tue, 18 Jan 2022 09:12:32 GMT)
- MT-GBM: A Multi-Task Gradient Boosting Machine with Shared Decision Trees [15.6]
マルチタスク学習のためのGBDT方式であるマルチタスク・グラディエント・ブースティング・マシン(MT-GBM)を提案する。 MT-GBMがメインタスクの性能を大幅に向上することを示す実験を行った。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 17 Jan 2022 06:43:14 GMT)
- Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。 事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。 ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。 本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
論文 参考訳(メタデータ) (Tue, 11 Jan 2022 23:03:57 GMT)
- Fighting Money Laundering with Statistics and Machine Learning: An Introduction and Review [95.4]
マネーロンダリングは深刻なグローバルな問題です。 このトピックに関する統計学と機械学習の研究はほとんどない。 大きな課題の1つは、公開データセットの欠如である。
論文 参考訳(メタデータ) (Thu, 13 Jan 2022 13:54:31 GMT)- AI利用のアンチマネーロンダリングのサーベイ。想像がつくことではあるが公開されているデータがほぼないことが大きな課題。これに加えて不均衡データであることも課題として挙げられている。
- 様々な取り組みを振り返るには良い内容。
- A Survey of Pretrained Language Models Based Text Generation [97.6]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。 ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 01:44:58 GMT)