コンテンツへスキップ
- ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.4]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。 自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。 我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 16:54:59 GMT)- SuperGLUE で1位となったERNIE3.0の報告。4TBコーパス、100億パラメータのモデルとのこと。SuperGLUEのトップは素晴らしい性能。
- 自然言語処理関連ではアメリカと中国で激しい競争となっていて、それを象徴する成果のように思う。
- DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling [102.5]
ラップ生成におけるこれまでの研究は、韻律的な歌詞に重点を置いていたが、ラップ演奏に重要なリズムビートを無視していた。 本稿では,韻とリズムの両方をモデル化可能なトランスフォーマーベースのラップ生成システムであるDeepRapperを開発する。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 09:01:46 GMT)- Deep Learningでラップ生成、DeepRapperという面白い報告。
- 単純な歌詞生成ではなく rhyme and rhythm(韻とリズム)を考慮した生成が可能とのこと。
- Ethics Sheets for AI Tasks [25.3]
私は、個々のモデルやデータセットのレベルだけでなく、AIタスクのレベルにおいても倫理的考慮事項について考えることにしました。 このような取り組みの新たな形態として、AIタスクのための倫理シート(Ethics Sheets for AI Tasks)を紹介します。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 2 Jul 2021 16:45:40 GMT)- データシートやモデルカードといったデータやモデルの理解を助ける概要的ドキュメントがあるが、その倫理版(AIタスク向け)の提案。
- 倫理の話題は社会実装の上で避けて通れず、このような整理はとても参考になる。
- A Survey on Deep Learning Technique for Video Segmentation [147.1]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。 ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (Fri, 2 Jul 2021 15:51:07 GMT)- Deep Learningを用いたビデオセグメンテーションに関するサーベイ。自動運転など応用範囲の広いタスクのサーベイで非常に有用。
- 引用数260と幅広い。アーキテクチャの変遷が興味深い。
- SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (Fri, 2 Jul 2021 10:39:18 GMT) - DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
- 詳細はhttps://sites.google.com/view/socialaiから確認可能
- CLIP-It! Language-Guided Video Summarization [96.7]
この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 1 Jul 2021 17:59:27 GMT)- ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。
- Using AntiPatterns to avoid MLOps Mistakes [14.7]
アンチパターンは、欠陥のあるプラクティスや方法論の情報を提供する。 いくつかのアンチパターンは技術的な誤りによるものであり、他のパターンは周囲の文脈について十分な知識を持っていないためである。 アンチパターンのカタログ化に加えて、ソリューション、ベストプラクティス、MLOpsの成熟に向けた今後の方向性について説明します。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 30 Jun 2021 20:00:52 GMT)- アンチパターンが9つ紹介されている。実用上重要・実務で見かけるものも多いなーと思うとともに、アカデミックな研究で見られるパターンもある。
- 設計に関わるアンチパターン
- Data Leakage: 不適切データの使用、不適切なデータ拡張
- Tuning-under-the-Carpet: ハイパーパラメータの不適切な管理
- 性能評価に関わるアンチパターン
- PEST(Perceived Empirical SuperioriTy): 実証的な検証が不十分
- Bad Credit Assignment: パフォーマンス向上の理由が不明確
- Grade-Your-own-Exam: モデル開発中の最終テスト用データへのアクセス
- デプロイ・メンテナンスに関わるアンチパターン
- Act Now, Reflect Never: モデルのモニタリングをせずそのまま使い続ける
- Set & Forget: 環境変化(concept driftのようなもの)への対応をしない
- Communicate with Ambivalence: モデルの不確実性(uncertainty)を把握・共有しない
- Data Crisis as a Service: データ抽出や処理の手順を記録・管理しない
- AutoFormer: Searching Transformers for Visual Recognition [97.6]
本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。 我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のtop-1精度を達成したことを示す。
論文 参考訳(メタデータ) (Thu, 1 Jul 2021 17:59:30 GMT)- 画像を対象としたTransformerで効率的なアーキテクチャサーチを行うという論文。少ないパラメータで優れた性能を出せる。
- コード等はhttps://github.com/microsoft/automlから参照可能なるとのこと。
- Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。 人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。 ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (Wed, 30 Jun 2021 16:05:57 GMT)- ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。
- XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。 我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
論文 参考訳(メタデータ) (Wed, 30 Jun 2021 15:45:07 GMT)