コンテンツへスキップ
- A Survey on Dialogue Summarization: Recent Advances and New Frontiers [19.1]
本稿では、利用可能な研究データセットの概要と、入力対話の領域に従って既存の作業を要約し、統一されたメトリクスの下でリーダーボードを編成する。 コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。
論文 参考訳(メタデータ) (Wed, 7 Jul 2021 12:11:14 GMT)- 対話要約に関するサーベイ。通常のDocument summarizationとは似て非なるタスク。会議、会話、e-mailのやり取り、カスタマーサービス、医療と対象とするドメインも様々。非常に参考になる。
- VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.4]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (Tue, 6 Jul 2021 15:41:32 GMT)- ビデオテキストデータセットでまずマルチモーダルモデルを構築、蒸留の枠組みで言語モデル構築に利用する研究。SQuAD等のデータセットで効果を確認したとのこと。画像とテキストの融合が、テキストオンリーのタスクにも有効というのが興味深い。
- Long-Short Transformer: Efficient Transformers for Language and Vision [97.3]
Long-Short Transformer, Transformer-LSは、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。 遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。 提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 18:00:14 GMT)- long rangeな相関、局所的な特徴の組み合わせによって性能を向上させたtransformer。言語(LRA benchmark)ではReformer, Linformer, Performer, Nyströmformerなど効率性を狙ったtransformer型モデルより高性能、言語モデル構築ではメモリ使用量が少なく高速に学習でき優れた性能。画像(imagenet)ではCvTやViLよりも本件機構を組み込んだものの方が高性能とのこと。
- The models and source code will be released soon.とのことでコード等も公開されるよう。
- ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.4]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。 自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。 我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 16:54:59 GMT)- SuperGLUE で1位となったERNIE3.0の報告。4TBコーパス、100億パラメータのモデルとのこと。SuperGLUEのトップは素晴らしい性能。
- 自然言語処理関連ではアメリカと中国で激しい競争となっていて、それを象徴する成果のように思う。
- DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling [102.5]
ラップ生成におけるこれまでの研究は、韻律的な歌詞に重点を置いていたが、ラップ演奏に重要なリズムビートを無視していた。 本稿では,韻とリズムの両方をモデル化可能なトランスフォーマーベースのラップ生成システムであるDeepRapperを開発する。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 09:01:46 GMT)- Deep Learningでラップ生成、DeepRapperという面白い報告。
- 単純な歌詞生成ではなく rhyme and rhythm(韻とリズム)を考慮した生成が可能とのこと。
- Ethics Sheets for AI Tasks [25.3]
私は、個々のモデルやデータセットのレベルだけでなく、AIタスクのレベルにおいても倫理的考慮事項について考えることにしました。 このような取り組みの新たな形態として、AIタスクのための倫理シート(Ethics Sheets for AI Tasks)を紹介します。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 2 Jul 2021 16:45:40 GMT)- データシートやモデルカードといったデータやモデルの理解を助ける概要的ドキュメントがあるが、その倫理版(AIタスク向け)の提案。
- 倫理の話題は社会実装の上で避けて通れず、このような整理はとても参考になる。
- A Survey on Deep Learning Technique for Video Segmentation [147.1]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。 ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (Fri, 2 Jul 2021 15:51:07 GMT)- Deep Learningを用いたビデオセグメンテーションに関するサーベイ。自動運転など応用範囲の広いタスクのサーベイで非常に有用。
- 引用数260と幅広い。アーキテクチャの変遷が興味深い。
- SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (Fri, 2 Jul 2021 10:39:18 GMT) - DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
- 詳細はhttps://sites.google.com/view/socialaiから確認可能
- CLIP-It! Language-Guided Video Summarization [96.7]
この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 1 Jul 2021 17:59:27 GMT)- ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。
- Using AntiPatterns to avoid MLOps Mistakes [14.7]
アンチパターンは、欠陥のあるプラクティスや方法論の情報を提供する。 いくつかのアンチパターンは技術的な誤りによるものであり、他のパターンは周囲の文脈について十分な知識を持っていないためである。 アンチパターンのカタログ化に加えて、ソリューション、ベストプラクティス、MLOpsの成熟に向けた今後の方向性について説明します。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 30 Jun 2021 20:00:52 GMT)- アンチパターンが9つ紹介されている。実用上重要・実務で見かけるものも多いなーと思うとともに、アカデミックな研究で見られるパターンもある。
- 設計に関わるアンチパターン
- Data Leakage: 不適切データの使用、不適切なデータ拡張
- Tuning-under-the-Carpet: ハイパーパラメータの不適切な管理
- 性能評価に関わるアンチパターン
- PEST(Perceived Empirical SuperioriTy): 実証的な検証が不十分
- Bad Credit Assignment: パフォーマンス向上の理由が不明確
- Grade-Your-own-Exam: モデル開発中の最終テスト用データへのアクセス
- デプロイ・メンテナンスに関わるアンチパターン
- Act Now, Reflect Never: モデルのモニタリングをせずそのまま使い続ける
- Set & Forget: 環境変化(concept driftのようなもの)への対応をしない
- Communicate with Ambivalence: モデルの不確実性(uncertainty)を把握・共有しない
- Data Crisis as a Service: データ抽出や処理の手順を記録・管理しない