コンテンツへスキップ
- Neural Texture Extraction and Distribution for Controllable Person Image Synthesis [46.6]
身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。 人物画像が高度に構造化されていることを観察し、参照画像のセマンティックエンティティを抽出し、分散することにより、所望の画像を生成することを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 13 Apr 2022 03:51:07 GMT)
- Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.5]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (Thu, 14 Apr 2022 08:16:28 GMT)- データ拡張によって優れた性能を発揮する手法の提案。BackTranslationを大きく上回っている(がモノリンガルデータは導入していない?)。データ拡張系手法の中でSoTAを主張。
- FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations [114.9]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。 MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。 事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (Wed, 13 Apr 2022 16:45:33 GMT)
- GPT-NeoX-20B: An Open-Source Autoregressive Language Model [16.3]
GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。 ウェイトは寛容なライセンスで、自由に公開することができる。
論文 参考訳(メタデータ) (Thu, 14 Apr 2022 04:00:27 GMT)- Apache-2とオープンなライセンスの大規模言語モデル。tokenizerなどの工夫でGPT-3などと比べモデル規模の割に性能が高いとのこと。推論であっても2つのGPU(45GB以上のVRAM)が必要。
- 「we hope to train and open source a 175B parameter GPT-3 replication along the way.」というのにも期待大。
- WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文 参考訳(メタデータ) (Wed, 13 Apr 2022 12:52:40 GMT)- 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。
- リポジトリはGitHub – wangxw5/wikiDiverse
- NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (Tue, 12 Apr 2022 09:36:10 GMT)- 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
- TASK 1 Commonsense + Arithmetic
- TASK 2 Domain specific + Arithmetic
- TASK 3 Commonsense + Quantitative
- TASK 4 Fill-in-the-blanks
- TASK 5 RC + Explicit Numerical Reasoning
- TASK 6 RC + Implicit Numerical Reasoning
- TASK 7 Quantitative NLI
- TASK 8 Arithmetic word problems
- プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)
- Does the Market of Citations Reward Reproducible Work? [36.8]
医学や機械学習(ML)などの特定の研究分野は、再現性のある作品とより多くの引用を関連付けていることを示す。 コードを利用可能にし、事前作業を徹底的に参照することは、引用の増加と肯定的に相関しているように見える。
論文 参考訳(メタデータ) (Fri, 8 Apr 2022 04:03:17 GMT)
- Dynatask: A Framework for Creating Dynamic AI Benchmark Tasks [31.5]
Dynataskは、カスタムNLPタスクを設定するためのオープンソースのシステムである。 AIのベンチマークを再考する研究プラットフォームであるDynabenchと統合されている。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 5 Apr 2022 00:32:04 GMT)
- Towards Web Phishing Detection Limitations and Mitigation [21.7]
フィッシングサイトが機械学習に基づく検出をバイパスする方法を示す。 100Kフィッシング・ベナンサイトを用いた実験では、有望な精度(98.8%)を示した。 本稿では,ロジスティック回帰に基づくよりレジリエントなモデルであるAnti-SubtlePhishを提案する。
論文 参考訳(メタデータ) (Sun, 3 Apr 2022 04:26:04 GMT)- フィッシングサイトがMLベースの検出をバイパスしている方法の調査とその対策の提案。13,000のフィッシングページにわたる詳細なケーススタディを行っているとのことで面白い内容。
- 提案されているAnti-SubtlePhishは主として特徴量の強化を行っている。最終的なレンダリング結果を使うことが重要そう。
- Correcting Robot Plans with Natural Language Feedback [88.9]
既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。 本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 11 Apr 2022 15:22:43 GMT)- 自然言語でロボットにフィードバックするという未来を感じる研究。