BANMo(Building Animatable 3D Neural Models): ビデオからの3Dモデル構築

  • BANMo: Building Animatable 3D Neural Models from Many Casual Videos [129.7]
    本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。 Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。 実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
    論文  参考訳(メタデータ)   (Thu, 23 Dec 2021 18:30:31 GMT)

ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

  • ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
    GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 23 Dec 2021 17:35:48 GMT)
    • Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
    • 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
    • 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

TagLab: アノテーション支援ツール

  • TagLab: A human-centric AI system for interactive semantic segmentation [63.8]
    TagLabは、大規模な画像に注釈をつけるための、オープンソースのAI支援ソフトウェアである。 画像アノテーションをスクラッチから支援ツールを通じてスピードアップし、カスタムの完全自動セマンティックセグメンテーションモデルを作成し、自動予測の迅速な編集を可能にする。 研究結果は,海洋生態学と建築遺産の2つの異なるシナリオで報告した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Dec 2021 16:50:06 GMT)

VELVET(noVel Ensemble Learning approach to automatically locate VulnErable sTatements): 脆弱性検知手法

  • VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.9]
    本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。 我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 22:45:27 GMT)
    • グラフ構造情報、系列情報を併用した脆弱性検知手法の提案。合成データで事前学習し現実のデータでfine tuningすることで優れた性能を達成とのこと。

MuMuQA(Multimedia Multi-Hop news Question Answering)

  • MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
    我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Dec 2021 18:23:30 GMT)
    • クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
    • リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

語彙モデルとTokenizeの歴史

  • Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
    単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。 すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 13:04:18 GMT)
    • 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ(?)結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
    • 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法(アプローチ)が異なるのは納得感がある。

Mixtures of Expertsと高密度モデルの比較

  • Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
    エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 17:05:11 GMT)
    • 最近よく見る疎なモデル(Mixtures of Experts)と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは?としている。
    • MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
    • リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

  • Few-shot Learning with Multilingual Language Models [66.5]
    多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。 私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。 本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 16:52:35 GMT)
    • 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
    • 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい(モデルは公開されているようなので色々試してみるしかなさそう)
    • リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

  • KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
    我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
    論文  参考訳(メタデータ)   (Thu, 16 Dec 2021 04:37:10 GMT)
    • Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
    • アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。