X-Paste

  • X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
    Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 18:59:59 GMT)
  • ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

RT-1: Robotics Transformer

  • RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
    我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 18:55:15 GMT)
  • 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
  • 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
  • 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
  • RT-1: Robotics Transformer (robotics-transformer.github.io)

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey

  • Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
    本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。 知識に富んだストーリー生成の課題について多次元的な洞察を与える。
    論文  参考訳(メタデータ)   (Fri, 9 Dec 2022 02:19:07 GMT)
  • ストーリー生成に関するサーベイ。長文かつ一貫性が必要など非常に難しいタスク。外部データの活用を軸としたサーベイ。

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

  • UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
    計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 04:37:51 GMT)
  • 数学問題のベンチマークとそれらを解く手法の提案
  • リポジトリはchen-judge/UniGeo (github.com)

task vectors

  • Editing Models with Task Arithmetic [70.0]
    事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。 タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。 これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 05:50:53 GMT)
  • タスクを表すベクトルを作る・使うまでは理解できるとして、演算ができるって本当か?という研究。とても興味深い。
  • リポジトリはmlfoundations/task_vectors (github.com)

Learning to Dub Movies via Hierarchical Prosody Models

  • Learning to Dub Movies via Hierarchical Prosody Models [167.6]
    テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 03:29:04 GMT)
  • 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

Multiverse: Multilingual Evidence for Fake News Detection

  • Multiverse: Multilingual Evidence for Fake News Detection [71.5]
    Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。 偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
    論文  参考訳(メタデータ)   (Fri, 25 Nov 2022 18:24:17 GMT)
  • マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
  • リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)

MoCa: Momentum Calibration

  • Momentum Calibration for Text Generation [86.6]
    テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 13:12:10 GMT)
  • テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
  • CNN/DMでの結果が非常に高い

A Survey on Medical Document Summarization

  • A Survey on Medical Document Summarization [40.8]
    インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
    論文  参考訳(メタデータ)   (Sat, 3 Dec 2022 18:46:44 GMT)
  • 医療ドメインのマルチドキュメント要約に関するサーベイ
  • NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容