Multimodal Tree Decoder for Table of Contents Extraction in Document Images

  • Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
    テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。 まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。 本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 11:38:31 GMT)
  • Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
  • リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404

Training Data Influence Analysis and Estimation

  • Training Data Influence Analysis and Estimation: A Survey [11.7]
    トレーニングデータの影響分析と推定に関する総合的な調査を初めて実施する。 我々は、最先端の影響分析手法を分類学に編成する。 本研究では,影響分析をより効果的に活用するための今後の研究の方向性を提案する。
    論文  参考訳(メタデータ)   (Fri, 9 Dec 2022 00:32:46 GMT)
  • 学習データと予測に関係する様々な研究をサーベイしたもの。ビジネスではよく聞かれる&必要とされている分野ではあるが発展途上(理解しきれていない)分野でありそうとの感想。
  • リポジトリに論文リストがあってこちらも参考になる ZaydH/influence_analysis_papers: Influence Analysis and Estimation – Survey, Papers, and Taxonomy (github.com)

X-Paste

  • X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
    Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 18:59:59 GMT)
  • ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

RT-1: Robotics Transformer

  • RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
    我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 18:55:15 GMT)
  • 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
  • 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
  • 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
  • RT-1: Robotics Transformer (robotics-transformer.github.io)

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey

  • Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
    本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。 知識に富んだストーリー生成の課題について多次元的な洞察を与える。
    論文  参考訳(メタデータ)   (Fri, 9 Dec 2022 02:19:07 GMT)
  • ストーリー生成に関するサーベイ。長文かつ一貫性が必要など非常に難しいタスク。外部データの活用を軸としたサーベイ。

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

  • UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
    計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 04:37:51 GMT)
  • 数学問題のベンチマークとそれらを解く手法の提案
  • リポジトリはchen-judge/UniGeo (github.com)

task vectors

  • Editing Models with Task Arithmetic [70.0]
    事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。 タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。 これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 05:50:53 GMT)
  • タスクを表すベクトルを作る・使うまでは理解できるとして、演算ができるって本当か?という研究。とても興味深い。
  • リポジトリはmlfoundations/task_vectors (github.com)

Learning to Dub Movies via Hierarchical Prosody Models

  • Learning to Dub Movies via Hierarchical Prosody Models [167.6]
    テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 03:29:04 GMT)
  • 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

Multiverse: Multilingual Evidence for Fake News Detection

  • Multiverse: Multilingual Evidence for Fake News Detection [71.5]
    Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。 偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
    論文  参考訳(メタデータ)   (Fri, 25 Nov 2022 18:24:17 GMT)
  • マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
  • リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)