2022年12月 – ページ 3 – arXiv最新論文の紹介

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。知識に富んだストーリー生成の課題について多次元的な洞察を与える。
論文参考訳（メタデータ） (Fri, 9 Dec 2022 02:19:07 GMT)
ストーリー生成に関するサーベイ。長文かつ一貫性が必要など非常に難しいタスク。外部データの活用を軸としたサーベイ。

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文参考訳（メタデータ） (Tue, 6 Dec 2022 04:37:51 GMT)
数学問題のベンチマークとそれらを解く手法の提案
リポジトリはchen-judge/UniGeo (github.com)

Editing Models with Task Arithmetic [70.0]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 05:50:53 GMT)
タスクを表すベクトルを作る・使うまでは理解できるとして、演算ができるって本当か？という研究。とても興味深い。
リポジトリはmlfoundations/task_vectors (github.com)

Learning to Dub Movies via Hierarchical Prosody Models [167.6]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 03:29:04 GMT)
感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (Mon, 5 Dec 2022 22:14:49 GMT)
画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
リポジトリはmicrosoft/UDOP (github.com)

Multiverse: Multilingual Evidence for Fake News Detection [71.5]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文参考訳（メタデータ） (Fri, 25 Nov 2022 18:24:17 GMT)
マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)

Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 13:12:10 GMT)
テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
CNN/DMでの結果が非常に高い

A Survey on Medical Document Summarization [40.8]
インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
論文参考訳（メタデータ） (Sat, 3 Dec 2022 18:46:44 GMT)
医療ドメインのマルチドキュメント要約に関するサーベイ
NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容

Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 04:55:32 GMT)
普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
意図せず存在している点が悩ましい。

DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 12:27:28 GMT)
データ的にも計算資源的にも効率的な学習フレームワークの提案。
リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)