arXiv最新論文の紹介

リモートセンシングにおけるVision Transformer

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [98.0]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 09:31:40 GMT)
- Vitの活用事例であり、比較対象が多く参考になる。DOTA Benchmark (Object Detection In Aerial Images) | Papers With Codeなど多くのデータセットでSoTA。
- リポジトリはGitHub – ViTAE-Transformer/Remote-Sensing-RVSA: The official repo for the paper “Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model”

3D処理におけるVision transformerのサーベイ

3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 17:59:11 GMT)
- 3D処理でも非常に流行しているtransformerのサーベイ100以上の手法が調査対象とのことで非常に幅広い。
- プロジェクトサイトはGitHub – lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers

ROC（Re-creation of Creations）

ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 08:44:47 GMT)
- 歌詞からのメロディー生成、曲を小単位に分割して処理するなどpipelinedな処理っぽいとの印象
- リポジトリはGitHub – microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence

会議要約のサーベイ

Abstractive Meeting Summarization: A Survey [15.5]
本稿では,多人数会議における抽象的な要約に焦点を当てた。このタスクに関連する課題、データセット、システムに関する調査と、今後の研究に向けた有望な方向性に関する議論を提供する。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 14:04:38 GMT)
- 抽象型会議要約における最先端技術の概要をサーベイした論文、通常のsummatizationとの差などが良くわかる。
- 新しいデータセットがない印象を持っていたが、GitHub – guokan-shang/ami-and-icsi-corpora: AMI and ICSI Corpora in JSON format.というものがあることが分かってとても良かった。

LAMDA-SSL: Semi-Supervised Learning in Python

LAMDA-SSL: Semi-Supervised Learning in Python [56.1]
LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
論文参考訳（メタデータ） (Tue, 9 Aug 2022 09:06:48 GMT)
- オープンソースの半教師有り学習のライブラリ
- プロジェクトサイトはDocument (ygzwqzd.github.io)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 03:44:02 GMT)
- （一部の）画像、スケッチ、テキスト入力などからファッション画像（服全体など）を生成する研究。柄の一部＋テキスト指示で服の画像全体を作ることなどが可能とのこと。
  - 内容とは関係ないが、かなり無理がある略称
- リポジトリはGitHub – Harvey594/ARMANI

顔画像の表情変化動画の作成

Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.8]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 02:57:30 GMT)
- 入力させたテキストに沿って顔画像の表情等を変化させ、かつその変化の過程を違和感のない動画にするという研究。リポジトリの動画を見るのが分かりやすい。
- リポジトリはGitHub – TiankaiHang/language-guided-animation: Language-Guided Face Animation by Recurrent StyleGAN-based Generator

生成型マルチモーダルモデルへのPrompt Tuning

Prompt Tuning for Generative Multimodal Pretrained Models [75.4]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文参考訳（メタデータ） (Thu, 4 Aug 2022 08:56:38 GMT)
- 生成的マルチモーダル事前学習モデルへのPrompt tuningとFine tuningを比較した論文。prompt-tuned modelの方が頑健性が高いというのは面白い結果（特定データにひっぱらられにくいという意味で納得感もある）
- リポジトリはGitHub – OFA-Sys/OFA: Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Effidit: Your AI Writing Assistant

Effidit: Your AI Writing Assistant [60.6]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。 Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文参考訳（メタデータ） (Wed, 3 Aug 2022 02:24:45 GMT)
- Effidit（Efficient and Intelligent Editing）の論文、テキスト補間など便利な様々な機能が使える環境。オンラインデモも存在する。
- プロジェクトサイトはEffidit (qq.com)

ferret: a Framework for Benchmarking Explainers on Transformers

ferret: a Framework for Benchmarking Explainers on Transformers [12.1]
我々は、Hugging Face Hubと統合されたTransformerベースのモデルを説明するために、使いやすいPythonライブラリであるferretを紹介した。統一されたベンチマークスイートを提供し、あらゆるテキストや解釈可能性コーパスの幅広い最先端の説明をテストし比較する。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 16:21:42 GMT)
- transformersに対して適用可能なXAI、Fairnessなどの評価フレームワーク
- リポジトリはGitHub – g8a9/ferret: A python package for benchmarking interpretability techniques.

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30