arXiv – ページ 186 – arXiv最新論文の紹介

EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 17:51:03 GMT)
- MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
- EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機（iPhone 12）で計測されているのも重要だと思う。
  - 「We conclude that nonlinearity should be determined on a case-by-case basis given speciﬁc hardware and compiler at hand.」ですよねー
- リポジトリはGitHub – snap-research/EfficientFormer

EDA for data summarization

Guided Exploration of Data Summaries [24.2]
有用な要約は k 個の単体一様集合を含み、それらは集合的に多様であり、代表的である。このような要約を見つけることは、データが非常に多様で大規模な場合、難しい作業である。本研究では,データ要約への探索データ解析(EDA)の適用性について検討し,Eda4Sumを定式化する。
論文参考訳（メタデータ） (Fri, 27 May 2022 13:06:27 GMT)
- 大量のデータから有益な小さいデータセットを見つけるdata summarizationに関する研究で、全探索的なTop1Sum と強化学習を用いる RLSumを提案、比較している。
- リポジトリはGitHub – apersonnaz/EDA4Sum: EDA applied to data summarization

Text2Human: テキストからの人の画像生成

Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文参考訳（メタデータ） (Tue, 31 May 2022 17:57:06 GMT)
- 非常に高品質な人間の画像生成、ほとんど違和感の無い画像が生成されている。形状生成とテクスチャ生成の2段階に分かれているのも興味深い。
- リポジトリはGitHub – yumingj/Text2Human: Code for Text2Human (SIGGRAPH 2022). Paper: Text2Human: Text-Driven Controllable Human Image Generation

TSTR: Too Short to Represent 細部を含んだ要約

TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 02:45:31 GMT)
- 論文等のAbstractを併用（論文全体からAbstractに含まれる文を探索）することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。我々は多言語キーフレーズ生成という新しい設定に注意を払っている。非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文参考訳（メタデータ） (Sat, 21 May 2022 00:45:21 GMT)
- マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
- 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
- リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。

PLAT（Phrase-Level textual adversarial ATtack）:フレーズ単位のAdversarial Attack

Phrase-level Textual Adversarial Attack with Label Preservation [34.4]
本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。 PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
論文参考訳（メタデータ） (Sun, 22 May 2022 02:22:38 GMT)
- テキスト内のフレーズを攻撃対象としたAdversarial Attack手法の提案。単語単位で摂動させるよりも攻撃範囲が広く、不自然さが軽減されるとのこと。
- リポジトリはGitHub – Yibin-Lei/PLAT

Open Information Extractionのサーベイ

A Survey on Neural Open Information Extraction: Current Status and Future Directions [87.3]
Open Information extract (OpenIE) は、大規模コーパスからの関係事実のドメインに依存しない発見を容易にする。我々は、最先端のニューラルなOpenIEモデル、その設計決定、強み、弱点について概観する。
論文参考訳（メタデータ） (Tue, 24 May 2022 02:24:55 GMT)
- 非構造化テキストからファクトを抽出するOpenIEに関するサーベイ。タギングを行う手法と生成モデルを使う手法の両方を調査対象にしている。8ページとコンパクトなサーベイ。

DisinfoMeme: 偽情報ミームのマルチモーダルデータセット

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文参考訳（メタデータ） (Wed, 25 May 2022 09:54:59 GMT)
- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。

StreamingQA:

StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.4]
提案する大規模データセットであるStreamingQAを構築した。プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 15:33:41 GMT)
- 14年分のニュース記事に関する大規模QAデータセット、QAモデルの時系列変化による影響を考慮することが可能。
- リポジトリはGitHub – deepmind/streamingqa

Inception Transformer

Inception Transformer [151.9]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (Thu, 26 May 2022 17:18:32 GMT)
- Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
  - Inception mixer: 複数のモジュール（高周波成分の抽出を狙ったものと低周波成分を狙ったもの）を並列につなげる構造
  - frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ（ローカルな構造を捉えるため下位層は高周波優先など）が可能な構造。
- リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30