2022年9月 – ページ 2 – arXiv最新論文の紹介

NL2INTERFACE

NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries [19.4]
NL2INTERFACEは自然言語クエリから対話型多視点インタフェースを生成する。ユーザはインターフェイスと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。
論文参考訳（メタデータ） (Mon, 19 Sep 2022 08:31:50 GMT)
- 自然言語でインタラクティブに操作可能な環境。内部的にはテキストをstructurally parameterized SQL(SPS) に変換しているとのこと。

（内部動作は異なると思うが）ACT-1: Transformer for Actions (adept.ai)のようにやりたい事を言葉で指示する方針は有望なのだろうか？

HAPI(History of APIs): 大手企業APIの時系列データセット

HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (Sun, 18 Sep 2022 01:52:16 GMT)
- 様々な商用APIの予測結果をまとめたデータセット。2020年～2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
- API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…

Mega: Moving Average Equipped Gated AttentionとBART-LS

Mega: Moving Average Equipped Gated Attention [150.3]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 20:52:17 GMT)
- Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
- シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。

Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 00:41:07 GMT)
- 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
- リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

Summarization Programs: 解釈可能な要約

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 16:50:22 GMT)
- 解釈可能な抽象型要約手法の提案。文を短くする過程（操作）を木構造で追うことが可能。現時点では十分な性能を出せていないように見えるが改善可能性が示されている。
- リポジトリはswarnaHub/SummarizationPrograms: PyTorch code of Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees (github.com)

Whisper：OpenAIの高性能ASR

Introducing Whisper (openai.com)
Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)

OpenAIの音声認識システム。極めて大規模なデータ（全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。）が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

セマンティックvSLAMのサーベイ

Semantic Visual Simultaneous Localization and Mapping: A Survey [18.4]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:45:26 GMT)

堅牢なViTへのレシピ

A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 16:00:04 GMT)
- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

Graph Perceiver IO

Graph Perceiver IO: A General Architecture for Graph Structured Data [13.3]
グラフ構造化データセットのPerceiver IOであるGraph Perceiver IOを提供する。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:05:55 GMT)
- Perceiver のグラフ対応版、ベンチマーク結果は良さそう。

WildQA

WildQA: In-the-Wild Video Question Answering [22.1]
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 13:54:07 GMT)
- 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
- プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

vec2text

vec2text with Round-Trip Translations [31.0]
本研究では,任意の自然言語テキストを生成することができるモデルについて検討する。それらは普遍的なvec2textモデルと呼ばれます。普遍性,多様性,流布性,意味的構造という,4つの望ましい特性を提案する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 17:20:18 GMT)
- 2vecの逆でベクトルからのテキスト生成。面白い研究であるし、今も今後も機械翻訳や要約などテキスト生成系の技術は近しい動きをしているのだろうが、自然言語って何なんだろうと思わなくもない。

2022年9月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30