arXiv – ページ 241 – arXiv最新論文の紹介

Summarization Programs: 解釈可能な要約

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 16:50:22 GMT)
- 解釈可能な抽象型要約手法の提案。文を短くする過程（操作）を木構造で追うことが可能。現時点では十分な性能を出せていないように見えるが改善可能性が示されている。
- リポジトリはswarnaHub/SummarizationPrograms: PyTorch code of Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees (github.com)

Semantic Visual Simultaneous Localization and Mapping: A Survey [18.4]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:45:26 GMT)

A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 16:00:04 GMT)
- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

Graph Perceiver IO: A General Architecture for Graph Structured Data [13.3]
グラフ構造化データセットのPerceiver IOであるGraph Perceiver IOを提供する。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:05:55 GMT)
- Perceiver のグラフ対応版、ベンチマーク結果は良さそう。

WildQA: In-the-Wild Video Question Answering [22.1]
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 13:54:07 GMT)
- 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
- プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

vec2text with Round-Trip Translations [31.0]
本研究では,任意の自然言語テキストを生成することができるモデルについて検討する。それらは普遍的なvec2textモデルと呼ばれます。普遍性,多様性,流布性,意味的構造という,4つの望ましい特性を提案する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 17:20:18 GMT)
- 2vecの逆でベクトルからのテキスト生成。面白い研究であるし、今も今後も機械翻訳や要約などテキスト生成系の技術は近しい動きをしているのだろうが、自然言語って何なんだろうと思わなくもない。

Lost in Translation: Reimagining the Machine Learning Life Cycle in Education [12.8]
機械学習(ML)技術は、教育においてますます普及している。 ML技術が長年の教育原則と目標をどのように支えているかを調べる必要がある。本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 17:14:01 GMT)
- 教育へのAI適用についてインタビューを行った結果をまとめた論文。社会実装に関わる課題、教育ということもあり倫理に関連する話題も多い。

SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。幅広いダウンストリームダイアログタスクを効果的に微調整できる。その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 14:17:57 GMT)
- 大規模（AnPreDial ラベル付き3M、UnPreDial ラベル無し19M）な会話コーパスを用いたsemi-supervised pre-trained conversation modelの提案。バックボーンのモデルアーキテクチャはUniLMとのこと。
- リポジトリはDAMO-ConvAI/space-3 at main · AlibabaResearch/DAMO-ConvAI (github.com)

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution [48.1]
我々は、高速で正確で使い易い英語の参照解決のためのpythonパッケージであるfastcorefを紹介した。モデルにより、V100 GPU上で2.8K OntoNotes文書を25秒で処理できる。
論文参考訳（メタデータ） (Mon, 12 Sep 2022 09:24:22 GMT)
- 代名詞や略称などを紐づけるcoreference resolutionためのパッケージ。
- リポジトリはshon-otmazgin/fastcoref (github.com)、FastCoref – a Hugging Face Space by pythiccoderにデモも存在。

CommunityLM: Probing Partisan Worldviews from Language Models [11.8]
コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークを使用している。当社のフレームワークでは、Twitter上の各コミュニティメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。次に、対応するLMのプロンプトベース探索を用いて、2つのグループの世界観を評価する。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 05:52:29 GMT)
- 支持政党のデータを用いて言語モデルを作り、そのモデルへの質問と回答を通して状況を探ろうという研究。デジタルツインっぽくて興味深い。GPT-3よりも特化してモデルを作った方が良い結果。
- リポジトリはhjian42/CommunityLM: [COLING 2022]: CommunityLM: Probing Partisan Worldviews from Language Models (github.com)