2022年5月 – arXiv最新論文の紹介

DisinfoMeme: 偽情報ミームのマルチモーダルデータセット

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文参考訳（メタデータ） (Wed, 25 May 2022 09:54:59 GMT)
- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。

StreamingQA:

StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.4]
提案する大規模データセットであるStreamingQAを構築した。プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 15:33:41 GMT)
- 14年分のニュース記事に関する大規模QAデータセット、QAモデルの時系列変化による影響を考慮することが可能。
- リポジトリはGitHub – deepmind/streamingqa

Inception Transformer

Inception Transformer [151.9]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (Thu, 26 May 2022 17:18:32 GMT)
- Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
  - Inception mixer: 複数のモジュール（高周波成分の抽出を狙ったものと低周波成分を狙ったもの）を並列につなげる構造
  - frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ（ローカルな構造を捉えるため下位層は高周波優先など）が可能な構造。
- リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 17:02:07 GMT)
- 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
- リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

信頼されるGraph Neural Networksのサーベイ

Trustworthy Graph Neural Networks: Aspects, Methods and Trends [108.0]
グラフニューラルネットワーク(GNN)は,さまざまな実世界のシナリオに対して,有能なグラフ学習手法として登場した。パフォーマンス指向のGNNは、敵の攻撃に対する脆弱性のような潜在的な副作用を示す。こうした意図しない害を避けるためには、信頼度に特徴付けられる有能なGNNを構築する必要がある。
論文参考訳（メタデータ） (Mon, 16 May 2022 02:21:09 GMT)
- グラフニューラルネットワークについて robustness, explainability, privacy, fairness, accountability, environmental well-beingの6つの観点を整理したサーベイ。
- グラフデータという特殊なデータであるが故の対応など非常に勉強になる。

言語モデルを用いた弱教師有り学習

Weakly Supervised Text Classification using Supervision Signals from a Language Model [33.6]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。マスク付き言語モデルは[MASK]トークンの単語を生成することができる。文書の内容を要約した生成された単語を監視信号として利用することができる。
論文参考訳（メタデータ） (Fri, 13 May 2022 12:57:15 GMT)
- 大規模言語モデルを用いて教師信号を作り、弱教師有り学習に持ち込む研究。言語モデルで単語を生成させ、その単語とカテゴリを紐づけている。
- 大規模言語モデルからの情報抽出は結構流行っている印象

Transformers in 3D Point Clouds: A Survey

Transformers in 3D Point Clouds: A Survey [27.8]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文参考訳（メタデータ） (Mon, 16 May 2022 01:32:18 GMT)
- 3D Transformerに関するサーベイ。いたるところにトランスフォーマーが採用されている。

Imagen: Googleの画像生成AI

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (Mon, 23 May 2022 17:42:53 GMT)
- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com)　（論文ではhttps://imagen.research.google/）

属性によるResponsible AIの受け止めの違い

How Different Groups Prioritize Ethical Values for Responsible AI [75.4]
民間企業、公共セクター組織、学術団体は、責任あるAI技術にとって重要であると考える倫理的価値観を概説している。彼らのレコメンデーションは中央値のセットに収束するが、より代表的な大衆が、彼らが交流し、影響を受ける可能性のあるAI技術にとって重要な価値についてはほとんど知られていない。我々は、個人が3つのグループにまたがる責任あるAIの価値観をどのように認識し、優先順位付けしているかを調査した。
論文参考訳（メタデータ） (Mon, 16 May 2022 14:39:37 GMT)
- 米国住民(n=743)、クラウドワーカー(n=755)、AI実践者(n=175)のそれぞれがResponsible AI（と関連する要素）をどの程度重視するかの調査結果。
- AI実践者は fairness, dignity, inclusivenessを重視し、米国住民とクラウドワーカーはsafety, privacy, performanceを重視する傾向にあるのは興味深い。過去の調査ではAI実践者はperfomanceを重視する傾向にあるそうだが、今回の調査ではそのような示唆は得られていないとのこと。
  - どう解釈するかは悩ましいがこの手の調査結果を色々見ておくのはとても良いことのように思う。

TransTab: テーブルデータの埋め込み

TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である異なる列の異なるテーブルをマージするには重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 19 May 2022 05:34:46 GMT)
- テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
  - 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
- リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model

2022年5月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31