arXiv最新論文の紹介

BitextEdit: 不適切な対訳ペアを修正して利用

BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
自動編集によりマイニングした対訳ペアを改良することを提案する。提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
論文参考訳（メタデータ）参考訳（全文） (Fri, 12 Nov 2021 16:00:39 GMT)
- CCMatrixなど自動で作成された対訳ペア（Bitext）には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
  - 不適切になった理由によっては有効そうという印象。

AnswerSumm: 回答を要約するデータセット

AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文参考訳（メタデータ） (Thu, 11 Nov 2021 21:48:02 GMT)
- Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
- リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 16:04:49 GMT)
- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

Masked Autoencoders

Masked Autoencoders Are Scalable Vision Learners [61.0]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ）参考訳（全文） (Thu, 11 Nov 2021 18:46:40 GMT)
- Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。

Green Deep Learningのサーベイ

A Survey on Green Deep Learning [25.7]
本稿では,グリーンディープラーニング技術の発展を体系的にレビューすることに焦点を当てる。提案手法は,(1)コンパクトネットワーク,(2)エネルギー効率のトレーニング戦略,(3)エネルギー効率の推論アプローチ,(4)データ利用率の4つのカテゴリに分類される。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 02:28:08 GMT)
- 最近よく話題になるDeepLearningにおけるカーボンフットプリントのようなAIと環境との関わりのサーベイ。アーキテクチャ、学習、推論などモデル構築要素の他、データの使い方（Active LearningやFew shotなど）についても扱っている。各チャプターの整理図が良い感じでありがたい。

環境を考慮したAutoML

Towards Green Automated Machine Learning: Status Quo and Future Directions [55.4]
AutoMLは数百のコントリビューションでホットな研究トピックになっている。非常に資源集約的であることも知られており、批判の要点の1つである。本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 18:57:27 GMT)
- AutoMLにおける環境考慮に関してまとめた論文、定量化への方針、アプローチ・設計、ベンチマーク、透明性などについて詳細に解説している。AIと環境保護へのかかわりを知るにも良い内容。

Visual Deep MLPのサーベイ

Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.0]
初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
論文参考訳（メタデータ） (Sun, 7 Nov 2021 12:02:00 GMT)
- CNN、Transformer（ViTなど）、MLP（MLP-Mixerなど）と群雄割拠な感のある画像処理に対するMLP中心のサーベイ。

Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文参考訳（メタデータ） (Mon, 8 Nov 2021 07:55:13 GMT)
- 頑健性（敵対攻撃への耐性）に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。
- プロジェクトサイトはhttps://cogdl.ai/grb/home

SustainBench: SDGsに関連するベンチマーク

SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文参考訳（メタデータ） (Mon, 8 Nov 2021 18:59:04 GMT)
- SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
  1. Poverty prediction over space
  2. Poverty prediction over time
  3. Weakly supervised cropland classification
  4. Crop type classification
  5. Crop type mapping
  6. Crop yield prediction
  7. Field delineation
  8. Child mortality rate
  9. Women BMI
  10. Women educational attainment
  11. Water quality index
  12. Sanitation index
  13. Brick kiln detection
  14. Representation learning for land cover
  15. Out-of-domain land cover classification

プロジェクトサイトはhttps://sustainlab-group.github.io/sustainbench/

BOBSL(BC-Oxford British Sign Language) Dataset: 大規模手話データセット

BBC-Oxford British Sign Language Dataset [64.3]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。データセットのモチベーションと統計、利用可能なアノテーションについて説明する。我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文参考訳（メタデータ） (Fri, 5 Nov 2021 17:35:58 GMT)
- 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
- 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31