- A Survey on Backdoor Attack and Defense in Natural Language Processing [18.3]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。 ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 02:35:12 GMT) - NLPにおける攻撃と防御のサーベイ
- 短めでざっくりと状況を知るのに良いサーベイ。自然言語一般かもしれないが、良いメトリクスが無いというのはつらいなーと思う(スコアリングモデル自体が攻撃対象になっているとめっちゃ大変そう)
Human or Machine? Turing Tests for Vision and Language
- Human or Machine? Turing Tests for Vision and Language [22.1]
我々は、現在のAIを人間を模倣する能力で体系的にベンチマークする。 実験では、769人の人的エージェント、24人の最先端AIエージェント、896人の人的裁判官、8人のAI裁判官がテストされた。 その結果、現在のAIは、性別、年齢、教育レベルによって人間の裁判官を偽装できるわけではないことが判明した。
論文 参考訳(メタデータ) (Wed, 23 Nov 2022 16:16:52 GMT) - 大規模なチューリングテスト。AIがチューリングテストを受けるだけでなく、ジャッジもしているのが面白い。
- チューリングテストには批判も多いが大規模実験の結果は面白い。長い対話はともかくとしてAIか人間かの判断は難しいように思えるし、その判断ですらAIの性能は高いよう。
- データ等はhttps://tinyurl.com/8x8nha7pで公開されているとのこと
The Lean Data Scientist
- The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck [16.2]
機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。 最近のアルゴリズムはますますデータに飢えており、トレーニングには大規模なデータセットが必要である。 しかし、そのような規模の高品質なデータセットを取得することは難しい課題である。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 07:44:56 GMT) - データが少ない問題に対応する手法を整理した論文
- それほど長くもなく頭の整理には良いなと思う。
PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection
- PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
論文 参考訳(メタデータ) (Sat, 19 Nov 2022 18:31:34 GMT) - セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
- リポジトリはlutao2021/PIDray (github.com)
TorchScale: Transformers at Scale
- TorchScale: Transformers at Scale [109.3]
スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。 私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
論文 参考訳(メタデータ) (Wed, 23 Nov 2022 17:58:51 GMT) - Transformerを効率的にスケールアップするツール
- リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)
Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback
- Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (Mon, 21 Nov 2022 16:00:31 GMT) - DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
- 時間的な軌跡を考慮している点が特徴なのだろうか?
- ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube
Never-Ending VIsual-classification Stream (Nevis’22)
- NEVIS’22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.5]
我々は100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS’22)を紹介する。 分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。 NEVIS’22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 18:57:46 GMT) - 画像系ベンチマークを収集したもので106タスクからなるとのこと。AutoMLのターゲットになるのかなーと思う。
- リポジトリはdeepmind/dm_nevis: NEVIS’22: Benchmarking the next generation of never-ending learners (github.com)、Benchmarking the next generation of never-ending learners (deepmind.com)にBlogの記事がある。
PromptTTS / PromptSpeechデータセット
- PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 10:58:38 GMT) - テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
- プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research
Prompting PaLM for Translation
- Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。 我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (Wed, 16 Nov 2022 18:42:37 GMT)- 機械翻訳へのPaLM適用の取り組み
- 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。(及ばないとはいえ善戦とはいえるような気はしないでもない)
Retrieval-Augmented CM3 (RA-CM3)
- Retrieval-Augmented Multimodal Language Modeling [176.9]
Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 20:26:44 GMT)- 外部メモリを参照しながら生成等を行えるモデルの提案
- ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと