PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection

  • PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection [21.1]
    PIDrayという名前の大規模データセットを提示し、実世界の様々なケースを対象とし、アイテム検出を禁止している。 具体的には、PIDrayは禁止アイテムの12のカテゴリに対して124,486枚のX線画像を収集する。 そこで本研究では,PIDrayに基づくベースラインアルゴリズムを開発するために,汎用的な分割・コンカレントパイプラインを提案する。
    論文  参考訳(メタデータ)   (Sat, 19 Nov 2022 18:31:34 GMT)
  • セキュリティ検査などにおける禁止物のX線画像データセット。Easy / Hard / Hiddenと難易度が設定されているのが面白い。
  • リポジトリはlutao2021/PIDray (github.com)

TorchScale: Transformers at Scale

  • TorchScale: Transformers at Scale [109.3]
    スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。 私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 17:58:51 GMT)
  • Transformerを効率的にスケールアップするツール
  • リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

  • Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
    人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 16:00:31 GMT)
  • DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
    • 時間的な軌跡を考慮している点が特徴なのだろうか?
  • ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

Never-Ending VIsual-classification Stream (Nevis’22)

  • NEVIS’22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.5]
    我々は100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS’22)を紹介する。 分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。 NEVIS’22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 18:57:46 GMT)
  • 画像系ベンチマークを収集したもので106タスクからなるとのこと。AutoMLのターゲットになるのかなーと思う。
  • リポジトリはdeepmind/dm_nevis: NEVIS’22: Benchmarking the next generation of never-ending learners (github.com)Benchmarking the next generation of never-ending learners (deepmind.com)にBlogの記事がある。

PromptTTS / PromptSpeechデータセット

  • PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
    文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 10:58:38 GMT)
  • テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
  • プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research

Prompting PaLM for Translation

  • Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
    経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。 我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
    論文  参考訳(メタデータ)   (Wed, 16 Nov 2022 18:42:37 GMT)
    • 機械翻訳へのPaLM適用の取り組み
    • 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。(及ばないとはいえ善戦とはいえるような気はしないでもない)

Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

Fairness Increases Adversarial Vulnerability 

  • Fairness Increases Adversarial Vulnerability [50.9]
    フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。 非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。 フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 01:46:22 GMT)
  • 公平性と頑健性はトレードオフの関係にあり、良好なポイントを見つけるための手法を提案している。ある程度解決策も提案されているとはいえ、性能はともかく頑健性が落ちるのはつらいなーと思う。

CLEVER: CKE as a distantLy supErVised multi-instancE leaRning

  • Visually Grounded Commonsense Knowledge Acquisition [132.4]
    大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 07:00:16 GMT)
  • vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
  • リポジトリはthunlp/CLEVER (github.com)

Versatile Diffusion

  • Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
    近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。 既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 17:44:05 GMT)
  • text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
  • リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)