Whisper:OpenAIの高性能ASR

OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

セマンティックvSLAMのサーベイ

  • Semantic Visual Simultaneous Localization and Mapping: A Survey [18.4]
    本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。 次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。 最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:45:26 GMT)

堅牢なViTへのレシピ

  • A Light Recipe to Train Robust Vision Transformers [34.5]
    我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 16:00:04 GMT)
    • 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

Graph Perceiver IO

  • Graph Perceiver IO: A General Architecture for Graph Structured Data [13.3]
    グラフ構造化データセットのPerceiver IOであるGraph Perceiver IOを提供する。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。 グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:05:55 GMT)
    • Perceiver のグラフ対応版、ベンチマーク結果は良さそう。

WildQA

  • WildQA: In-the-Wild Video Question Answering [22.1]
    本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 13:54:07 GMT)
    • 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
    • プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

vec2text

  • vec2text with Round-Trip Translations [31.0]
    本研究では,任意の自然言語テキストを生成することができるモデルについて検討する。 それらは普遍的なvec2textモデルと呼ばれます。 普遍性,多様性,流布性,意味的構造という,4つの望ましい特性を提案する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:20:18 GMT)
    • 2vecの逆でベクトルからのテキスト生成。面白い研究であるし、今も今後も機械翻訳や要約などテキスト生成系の技術は近しい動きをしているのだろうが、自然言語って何なんだろうと思わなくもない。

教育とAI

  • Lost in Translation: Reimagining the Machine Learning Life Cycle in Education [12.8]
    機械学習(ML)技術は、教育においてますます普及している。 ML技術が長年の教育原則と目標をどのように支えているかを調べる必要がある。 本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。
    論文  参考訳(メタデータ)   (Thu, 8 Sep 2022 17:14:01 GMT)
    • 教育へのAI適用についてインタビューを行った結果をまとめた論文。社会実装に関わる課題、教育ということもあり倫理に関連する話題も多い。

SPACE-3: タスク指向の会話理解と生成

  • SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
    SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。 幅広いダウンストリームダイアログタスクを効果的に微調整できる。 その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 14:17:57 GMT)

F-COREF: 参照解決のためのソフトウェア

CommunityLM

  • CommunityLM: Probing Partisan Worldviews from Language Models [11.8]
    コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークを使用している。 当社のフレームワークでは、Twitter上の各コミュニティメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。 次に、対応するLMのプロンプトベース探索を用いて、2つのグループの世界観を評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 05:52:29 GMT)
    • 支持政党のデータを用いて言語モデルを作り、そのモデルへの質問と回答を通して状況を探ろうという研究。デジタルツインっぽくて興味深い。GPT-3よりも特化してモデルを作った方が良い結果。