WildQA

  • WildQA: In-the-Wild Video Question Answering [22.1]
    本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 13:54:07 GMT)
    • 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
    • プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

vec2text

  • vec2text with Round-Trip Translations [31.0]
    本研究では,任意の自然言語テキストを生成することができるモデルについて検討する。 それらは普遍的なvec2textモデルと呼ばれます。 普遍性,多様性,流布性,意味的構造という,4つの望ましい特性を提案する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:20:18 GMT)
    • 2vecの逆でベクトルからのテキスト生成。面白い研究であるし、今も今後も機械翻訳や要約などテキスト生成系の技術は近しい動きをしているのだろうが、自然言語って何なんだろうと思わなくもない。

教育とAI

  • Lost in Translation: Reimagining the Machine Learning Life Cycle in Education [12.8]
    機械学習(ML)技術は、教育においてますます普及している。 ML技術が長年の教育原則と目標をどのように支えているかを調べる必要がある。 本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。
    論文  参考訳(メタデータ)   (Thu, 8 Sep 2022 17:14:01 GMT)
    • 教育へのAI適用についてインタビューを行った結果をまとめた論文。社会実装に関わる課題、教育ということもあり倫理に関連する話題も多い。

SPACE-3: タスク指向の会話理解と生成

  • SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
    SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。 幅広いダウンストリームダイアログタスクを効果的に微調整できる。 その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 14:17:57 GMT)

F-COREF: 参照解決のためのソフトウェア

CommunityLM

  • CommunityLM: Probing Partisan Worldviews from Language Models [11.8]
    コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークを使用している。 当社のフレームワークでは、Twitter上の各コミュニティメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。 次に、対応するLMのプロンプトベース探索を用いて、2つのグループの世界観を評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 05:52:29 GMT)
    • 支持政党のデータを用いて言語モデルを作り、そのモデルへの質問と回答を通して状況を探ろうという研究。デジタルツインっぽくて興味深い。GPT-3よりも特化してモデルを作った方が良い結果。

Responsible AI Pattern Catalogue

  • Responsible AI Pattern Catalogue: A Multivocal Literature Review [13.2]
    MLR(Multivocal Literature Review)の結果に基づく応答性AIパターンカタログを提案する。 原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 00:00:06 GMT)
    • Responsible AIに関するサーベイ、よくまとまっており外部資料へのリンクが多いのがありがたい。

PaLI: Pathways Language and Image

  • PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
    PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:24:07 GMT)
    • 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
    • モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

CLIP-ViP

  • CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
    本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。 提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:47:02 GMT)

OmniVL

  • OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
    我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。 従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。 我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 17:59:59 GMT)
    • 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。