A Roadmap for Big Model

  • A Roadmap for Big Model [390.6]
    BMの全般的な進歩を整理し、フォローアップ研究を導く研究成果の欠如がある。 本稿では,BM技術そのものだけでなく,BM訓練やBM応用の前提条件についても述べる。 データ,知識,コンピュータシステム,並列学習システム,言語モデル,ビジョンモデル,マルチモーダルモデル,理論と解釈可能性,常識推論,信頼性とセキュリティ,ガバナンス,評価,機械翻訳,テキスト生成,対話,タンパク質研究の4分野に16のBM関連トピックを紹介する。
    論文  参考訳(メタデータ)   (Sat, 26 Mar 2022 15:38:00 GMT)
    • 様々な分野での大規模モデルに関する包括的な論文(サーベイ)。100人近くの著者、本文140ページ、引用数1637と大作。全部読むのは大変だが、興味のある分野のみの参照でもとても参考になるものだと思う。

Cross-Lingual Summarizationのサーベイ

  • A Survey on Cross-Lingual Summarization [43.9]
    言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。 グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。 この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 16:24:21 GMT)
    • クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
      • 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

Delta Tuning: 事前学習モデルの効率的なチューニング

  • Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
    標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Mon, 14 Mar 2022 07:56:32 GMT)

自動運転におけるSemantic AI Securityのサーベイ

  • SoK: On the Semantic AI Security in Autonomous Driving [34.5]
    自律運転システムは、安全と運転判断の正しさをAIコンポーネントに依存している。 このようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、非自明なセマンティックギャップに対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義しsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 12:00:34 GMT)
    • 単一コンポーネントの脆弱性がシステム全体に影響を及ぼすかは自明ではなく、System-to-AIとAI-to-Systemの2つのギャップがある。このような研究をsemantic AI securityと呼び、そのサーベイを実施したとのこと。
    • 自動運転のセキュリティに関する良いサーベイでもあり非常に参考になる。
    • プロジェクトサイトはAD & CV Systems Security – PASS (google.com)

自然言語生成における忠実性の問題に関するサーベイ

  • Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods [48.5]
    自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。 しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
    論文  参考訳(メタデータ)   (Thu, 10 Mar 2022 08:28:32 GMT)
    • NLGを行う上で「fluency (流暢か)」「informativeness (有用なものか)」「controllability (制御できるか)」「faithfulness (入力に忠実か)」などが課題となる。テンプレート方式ではfaithfulnessを満たしやすいが近年の言語モデルを用いたNLGではこれを満たすことは簡単ではない。このサーベイではfaithfulnessに注目して評価や最適化手法をまとめている。NLG一般のサーベイとしても有用な印象。

Vision-Language Intelligenceのサーベイ

  • Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
    本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 18:54:59 GMT)
    • Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。

Video Question Answeringのサーベイ

  • Video Question Answering: Datasets, Algorithms and Challenges [99.9]
    Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Mar 2022 16:34:09 GMT)
    • Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

医療画像におけるTransformerのサーベイ

  • Transformers in Medical Image Analysis: A Review [46.7]
    本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。 具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。 第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 24 Feb 2022 16:04:03 GMT)
    • 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題(parallelization, interpretability, quantification and safetyが挙げられている)に焦点を当てたものは少ないとのこと。
      • ドメイン特化型のアーキテクチャは少ない?

Affective Generation Modelのサーベイ

  • A Review of Affective Generation Models [8.0]
    アフェクティブ・コンピューティング(Affective Computing)は、人間の感情状態を分析し、認識し、影響を及ぼす計算システムを開発する分野である。 一般に、感情認識と感情生成の2つのサブプロブレムに分けられる。感情認識は過去10年間に何回もレビューされてきた。 しかし、感情生成は批判的なレビューを欠いている。 この研究は、将来の感情発生の研究に役立つと考えられている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Feb 2022 09:32:11 GMT)
    • 感情生成に関するサーベイ。感情を伴うテキスト、音声、表情、動きの生成について扱っている。
      • 分かったような分からないような・・・という感想だが、様々なトライがあり興味深い。

Multimodal Deep Learningのサーベイ

  • A Review on Methods and Applications in Multimodal Deep Learning [8.2]
    マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Feb 2022 13:50:44 GMT)
    • 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
      • ただ、MMDLという略称はあまり見ないような・・・