Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある

BrackishMOT

  • BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
    濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。 トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:02:36 GMT)
  • 海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) fish, (2) crab, (3) shrimp, (4) starfish, (5) small fish, (6) jellyfishが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
  • プロジェクトサイトはBrackishMOT | vap.aau.dk

AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

週刊ChatGPT

今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。

  • Cross-Lingual Summarization via ChatGPT [46.0]
    言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。 本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 01:27:37 GMT)
  • クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than fine-tuned methods but higher human evaluation scores.」との注釈がある。
  • Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
    本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。 我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 18:40:38 GMT)
  • 文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か(およびユーザから見てどのような違いがあるのか)を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
  • 使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)
  • Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
    翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 12:23:48 GMT)
  • LLMを用いた翻訳品質の評価方法GEMBA(GPT Estimation Metric Based Assessment)の提案。BLEUやCOMETより優れているとのこと。
  • プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
  • リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment
  • ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
    本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。 我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
    論文  参考訳(メタデータ)   (Sat, 25 Feb 2023 06:58:16 GMT)
  • ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
  • 様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot(or LLM + soft prompt)だとどの程度の性能になるのかは知りたいところ。

Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

AutoMLの実際

  • AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
    本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 17:06:46 GMT)
  • AutoMLの実践(課題と対策)についてインタビュー(19人)から整理した論文
  • 実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

信頼できるAIとCausality

  • A Review of the Role of Causality in Developing Trustworthy AI Systems [16.3]
    最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。 近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
    論文  参考訳(メタデータ)   (Tue, 14 Feb 2023 11:08:26 GMT)
  • Trustworthy AIに対する因果推論や因果モデリングの役割を整理したサーベイ
  • Interpretability、Fairness、Robustness、Privacy、Safety and Accountability(Auditing)に対する因果性の効果が整理されている

機械翻訳におけるScaling Law

  • Scaling Laws for Multilingual Neural Machine Translation [45.6]
    モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 18:43:24 GMT)
  • マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
  • staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

対話システムにおけるSafe, Rensponsible, Moralのサーベイ

  • Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey [51.8]
    安全・責任・モダル対話システム構築に向けた研究範囲の新たな視点を提示する。 本稿では,1)虐待的・有害な内容,2)不公平・差別,3)倫理的・道徳的問題,および4)誤認・プライバシー情報のリスクについて論じる。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 09:32:55 GMT)
  • 最近話題の対話システムに対して社会実装上避けては通れない要素のサーベイ
  • 5章のトレンドも参考になる
    • 1) explainable safety monitoring
    • 2) continuous learning of safety issues
    • 3) robustness against malicious attacks
    • 4) multimodal information processing
    • 5) unified research framework
    • 6) multidisciplinary theory integration