Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

Fairness Increases Adversarial Vulnerability 

  • Fairness Increases Adversarial Vulnerability [50.9]
    フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。 非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。 フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 01:46:22 GMT)
  • 公平性と頑健性はトレードオフの関係にあり、良好なポイントを見つけるための手法を提案している。ある程度解決策も提案されているとはいえ、性能はともかく頑健性が落ちるのはつらいなーと思う。

CLEVER: CKE as a distantLy supErVised multi-instancE leaRning

  • Visually Grounded Commonsense Knowledge Acquisition [132.4]
    大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 07:00:16 GMT)
  • vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
  • リポジトリはthunlp/CLEVER (github.com)

Versatile Diffusion

  • Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
    近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。 既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 17:44:05 GMT)
  • text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
  • リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)

Open-Domain Conversational Question Answering with Historical Answers

  • Open-Domain Conversational Question Answering with Historical Answers [29.8]
    本稿では,過去の回答を利用して検索性能を向上させるConvADR-QAを提案する。 提案手法では,学習者側が学習者側から発する雑音を低減させるため,学習者側で学習者側で学習を行う。 ベンチマークデータセットOR-QuACを用いた実験では,抽出および生成の両方において,既存のベースラインよりも優れた性能を示した。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 08:20:57 GMT)
  • 過去の回答を使いながら性能を向上させるQA手法の提案。対話の文脈を一定程度考慮できるようで興味深い。
  • リポジトリはhttps://github.com/MiuLab/ConvADR-QAとのことだが、現時点では404

QAmeleon: Multilingual QA with Only 5 Examples 

  • QAmeleon: Multilingual QA with Only 5 Examples [71.8]
    数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 16:14:39 GMT)
  • 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案

UniSummとSummZoo

PAL: Program-aided Language Models 

  • PAL: Program-aided Language Models [112.9]
    自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。 私たちは12のベンチマークで新しい最先端の結果を設定しました。
    論文  参考訳(メタデータ)   (Fri, 18 Nov 2022 18:56:13 GMT)
  • LLMにより問題を読み、中間推論用のプログラムを出力、それを実行することにより問題を解く方法(PAL: Program-Aided Language models )を提案。GSM8Kなど多くのベンチマークで chain-of-thoughtを超え、SoTAとのこと。
  • プロジェクトサイトはPAL: Program-aided Language Models (reasonwithpal.com)

Uni-Perceiver v2

  • Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
    大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:59:52 GMT)
  • 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
  • リポジトリはfundamentalvision/Uni-Perceiver (github.com)

ArcAid: Analysis of Archaeological Artifacts using Drawings

  • ArcAid: Analysis of Archaeological Artifacts using Drawings [16.1]
    考古学はコンピュータビジョンの興味深い分野である。 ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。 本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 11:57:01 GMT)
  • 考古学への機械学習関連手法の適用。ここでは半教師付き学習を活用し分類モデルを構築している。
  • この分野では「データ不足」「オブジェクトの劣化や破損」「(手作りによる)オブジェクトの一貫性の欠如」に悩まされるとのこと。作り直してもらうこともできないのでとても大変そうという印象。