コンテンツへスキップ
- Fairness Increases Adversarial Vulnerability [50.9]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。 非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。 フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (Wed, 23 Nov 2022 01:46:22 GMT)
- 公平性と頑健性はトレードオフの関係にあり、良好なポイントを見つけるための手法を提案している。ある程度解決策も提案されているとはいえ、性能はともかく頑健性が落ちるのはつらいなーと思う。
- Visually Grounded Commonsense Knowledge Acquisition [132.4]
大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 07:00:16 GMT)
- vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
- リポジトリはthunlp/CLEVER (github.com)
- Open-Domain Conversational Question Answering with Historical Answers [29.8]
本稿では,過去の回答を利用して検索性能を向上させるConvADR-QAを提案する。 提案手法では,学習者側が学習者側から発する雑音を低減させるため,学習者側で学習者側で学習を行う。 ベンチマークデータセットOR-QuACを用いた実験では,抽出および生成の両方において,既存のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 08:20:57 GMT)
- 過去の回答を使いながら性能を向上させるQA手法の提案。対話の文脈を一定程度考慮できるようで興味深い。
- リポジトリはhttps://github.com/MiuLab/ConvADR-QAとのことだが、現時点では404
- QAmeleon: Multilingual QA with Only 5 Examples [71.8]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 16:14:39 GMT)
- 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案
- PAL: Program-aided Language Models [112.9]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。 私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (Fri, 18 Nov 2022 18:56:13 GMT)
- LLMにより問題を読み、中間推論用のプログラムを出力、それを実行することにより問題を解く方法(PAL: Program-Aided Language models )を提案。GSM8Kなど多くのベンチマークで chain-of-thoughtを超え、SoTAとのこと。
- プロジェクトサイトはPAL: Program-aided Language Models (reasonwithpal.com)
- Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:59:52 GMT)
- 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
- リポジトリはfundamentalvision/Uni-Perceiver (github.com)
- ArcAid: Analysis of Archaeological Artifacts using Drawings [16.1]
考古学はコンピュータビジョンの興味深い分野である。 ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。 本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 11:57:01 GMT)
- 考古学への機械学習関連手法の適用。ここでは半教師付き学習を活用し分類モデルを構築している。
- この分野では「データ不足」「オブジェクトの劣化や破損」「(手作りによる)オブジェクトの一貫性の欠如」に悩まされるとのこと。作り直してもらうこともできないのでとても大変そうという印象。
- InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:58:43 GMT)
- 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
- プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い