staka – ページ 84 – arXiv最新論文の紹介

PromptTTS / PromptSpeechデータセット

PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文参考訳（メタデータ） (Tue, 22 Nov 2022 10:58:38 GMT)
テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research

Prompting PaLM for Translation

Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文参考訳（メタデータ） (Wed, 16 Nov 2022 18:42:37 GMT)
- 機械翻訳へのPaLM適用の取り組み
- 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。（及ばないとはいえ善戦とはいえるような気はしないでもない）

Retrieval-Augmented CM3 (RA-CM3)

Retrieval-Augmented Multimodal Language Modeling [176.9]
Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
論文参考訳（メタデータ） (Tue, 22 Nov 2022 20:26:44 GMT)
- 外部メモリを参照しながら生成等を行えるモデルの提案
- ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

Fairness Increases Adversarial Vulnerability

Fairness Increases Adversarial Vulnerability [50.9]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文参考訳（メタデータ） (Wed, 23 Nov 2022 01:46:22 GMT)
公平性と頑健性はトレードオフの関係にあり、良好なポイントを見つけるための手法を提案している。ある程度解決策も提案されているとはいえ、性能はともかく頑健性が落ちるのはつらいなーと思う。

CLEVER: CKE as a distantLy supErVised multi-instancE leaRning

Visually Grounded Commonsense Knowledge Acquisition [132.4]
大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
論文参考訳（メタデータ） (Tue, 22 Nov 2022 07:00:16 GMT)
vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
リポジトリはthunlp/CLEVER (github.com)

Versatile Diffusion

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
論文参考訳（メタデータ） (Tue, 15 Nov 2022 17:44:05 GMT)
text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)

Open-Domain Conversational Question Answering with Historical Answers

Open-Domain Conversational Question Answering with Historical Answers [29.8]
本稿では,過去の回答を利用して検索性能を向上させるConvADR-QAを提案する。提案手法では,学習者側が学習者側から発する雑音を低減させるため,学習者側で学習者側で学習を行う。ベンチマークデータセットOR-QuACを用いた実験では,抽出および生成の両方において,既存のベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 08:20:57 GMT)
過去の回答を使いながら性能を向上させるQA手法の提案。対話の文脈を一定程度考慮できるようで興味深い。
リポジトリはhttps://github.com/MiuLab/ConvADR-QAとのことだが、現時点では404

QAmeleon: Multilingual QA with Only 5 Examples

QAmeleon: Multilingual QA with Only 5 Examples [71.8]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文参考訳（メタデータ） (Tue, 15 Nov 2022 16:14:39 GMT)
多言語QAモデル実現のための合成データ作成においてPLM＋promptを使う手法の提案

UniSummとSummZoo

UniSumm: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning [54.6]
UniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。 SummZooは、数ショットの要約システムを評価するための新しいベンチマークである。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 18:54:47 GMT)
マイクロソフトによるfew shot要約モデルとベンチマークの提案
PEGASUSなどと比べても非常に高い性能、few shot設定は実用上も重要なので注目したい
プロジェクトサイトはmicrosoft/UniSumm: UNISUMM: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning (github.com)

PAL: Program-aided Language Models

PAL: Program-aided Language Models [112.9]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (Fri, 18 Nov 2022 18:56:13 GMT)
LLMにより問題を読み、中間推論用のプログラムを出力、それを実行することにより問題を解く方法（PAL: Program-Aided Language models ）を提案。GSM8Kなど多くのベンチマークで chain-of-thoughtを超え、SoTAとのこと。
プロジェクトサイトはPAL: Program-aided Language Models (reasonwithpal.com)

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30