arXiv – ページ 131 – arXiv最新論文の紹介

SPACE-3: タスク指向の会話理解と生成

SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。幅広いダウンストリームダイアログタスクを効果的に微調整できる。その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 14:17:57 GMT)
- 大規模（AnPreDial ラベル付き3M、UnPreDial ラベル無し19M）な会話コーパスを用いたsemi-supervised pre-trained conversation modelの提案。バックボーンのモデルアーキテクチャはUniLMとのこと。
- リポジトリはDAMO-ConvAI/space-3 at main · AlibabaResearch/DAMO-ConvAI (github.com)

F-COREF: 参照解決のためのソフトウェア

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution [48.1]
我々は、高速で正確で使い易い英語の参照解決のためのpythonパッケージであるfastcorefを紹介した。モデルにより、V100 GPU上で2.8K OntoNotes文書を25秒で処理できる。
論文参考訳（メタデータ） (Mon, 12 Sep 2022 09:24:22 GMT)
- 代名詞や略称などを紐づけるcoreference resolutionためのパッケージ。
- リポジトリはshon-otmazgin/fastcoref (github.com)、FastCoref – a Hugging Face Space by pythiccoderにデモも存在。

CommunityLM

CommunityLM: Probing Partisan Worldviews from Language Models [11.8]
コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークを使用している。当社のフレームワークでは、Twitter上の各コミュニティメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。次に、対応するLMのプロンプトベース探索を用いて、2つのグループの世界観を評価する。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 05:52:29 GMT)
- 支持政党のデータを用いて言語モデルを作り、そのモデルへの質問と回答を通して状況を探ろうという研究。デジタルツインっぽくて興味深い。GPT-3よりも特化してモデルを作った方が良い結果。
- リポジトリはhjian42/CommunityLM: [COLING 2022]: CommunityLM: Probing Partisan Worldviews from Language Models (github.com)

Responsible AI Pattern Catalogue

Responsible AI Pattern Catalogue: A Multivocal Literature Review [13.2]
MLR(Multivocal Literature Review)の結果に基づく応答性AIパターンカタログを提案する。原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 00:00:06 GMT)
- Responsible AIに関するサーベイ、よくまとまっており外部資料へのリンクが多いのがありがたい。

PaLI: Pathways Language and Image

PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 17:24:07 GMT)
- 13BパラメータのmT5-XXL、2BパラメータのViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要（かつ大規模でないと厳しそう）という印象。
- モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

CLIP-ViP

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:47:02 GMT)
- CLIPをビデオ対応させる（画像モデルを最小限の変更でビデオドメインに適合させる）研究。MSR-VTTなど複数のデータセットでSoTAを主張。
- リポジトリはXPretrain/CLIP-ViP at main · microsoft/XPretrain (github.com)

OmniVL

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 17:59:59 GMT)
- 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。

コールセンターの会話における要約手法の比較

Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.3]
ラベル付きデータを必要とせず,比較的迅速かつ容易に本番環境に実装できる抽出型要約手法に注目した。そこで本稿では,これらの手法を用いて要約を生成し,客観的に評価することにより,実験的な比較を行った。 TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文参考訳（メタデータ） (Tue, 6 Sep 2022 13:16:02 GMT)
- 複数の抽出型要約手法の比較。LEAD-7が良いという衝撃の結果だが、基本となる統計値が無いので何とも言えない。。。
  - （この論文のfugumt.com的スコアが高いのはとても謎（summarization系だからかな））

Large-Population Systemのサーベイ

A Survey on Large-Population Systems and Scalable Multi-Agent Reinforcement Learning [18.9]
我々は、大規模人口システムを理解し分析するための現在のアプローチに光を当てる。我々は,大規模制御の応用の可能性を調査し,実践システムにおける学習アルゴリズムの有能な将来的応用について検討する。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 14:58:50 GMT)
- 非常に多くの対象がいるMulti-Agent Reinforcement Learning (MARL)のように大規模な参加者がいるシステムに関するサーベイ。

Diffusion Modelのサーベイ

A Survey on Generative Diffusion Model [75.5]
拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
論文参考訳（メタデータ） (Tue, 6 Sep 2022 16:56:21 GMT)
- 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ

Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。近年,拡散モデルの性能向上への熱意が高まっている。
論文参考訳（メタデータ） (Fri, 2 Sep 2022 02:59:10 GMT)

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31