2022年10月 – arXiv最新論文の紹介

DiffusionDB

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models [14.3]
DiffusionDBは、最初の大規模なテキストと画像のプロンプトデータセットである。データセット内のプロンプトを分析し、これらのプロンプトの重要な特性について議論する。この人間の活動するデータセットの、前例のないスケールと多様性は、エキサイティングな研究機会を提供する。
論文参考訳（メタデータ） (Wed, 26 Oct 2022 17:54:20 GMT)
- 200万件のプロンプト・画像のペア。Stable Diffusion discord serverから取得されたとのこと。ライセンスはCC-0。
  - 画像生成のプロンプトは（生成モデルが用いたデータに共通部分が多いこともあって）使いまわせる要素がある。傾向分析には有用そう。
- プロジェクトサイトはHome – DiffusionDB (poloclub.github.io)

FCM: Forgetful Causal Masking

FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文参考訳（メタデータ） (Mon, 24 Oct 2022 17:46:57 GMT)
- インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告

Breaking Bad: A Dataset for Geometric Fracture and Reassembly

Breaking Bad: A Dataset for Geometric Fracture and Reassembly [47.2]
本稿では,破壊対象の大規模データセットであるBreaking Badを紹介する。私たちのデータセットは、1万のベースモデルからシミュレートされた100万以上の破砕物で構成されています。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 17:57:19 GMT)
- オブジェクトとそれが破壊された時のデータセット
- プロジェクトサイトはBreaking Bad Dataset (breaking-bad-dataset.github.io)

Doc2Bot

Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots [103.5]
Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 07:33:05 GMT)
- 会話を通じた情報検索（DGDS: document-grounded dialog system）を支援するためのデータセット。中国語のデータ。
- リポジトリはDoc2Bot/Doc2Bot (github.com)

A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture

A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture [10.0]
制御環境農業(CEA)は多くの経済的、環境的、社会的利益を提供している。 CEAは、植物状態のリアルタイムモニタリングの採用において、コンピュータビジョン(CV)とうまく結合する。本論文は,CV研究者に農業応用と農業従事者に,CVが提供するソリューションを親しんだものである。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 14:51:01 GMT)
Controlled-environment Agricultureにおけるコンピュータービジョン利用(CV4CEA)のサーベイ。

LAION-5B

LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (Sun, 16 Oct 2022 00:08:18 GMT)
- Stable Diffusionでも使用されている大規模データセット
- プロジェクトサイトはLAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION

TabLLM

TabLLM: Few-shot Classification of Tabular Data with Large Language Models [66.0]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文参考訳（メタデータ） (Wed, 19 Oct 2022 17:08:13 GMT)
- 大規模言語モデルを用いたテーブルデータ処理。（現実的に使えるかは置いておいて）few-shot設定では優れた性能。言語モデルで取り扱えるようにする過程で情報が与えられているようにも思うが、これはこれで新たなモデル構築のように見えなくもない。

Summary Workbench

Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
論文参考訳（メタデータ） (Tue, 18 Oct 2022 04:47:25 GMT)
- 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
- プロジェクトサイトはSummary Workbench (webis.de)

BIG-Bench Hard

Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:08:26 GMT)
- BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
  - CoTめっちゃ強力…
- プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)

Vision-Language Pre-training

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.3]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:11:36 GMT)
- 画像-言語のマルチモーダルモデルに対する極めて詳細なサーベイ

2022年10月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31