staka – ページ 225 – arXiv最新論文の紹介

CiT: Curation in Training

CiT: Curation in Training for Effective Vision-Language Data [84.8]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 18:59:57 GMT)
近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Muse: Text-To-Image Generation via Masked Generative Transformers

Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 14:43:38 GMT)
mask-based trainingを用いたテキスト-画像モデルの提案。優れた（ImagenやDALL-E 2より上の）性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)

VALL-E

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 15:37:15 GMT)
最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

SparseGPT

Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 17:48:56 GMT)
one-shotなpruning手法の報告。OPTを対象にした実験では50％程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。

Parsing Objects at a Finer Granularity: A Survey

Parsing Objects at a Finer Granularity: A Survey [54.7]
微細な視覚解析は、農業、リモートセンシング、宇宙技術など、多くの現実世界の応用において重要である。卓越した研究努力は、異なるパラダイムに従って、これらのきめ細かいサブタスクに取り組む。我々は,パート関係を学習する新たな視点から,先進的な研究を深く研究する。
論文参考訳（メタデータ） (Wed, 28 Dec 2022 04:20:10 GMT)
単純な物体認識ではなくさらに細かく物体を識別を行うﬁne-grained recognition や part segmentationのサーベイ

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis [15.2]
ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 19:11:19 GMT)
大規模言語モデルから知識を得て小さなモデルを学習、ベースラインよりも優れた性能を達成、という報告。金融領域というのも興味深い。（本論ではないがPaLM＋CoTめっちゃ優秀やなという感想）

HybridQAのサーベイ

A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions [46.1]
表とテキストのハイブリッドな質問応答 (HybridQA) は、金融分野や科学分野に広く採用されているNLPタスクである。本稿では,現在のHybridQAベンチマークと手法を要約し,課題と今後の方向性について分析する。
論文参考訳（メタデータ） (Tue, 27 Dec 2022 12:34:57 GMT)
表+テキストを対象とした質問応答タスクのサーベイ
実用性が高いがまだまだ簡単ではないタスク

PropSegmEnt

PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.5]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 04:03:33 GMT)
entailment taskのデータセット、文内にもアノテーションがされていることが特徴できめ細かい、かつ、大規模
リポジトリはGitHub – google-research-datasets/PropSegmEnt: PropSegmEnt is an annotated dataset for segmenting English text into propositions, and recognizing proposition-level entailment relations – whether a different, related document entails each proposition, contradicts it, or neither. It consists of clusters of closely related documents from the news and Wikipedia domains.

A Survey of Face Recognition

A Survey of Face Recognition [25.6]
本稿では,その歴史,パイプライン,従来の手動設計機能やディープラーニングに基づくアルゴリズム,主流トレーニング,評価,データセット,関連するアプリケーションなど,顔認識について紹介する。我々は、できるだけ多くの最先端の作業を分析し比較し、またバックボーンサイズとデータ分布の影響を調べるために、実験セットを慎重に設計した。
論文参考訳（メタデータ） (Mon, 26 Dec 2022 08:36:58 GMT)

MixDA: Mix-based Data Augmentationのサーベイ

A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability [13.3]
データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。本研究では、MixDA (Mix-based Data Augmentation) が必須のサブセットについてレビューする。単一サンプルの操作やドメイン知識を必要とする従来のDAアプローチとは異なり、MixDAはより幅広い新しいデータを作成するのに一般的である。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 09:58:14 GMT)
データ拡張の中でも複数のデータを混合するアプローチであるMix-based Data Augmentation (MixDA)のサーベイ
リポジトリはGitHub – ChengtaiCao/Awesome-Mix: A curated list of awesome Mix

2026年5月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31