arXiv – ページ 170 – arXiv最新論文の紹介

Customized Prompts via Language models

What does a platypus look like? Generating customized prompts for zero-shot image classification [47.8]
本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 17:27:08 GMT)
- 大規模言語モデルからの知識を用いてゼロショット画像分類モデルの精度を上げるアプローチ。手作業で作成する部分をGPT-3のような大規模言語モデルに代替させるのはとても良さそう。
- リポジトリはsarahpratt/CuPL (github.com)

YOLOv6、YOLOv7

YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [16.0]
YOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達する。 YOLOv6-S は 495 FPS で 43.5% AP を攻撃し、他の主流検出器を同じ規模で上回っている。 YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 07:47:58 GMT)
- YOLOv6の論文。オリジナルのYOLO作者によるものではなく、作者の許可を得て命名しているとのこと。比較が難しいがYOLOv7を含む他の手法より優れている状況も多そう。
- リポジトリはmeituan/YOLOv6: YOLOv6: a single-stage object detection framework dedicated to industrial applications. (github.com)

YOLOv7は↓

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [14.2]
YOLOv7は5FPSから160FPSまでの速度と精度で、既知の全ての物体検出器を上回っている。 YOLOv7は、GPU V100上で30FPS以上の実時間オブジェクト検出器の中で、最高精度の56.8%のAPを持つ。 YOLOv7は、他のデータセットやトレーニング済みの重みを使わずに、スクラッチからMSデータセットにのみトレーニングします。
論文参考訳（メタデータ） (Wed, 6 Jul 2022 14:01:58 GMT)
- リポジトリはWongKinYiu/yolov7: Implementation of paper – YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (github.com)

A Compact Pretraining Approach for Neural Language Models

A Compact Pretraining Approach for Neural Language Models [21.8]
事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 00:54:42 GMT)
- 要約結果＆重要なキーワードの組み合わせにより全データ＆ランダムマスクな方針よりも高速に学習（ターゲットドメインへの適合）ができるとの報告
  - ドメインを合わせるために重要な部分のみを使うというのは直感的には良さそうな方針に思えるがBART要約 & KeyBERTで作ってそうなるのかはどうなんだろう。実験結果ではランダムマスクに勝っているのでうまく動いているっぽいが。。。
- リポジトリはshahriargolchin/compact-pretraining (github.com)

Efficient Methods for Natural Language Processing: A Survey

Efficient Methods for Natural Language Processing: A Survey [48.1]
結果を改善するためにスケールのみを使用するということは、リソース消費もスケールすることを意味します。本研究は,NLPにおけるこれらの効率性における方法と知見を関連づけ,合成するものである。
論文参考訳（メタデータ） (Wed, 31 Aug 2022 20:32:35 GMT)
- 自然言語処理の効率化について、データ、モデル設計、学習、推論・圧縮の面でーサーベイした論文。

CounTR: Counting TRansformer

CounTR: Transformer-based Generalised Visual Counting [94.5]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 17:02:45 GMT)
- Few-shotのように事例を与えることで任意のオブジェクトをカウントできる手法の提案。 FSC-147でSoTAを主張。
- プロジェクトサイトはCounTR: Transformer-based Generalised Visual Counting (verg-avesta.github.io)

Expert systemとニューラルネットの組み合わせによる音楽生成

MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks [146.6]
MeloFormは、エキスパートシステムとニューラルネットワークを使用して、音楽形式でメロディを生成するシステムである。詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。
論文参考訳（メタデータ） (Tue, 30 Aug 2022 15:44:15 GMT)
- エキスパートシステムとニューラルネットと新旧の技術を組み合わせたという印象もある音楽生成フレームワーク。楽式の制御はエキスパートシステムで行い、表現力の向上をTransformer系のモデルで行っているよう。
  - 実務上（問題や場所によっては）ルールベースが有効なことは多いので音楽生成のような分野でもそういうことがあるのだろうと感じた。
- プロジェクトサイトはMeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks (ai-muzic.github.io)

Text-to-SQL Parsingのサーベイ

A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.9]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語(SQL)に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 14:24:13 GMT)
- Text-to-SQLの研究についてのサーベイ。データ作成、ベンチマーク、モデルを整理、コンテキスト依存か否かが大きな整理軸になっている。引用数が100を超えており様々な手法が提案されていることが分かる。

MotionDiffuse: 拡散モデルでのモーション生成

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (Wed, 31 Aug 2022 17:58:54 GMT)
- テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。（ややニッチかもだが）画像生成の次に流行ったりするのだろうか。
- プロジェクトサイトはMotionDiffuse (mingyuan-zhang.github.io)

MAPLE: Masked Pseudo-Labeling autoEncoder

MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition [160.5]
本稿では,Pseudo-Labeling autoEncoder (MAPLE) フレームワークを提案する。特に、MAPLEのバックボーンとして、新規で効率的なDecoupled spatial-temporal TransFormer(DestFormer)を設計する。 MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文参考訳（メタデータ） (Thu, 1 Sep 2022 12:32:40 GMT)
- point cloudのビデオから人間の行動を認識する場合は大量の手動アノテーション・大量のデータ・高い計算コストが必要。半教師有りのフレームワークでこれらのコストを削減し、かつ、高い性能を達成したとの報告。
- プロジェクトサイトはMAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition (xiaodongchen.cn)

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30