コンテンツへスキップ
- Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [98.0]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。 具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。 検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (Wed, 10 Aug 2022 09:31:40 GMT)
- 3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (Mon, 8 Aug 2022 17:59:11 GMT)
- ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
論文 参考訳(メタデータ) (Thu, 11 Aug 2022 08:44:47 GMT)
- Abstractive Meeting Summarization: A Survey [15.5]
本稿では,多人数会議における抽象的な要約に焦点を当てた。 このタスクに関連する課題、データセット、システムに関する調査と、今後の研究に向けた有望な方向性に関する議論を提供する。
論文 参考訳(メタデータ) (Mon, 8 Aug 2022 14:04:38 GMT)
- LAMDA-SSL: Semi-Supervised Learning in Python [56.1]
LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。 このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
論文 参考訳(メタデータ) (Tue, 9 Aug 2022 09:06:48 GMT)
- ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (Thu, 11 Aug 2022 03:44:02 GMT)
- Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.8]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。 本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (Thu, 11 Aug 2022 02:57:30 GMT)
- Prompt Tuning for Generative Multimodal Pretrained Models [75.4]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。 実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。 微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文 参考訳(メタデータ) (Thu, 4 Aug 2022 08:56:38 GMT)
- Effidit: Your AI Writing Assistant [60.6]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。 Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (Wed, 3 Aug 2022 02:24:45 GMT)- Effidit(Efficient and Intelligent Editing)の論文、テキスト補間など便利な様々な機能が使える環境。オンラインデモも存在する。
- プロジェクトサイトはEffidit (qq.com)
- ferret: a Framework for Benchmarking Explainers on Transformers [12.1]
我々は、Hugging Face Hubと統合されたTransformerベースのモデルを説明するために、使いやすいPythonライブラリであるferretを紹介した。 統一されたベンチマークスイートを提供し、あらゆるテキストや解釈可能性コーパスの幅広い最先端の説明をテストし比較する。
論文 参考訳(メタデータ) (Tue, 2 Aug 2022 16:21:42 GMT)