リモートセンシングにおけるVision Transformer

3D処理におけるVision transformerのサーベイ

  • 3D Vision with Transformers: A Survey [114.9]
    自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
    論文  参考訳(メタデータ)   (Mon, 8 Aug 2022 17:59:11 GMT)

ROC(Re-creation of Creations)

  • ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
    ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 08:44:47 GMT)

会議要約のサーベイ

  • Abstractive Meeting Summarization: A Survey [15.5]
    本稿では,多人数会議における抽象的な要約に焦点を当てた。 このタスクに関連する課題、データセット、システムに関する調査と、今後の研究に向けた有望な方向性に関する議論を提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Aug 2022 14:04:38 GMT)

LAMDA-SSL: Semi-Supervised Learning in Python

  • LAMDA-SSL: Semi-Supervised Learning in Python [56.1]
    LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。 このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
    論文  参考訳(メタデータ)   (Tue, 9 Aug 2022 09:06:48 GMT)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI

顔画像の表情変化動画の作成

  • Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.8]
    本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。 本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 02:57:30 GMT)

生成型マルチモーダルモデルへのPrompt Tuning

Effidit: Your AI Writing Assistant

  • Effidit: Your AI Writing Assistant [60.6]
    Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。 Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
    論文  参考訳(メタデータ)   (Wed, 3 Aug 2022 02:24:45 GMT)
    • Effidit(Efficient and Intelligent Editing)の論文、テキスト補間など便利な様々な機能が使える環境。オンラインデモも存在する。
    • プロジェクトサイトはEffidit (qq.com)

ferret: a Framework for Benchmarking Explainers on Transformers

  • ferret: a Framework for Benchmarking Explainers on Transformers [12.1]
    我々は、Hugging Face Hubと統合されたTransformerベースのモデルを説明するために、使いやすいPythonライブラリであるferretを紹介した。 統一されたベンチマークスイートを提供し、あらゆるテキストや解釈可能性コーパスの幅広い最先端の説明をテストし比較する。
    論文  参考訳(メタデータ)   (Tue, 2 Aug 2022 16:21:42 GMT)