arXiv – ページ 173 – arXiv最新論文の紹介

BIC : グラフ構造を併用したボット検出

BIC: Twitter Bot Detection with Text-Graph Interaction and Semantic Consistency [22.5]
テキストとグラフのモダリティを深くインタラクティブにし、ツイートの意味的矛盾を検知するBICという新しいモデルを提案する。 BICには、ツイートからセマンティック一貫性情報を学ぶためのセマンティック一貫性検出モジュールが含まれている。われわれのフレームワークは、総合的なTwitterボットベンチマークの競争ベースラインを上回っている。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 14:34:40 GMT)
- テキスト情報だけでなくグラフ構造を併用、かつ共通のネットワークでTwitterのBot Detectionを行うという研究。

PromptIDE: プロンプト作成用のIDE

Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.3]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:17:53 GMT)
- ついに出た（？）自然言語処理で主流になりつつあるprompt用のIDE。著者にHugging Faceに所属している方がいるのも時代を感じる。
- プロジェクトサイトはInteractive PromptIDE (vizhub.ai)

LAM Dataset

The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 11:44:16 GMT)
- （人間でも読解困難と思われる）歴史的写本の文字認識データセット。
- プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 05:30:18 GMT)
- 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-ﬁgure（音声の説明から図を検索）、ﬁgure-to-text（図から音声の説明を検索）の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
- リポジトリはdondongwon/MLPDataset (github.com)

Instance As Identity: 新たなVideo Instance Segmentation

Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation [84.4]
我々はインスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。 IAIは、検出と追跡の両方の時間情報を効率的な方法でモデル化する。 3つのVISベンチマークで広範な実験を行う。
論文参考訳（メタデータ） (Fri, 5 Aug 2022 10:29:30 GMT)
時間情報（前フレームの情報、検出結果）を効率的に使うVIS手法の提案
リポジトリはGitHub – zfonemore/IAI: The official implementation of Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation.

Auto-ViT-Acc: FPGA用アクセラレーションフレームワーク

Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.2]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 05:54:46 GMT)
- FPGAの特性を考慮した高速化フレームワーク

リモートセンシングにおけるVision Transformer

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [98.0]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 09:31:40 GMT)
- Vitの活用事例であり、比較対象が多く参考になる。DOTA Benchmark (Object Detection In Aerial Images) | Papers With Codeなど多くのデータセットでSoTA。
- リポジトリはGitHub – ViTAE-Transformer/Remote-Sensing-RVSA: The official repo for the paper “Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model”

3D処理におけるVision transformerのサーベイ

3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 17:59:11 GMT)
- 3D処理でも非常に流行しているtransformerのサーベイ100以上の手法が調査対象とのことで非常に幅広い。
- プロジェクトサイトはGitHub – lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers

ROC（Re-creation of Creations）

ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 08:44:47 GMT)
- 歌詞からのメロディー生成、曲を小単位に分割して処理するなどpipelinedな処理っぽいとの印象
- リポジトリはGitHub – microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence

会議要約のサーベイ

Abstractive Meeting Summarization: A Survey [15.5]
本稿では,多人数会議における抽象的な要約に焦点を当てた。このタスクに関連する課題、データセット、システムに関する調査と、今後の研究に向けた有望な方向性に関する議論を提供する。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 14:04:38 GMT)
- 抽象型会議要約における最先端技術の概要をサーベイした論文、通常のsummatizationとの差などが良くわかる。
- 新しいデータセットがない印象を持っていたが、GitHub – guokan-shang/ami-and-icsi-corpora: AMI and ICSI Corpora in JSON format.というものがあることが分かってとても良かった。

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30