コンテンツへスキップ
- FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network [55.5]
高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。 FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。 食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 10 Aug 2021 12:47:04 GMT)
- Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (Mon, 9 Aug 2021 13:25:06 GMT) - テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
- プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/
- I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。 本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。 実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
論文 参考訳(メタデータ) (Wed, 4 Aug 2021 05:24:30 GMT) - 赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
- コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。
- Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。 各テストサンプルは、トレーニングセットの支持データで予測可能である。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (Tue, 3 Aug 2021 09:51:15 GMT)- Link Prediction、Triple Classificationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
- リポジトリはhttps://github.com/TaoMiner/inferwiki
- EmailSum: Abstractive Email Thread Summarization [105.5]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文 参考訳(メタデータ) (Fri, 30 Jul 2021 15:13:14 GMT) - メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
- リポジトリはhttps://github.com/ZhangShiyue/EmailSum
- QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
論文 参考訳(メタデータ) (Tue, 27 Jul 2021 10:09:13 GMT)- 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目(1位は英語、2位は中国語、3位はロシア語)に多いとのこと。
- When a crisis strikes: Emotion analysis and detection during COVID-19 [96.0]
感情をラベル付けした1万ツイートのCovidEmoを紹介します。 事前学習された言語モデルがドメインや危機をまたいでどのように一般化するかを検討する。
論文 参考訳(メタデータ) (Fri, 23 Jul 2021 04:07:14 GMT)
- QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
論文 参考訳(メタデータ) (Tue, 20 Jul 2021 16:42:58 GMT)
- MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 17:54:36 GMT) - マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
- Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
- Healthcare: MIMIC
- Robotics: MuJoCo Push, Vision & Touch
- Finance: Stocks-food, Stocks-health, Stocks-tech
- HCI: ENRICO
- Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
- 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
- https://cmu-multicomp-lab.github.io/multibench/ と https://github.com/pliang279/MultiBench が公式サイト&リポジトリ
- On the Evaluation of Commit Message Generation Models: An Experimental Study [33.2]
コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。 本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
論文 参考訳(メタデータ) (Tue, 13 Jul 2021 02:04:53 GMT)