データセット – ページ 27 – arXiv最新論文の紹介

AVATAR (jAVA-pyThon progrAm tRanslation): Java/Pythonのパラレルコーパス

AVATAR: A Parallel Corpus for Java-Python Program Translation [37.0]
我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:44:20 GMT)
- JAVA/Pythonのパラレルコーパスを収集、このデータを用いて言語間変換を行うという論文。構文やデータフローを正確に変換するのは簡単ではないとのこと。
  - 構文が厳格なプログラミング言語とそうでない自然言語のどちらの変換が容易かは謎で興味深い。
- リポジトリはhttps://github.com/wasiahmad/AVATAR

BID(Blind Image Decomposition)タスクのベンチマーク

Blind Image Decomposition [53.8]
本稿では,Blind Image Decomposition (BID)について述べる。雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
論文参考訳（メタデータ） (Wed, 25 Aug 2021 17:37:19 GMT)
- 雨や靄など重ねあった画像を分離するタスクの提案。プロジェクトサイトの画像が分かりやすい。この論文では「Mixed image decomposition across multiple domains（ドメインの異なる画像を混ぜたものからの分解）」「Real-scenario deraining（CityScapeデータセットの画像に雨や水滴、雪のマスクを適用したものを分解）」「Joint shadow/reﬂection/watermark removal（SRD、ISTDをベースとしてreflectionを適用、watermark部分はLVW）」と3つのタスクを提案、BIDeNというベースラインを構築している。
- プロジェクトサイトはhttps://junlinhan.github.io/projects/BID.html、リポジトリはhttps://github.com/JunlinHan/BID

ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:52:32 GMT)
- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ（LayoutReader）でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
  - FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

DeepFake MNIST+

DeepFake MNIST+: A DeepFake Facial Animation Dataset [33.7]
我々は,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。顔のアニメーションビデオ1万本を10種類のアクションで撮影する。
論文参考訳（メタデータ） (Wed, 18 Aug 2021 02:37:17 GMT)
- VoxCeleb1 Datasetから作られたビデオデータセット。1万本の元データから10種類のアクションを適用して10万本の顔のアニメーション動画にしているとのこと。著者らの試行ではビデオの圧縮率が検出性能に大きな影響を与えたとのこと。
- リポジトリはhttps://github.com/huangjiadidi/DeepFakeMnist

データセットの価格

Data Pricing in Machine Learning Pipelines [6.7]
マシンラーニングパイプラインでは,3つの重要なステップで価格設定に重点を置いています。データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。また、機械学習モデルの協調トレーニングの段階における価格についても検討する。
論文参考訳（メタデータ） (Wed, 18 Aug 2021 00:57:06 GMT)
- machine learning pipeline（生データの収集、ラベリング、（協調した）学習、モデル自体）を価格に注目して整理した論文。データの価格には様々な要素があることが示され一筋縄ではいかないことが分かる。

MMChat: Multi-Modal Chat Dataset

MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文参考訳（メタデータ） (Mon, 16 Aug 2021 15:27:49 GMT)
- マルチモーダルな対話データセット。120K対話、200K画像と大規模。
- 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。

時間に鋭敏なQAデータセット

A Dataset for Answering Time-Sensitive Questions [89.0]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文参考訳（メタデータ） (Fri, 13 Aug 2021 16:42:25 GMT)
- 時間に鋭敏なQAデータセットとのことで、「長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要がある」「比較、加算、減算のような時間的推論を行う必要がある」データセットとして設計されているとのこと。現状SOTAのモデル（BigBirdやFiD）でも全く人間に及ばない性能しか出せないとのことで難しいデータセットになっている。
- リポジトリはhttps://github.com/wenhuchen/Time-Sensitive-QAとのことだが、現時点では404

FoodLogoDet-1500：大規模な食品ロゴのデータセット

FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network [55.5]
高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。 FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 10 Aug 2021 12:47:04 GMT)
- 食品のロゴをアノテーションしたデータセット。15Kカテゴリ、100K画像、150Kオブジェクトと大規模。著者らはMFDNetというモデルを提案、他の様々な手法に比べて優れていたと報告している。
- リポジトリはhttps://github.com/hq03/FoodLogoDet-1500-Dataset、現時点ではデータはアップロードされていないよう。

CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (Mon, 9 Aug 2021 13:25:06 GMT)
テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

I2V-GAN:infrared-to-visible-GAN、赤外線映像から可視光映像への変換

I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
論文参考訳（メタデータ） (Wed, 4 Aug 2021 05:24:30 GMT)
赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31