FinQA: 財務データに対する質問回答

  • FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
    我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 00:08:14 GMT)
    • 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
      • 専門家によるアノテーションの重要性が分かる結果な気がする。

Lyra: Turducken-Styleのコード生成ベンチマーク

  • Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
    ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 27 Aug 2021 07:22:55 GMT)
    • Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
    • リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra

N15News: マルチモーダルなデータセット

  • N15News: A New Dataset for Multimodal News Classification [7.8]
    我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 15:46:09 GMT)
  • マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
  • データはPDFからGoogle driveで共有されている。

AVATAR (jAVA-pyThon progrAm tRanslation): Java/Pythonのパラレルコーパス

  • AVATAR: A Parallel Corpus for Java-Python Program Translation [37.0]
    我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。 我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:44:20 GMT)
    • JAVA/Pythonのパラレルコーパスを収集、このデータを用いて言語間変換を行うという論文。構文やデータフローを正確に変換するのは簡単ではないとのこと。
      • 構文が厳格なプログラミング言語とそうでない自然言語のどちらの変換が容易かは謎で興味深い。
    • リポジトリはhttps://github.com/wasiahmad/AVATAR

BID(Blind Image Decomposition)タスクのベンチマーク

  • Blind Image Decomposition [53.8]
    本稿では,Blind Image Decomposition (BID)について述べる。 雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。 本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
    論文  参考訳(メタデータ)   (Wed, 25 Aug 2021 17:37:19 GMT)
    • 雨や靄など重ねあった画像を分離するタスクの提案。プロジェクトサイトの画像が分かりやすい。この論文では「Mixed image decomposition across multiple domains(ドメインの異なる画像を混ぜたものからの分解)」「Real-scenario deraining(CityScapeデータセットの画像に雨や水滴、雪のマスクを適用したものを分解)」「Joint shadow/reflection/watermark removal(SRDISTDをベースとしてreflectionを適用、watermark部分はLVW)」と3つのタスクを提案、BIDeNというベースラインを構築している。
    • プロジェクトサイトはhttps://junlinhan.github.io/projects/BID.html、リポジトリはhttps://github.com/JunlinHan/BID

ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

  • LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
    ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:52:32 GMT)
    • 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
    • ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
      • FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

DeepFake MNIST+

  • DeepFake MNIST+: A DeepFake Facial Animation Dataset [33.7]
    我々は,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。 顔のアニメーションビデオ1万本を10種類のアクションで撮影する。
    論文  参考訳(メタデータ)   (Wed, 18 Aug 2021 02:37:17 GMT)
    • VoxCeleb1 Datasetから作られたビデオデータセット。1万本の元データから10種類のアクションを適用して10万本の顔のアニメーション動画にしているとのこと。著者らの試行ではビデオの圧縮率が検出性能に大きな影響を与えたとのこと。
    • リポジトリはhttps://github.com/huangjiadidi/DeepFakeMnist

データセットの価格

  • Data Pricing in Machine Learning Pipelines [6.7]
    マシンラーニングパイプラインでは,3つの重要なステップで価格設定に重点を置いています。 データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。 また、機械学習モデルの協調トレーニングの段階における価格についても検討する。
    論文  参考訳(メタデータ)   (Wed, 18 Aug 2021 00:57:06 GMT)
    • machine learning pipeline(生データの収集、ラベリング、(協調した)学習、モデル自体)を価格に注目して整理した論文。データの価格には様々な要素があることが示され一筋縄ではいかないことが分かる。

MMChat: Multi-Modal Chat Dataset

  • MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
    MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 15:27:49 GMT)
    • マルチモーダルな対話データセット。120K対話、200K画像と大規模。
    • 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。

時間に鋭敏なQAデータセット

  • A Dataset for Answering Time-Sensitive Questions [89.0]
    時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。 時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。 既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
    論文  参考訳(メタデータ)   (Fri, 13 Aug 2021 16:42:25 GMT)
    • 時間に鋭敏なQAデータセットとのことで、「長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要がある」「比較、加算、減算のような時間的推論を行う必要がある」データセットとして設計されているとのこと。現状SOTAのモデル(BigBirdやFiD)でも全く人間に及ばない性能しか出せないとのことで難しいデータセットになっている。
    • リポジトリはhttps://github.com/wenhuchen/Time-Sensitive-QAとのことだが、現時点では404