Lyra: Turducken-Styleのコード生成ベンチマーク

  • Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
    ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 27 Aug 2021 07:22:55 GMT)
    • Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
    • リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra

BID(Blind Image Decomposition)タスクのベンチマーク

  • Blind Image Decomposition [53.8]
    本稿では,Blind Image Decomposition (BID)について述べる。 雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。 本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
    論文  参考訳(メタデータ)   (Wed, 25 Aug 2021 17:37:19 GMT)
    • 雨や靄など重ねあった画像を分離するタスクの提案。プロジェクトサイトの画像が分かりやすい。この論文では「Mixed image decomposition across multiple domains(ドメインの異なる画像を混ぜたものからの分解)」「Real-scenario deraining(CityScapeデータセットの画像に雨や水滴、雪のマスクを適用したものを分解)」「Joint shadow/reflection/watermark removal(SRDISTDをベースとしてreflectionを適用、watermark部分はLVW)」と3つのタスクを提案、BIDeNというベースラインを構築している。
    • プロジェクトサイトはhttps://junlinhan.github.io/projects/BID.html、リポジトリはhttps://github.com/JunlinHan/BID

GNNをトリック込みで評価するベンチマーク

  • Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study [100.3]
    ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。 我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
    論文  参考訳(メタデータ)   (Tue, 24 Aug 2021 05:00:37 GMT)
    • deep graph neural networksのトレーニングは難しく、skip connections、graph normalization、random droppingなど様々なテクニックが用いられている。それらを込みで評価するベンチマークを提案。
    • リポジトリはhttps://github.com/VITA-Group/Deep_GCN_Benchmarking

InferWiki: Knowledge Graph Completion(知識グラフの補完)データセット

  • Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
    InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。 各テストサンプルは、トレーニングセットの支持データで予測可能である。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
    論文  参考訳(メタデータ)   (Tue, 3 Aug 2021 09:51:15 GMT)
    •  Link Prediction、Triple Classificationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
    • リポジトリはhttps://github.com/TaoMiner/inferwiki

MultiBench: マルチモーダルなベンチマーク

  • MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
    MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 17:54:36 GMT)
  • マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
    • Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
    • Healthcare: MIMIC
    • Robotics: MuJoCo Push, Vision & Touch
    • Finance: Stocks-food, Stocks-health, Stocks-tech
    • HCI: ENRICO
    • Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
  • 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
  • https://cmu-multicomp-lab.github.io/multibench/https://github.com/pliang279/MultiBench が公式サイト&リポジトリ

FLEX(Few-shot Language Evaluation across (X) many transfer types) & FewCLUE(Few-shotなChinese Language Understanding Evaluation Benchmark) : NLPのFew-shotベンチマーク

両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり(ERNIE 3.0でも明らかだが)中国で自然言語処理の研究が盛んなことがわかる。

JGLUE構築中とのことで日本の研究動向にも注目したい。

  • FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
    我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。 最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。 また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 07:37:06 GMT)
  • FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
    この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Jul 2021 17:51:25 GMT)

SocialAI: 社会的スキルのためのベンチマーク

  • SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
    人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
    論文  参考訳(メタデータ)   (Fri, 2 Jul 2021 10:39:18 GMT)
  • DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
  • 詳細はhttps://sites.google.com/view/socialaiから確認可能

XAI-Bench:XAIの評価指標とベンチマークデータ

  • Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.2]
    我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。 実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。 いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 17:10:21 GMT)
    • XAIのベンチマークのため指標をまとめ、合成データセットを作成したとの報告。XAIの評価は難しくこのような取り組みは重要。リアルなデータではベンチマーク構築が難しいことから合成データを用いている。LIMEが良い結果になっていてやや意外ではあった。
    • データ、コード等はhttps://github.com/abacusai/xai-benchから確認可能

GEM(General Evaluation benchmark for Multimodal tasks):マルチモーダルなベンチマーク

  • GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
    マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 03:14:13 GMT)
    • 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
    • データ等は https://github.com/microsoft/GEM から参照可能。