効率性を表す指標たちとその問題

  • The Efficiency Misnomer [50.7]
    我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。 コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 12:48:07 GMT)
    • モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①<②<③、FLOPS/性能のグラフは③<②<①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
      • 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。

IconQA: Icon Question Answering データセット

  • IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
    IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 18:52:26 GMT)
    • 抽象的な図(アイコン画像)を対象としてVisual Question Answeringタスクとデータセットの提案。QAに解くのに必要なスキルが紐づいていたり、人間のパフォーマンスが計測されているなど非常に有能なデータセットとの印象。ライセンスは CC BY-NC-SA
    • リポジトリはhttps://iconqa.github.io/

フェルミ推定問題を解く自然言語処理

  • How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
    我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 06:39:33 GMT)
    • フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。