効率性を表す指標たちとその問題

  • The Efficiency Misnomer [50.7]
    我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。 コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 12:48:07 GMT)
    • モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①<②<③、FLOPS/性能のグラフは③<②<①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
      • 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。

IconQA: Icon Question Answering データセット

  • IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
    IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 18:52:26 GMT)
    • 抽象的な図(アイコン画像)を対象としてVisual Question Answeringタスクとデータセットの提案。QAに解くのに必要なスキルが紐づいていたり、人間のパフォーマンスが計測されているなど非常に有能なデータセットとの印象。ライセンスは CC BY-NC-SA
    • リポジトリはhttps://iconqa.github.io/

フェルミ推定問題を解く自然言語処理

  • How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
    我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 06:39:33 GMT)
    • フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。

WenLan 2.0: マルチモーダルな巨大事前学習モデル

  • WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
    我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 12:25:21 GMT)
    • 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
    • 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
      • 個人的には可能性を感じていて興味津々

s2s-ft: 自然言語生成に適した事前学習モデル

  • s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
    条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 12:45:34 GMT)
  • 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
  • リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft

DocTr: 画像の歪み・照明の補正

  • DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
    文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 13:27:10 GMT)

Multi-document Summarization: サブグラフ選択として解くSgSum、Longformerを用いるPRIMER

  • SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
    既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。 サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。 我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 05:12:10 GMT)
    • グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
  • PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
    要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。 具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。 私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Oct 2021 07:22:24 GMT)
    • こちらはグラフ構造ではなくLongformerを用いてマルチドキュメントに対処するアプローチ、MultiNewsなどでSoTA。
    • リポジトリはhttps://github.com/allenai/PRIMER

CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

  • CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
    WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
    論文  参考訳(メタデータ)   (Sun, 24 Oct 2021 00:21:46 GMT)
    • WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
      • 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。

PhoMT: ベトナム語-英語のパラレルコーパス

  • PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
    3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。 これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。 自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
    論文  参考訳(メタデータ)   (Sat, 23 Oct 2021 11:42:01 GMT)
    • 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
    • リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404

Human-Centered Explainable AI (XAI): 人間中心のXAI

  • Human-Centered Explainable AI (XAI): From Algorithms to User Experiences [29.1]
    説明可能なAI(XAI)は近年,膨大なアルゴリズムコレクションを生み出している。 分野は学際的視点と人間中心のアプローチを受け入れ始めている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 20 Oct 2021 21:33:46 GMT)
    • XAIでもヒューマン・コンピュータ・インタラクション(HCI)、ユーザ・エクスペリエンス(UX)の設計が重要になっており、techno-centricなアプローチには落とし穴があるとの指摘。現状と限界を知るために良い資料との印象。