注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

SQA(Science Question Answering)、SCIENCEQAベンチマーク

  • Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
    本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
    論文  参考訳(メタデータ)   (Tue, 20 Sep 2022 07:04:24 GMT)
    • 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
      • 既に低くないのでは?と思わなくもない。
    • プロジェクトサイトはScienceQA

FairGBM

テキスト+表形式データに対する推論

GENREAD: 検索の代わりの大規模言語モデル

  • Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.9]
    本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。 我々は,提案手法をgenRead と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 01:30:59 GMT)
    • open-domain QAで良く用いられる検索モジュールを大規模言語モデルによる生成器に置き換えることで優れた性能を達成との報告。 TriviaQA と WebQ でSoTAを主張。
    • 大規模言語モデルからうまく情報を引き出す事と大規模な知識データベースを検索する事が近しく、しかも前者の性能が良いことを示しているような気がしていて、Transformer等による情報の圧縮はかなり効果的なんだろうなという直感。

NL2INTERFACE

  • NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries [19.4]
    NL2INTERFACEは自然言語クエリから対話型多視点インタフェースを生成する。 ユーザはインターフェイスと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。
    論文  参考訳(メタデータ)   (Mon, 19 Sep 2022 08:31:50 GMT)
    • 自然言語でインタラクティブに操作可能な環境。内部的にはテキストをstructurally parameterized SQL(SPS) に変換しているとのこと。

(内部動作は異なると思うが)ACT-1: Transformer for Actions (adept.ai)のようにやりたい事を言葉で指示する方針は有望なのだろうか?

HAPI(History of APIs): 大手企業APIの時系列データセット

  • HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
    商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。 各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
    論文  参考訳(メタデータ)   (Sun, 18 Sep 2022 01:52:16 GMT)
    • 様々な商用APIの予測結果をまとめたデータセット。2020年~2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
    • API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…

Mega: Moving Average Equipped Gated AttentionとBART-LS

  • Mega: Moving Average Equipped Gated Attention [150.3]
    メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。 我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 20:52:17 GMT)
    • Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
    • シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。
  • Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
    我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。 長文QAタスク上での競合性能を実現するための長文モデルを構築した。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 00:41:07 GMT)
    • 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
    • リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

Summarization Programs: 解釈可能な要約

  • Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
    現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。 本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。 要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 16:50:22 GMT)

Whisper:OpenAIの高性能ASR

OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

セマンティックvSLAMのサーベイ

  • Semantic Visual Simultaneous Localization and Mapping: A Survey [18.4]
    本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。 次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。 最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:45:26 GMT)