GENREAD: 検索の代わりの大規模言語モデル

  • Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.9]
    本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。 我々は,提案手法をgenRead と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 01:30:59 GMT)
    • open-domain QAで良く用いられる検索モジュールを大規模言語モデルによる生成器に置き換えることで優れた性能を達成との報告。 TriviaQA と WebQ でSoTAを主張。
    • 大規模言語モデルからうまく情報を引き出す事と大規模な知識データベースを検索する事が近しく、しかも前者の性能が良いことを示しているような気がしていて、Transformer等による情報の圧縮はかなり効果的なんだろうなという直感。

NL2INTERFACE

  • NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries [19.4]
    NL2INTERFACEは自然言語クエリから対話型多視点インタフェースを生成する。 ユーザはインターフェイスと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。
    論文  参考訳(メタデータ)   (Mon, 19 Sep 2022 08:31:50 GMT)
    • 自然言語でインタラクティブに操作可能な環境。内部的にはテキストをstructurally parameterized SQL(SPS) に変換しているとのこと。

(内部動作は異なると思うが)ACT-1: Transformer for Actions (adept.ai)のようにやりたい事を言葉で指示する方針は有望なのだろうか?

HAPI(History of APIs): 大手企業APIの時系列データセット

  • HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
    商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。 各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
    論文  参考訳(メタデータ)   (Sun, 18 Sep 2022 01:52:16 GMT)
    • 様々な商用APIの予測結果をまとめたデータセット。2020年~2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
    • API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…