Met Dataset: メトロポリタン美術館のデータセット

  • The Met Dataset: Instance-level Recognition for Artworks [19.4]
    この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。 私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
    論文  参考訳(メタデータ)   (Thu, 3 Feb 2022 18:13:30 GMT)

Retrieval-augmented text generationのサーベイ

  • A Survey on Retrieval-Augmented Text Generation [53.0]
    Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。 まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Feb 2022 16:18:41 GMT)
    • 検索を併用するテキスト生成に関するサーベイ
    • サーベイとしては短め(がゆえに)簡潔にまとまっていて参考になる

Ad-datasets: 自動運転のデータセットまとめ

  • Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
    ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。 ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
    論文  参考訳(メタデータ)   (Thu, 3 Feb 2022 23:45:48 GMT)
    • 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
    • プロジェクトサイトはad Datasets (ad-datasets.com)

Explainable Machine Learningにおける不一致

  • The Disagreement Problem in Explainable Machine Learning: A Practitioner’s Perspective [13.7]
    本稿では、説明可能な機械学習における不一致問題を紹介し、研究する。 このような不一致が実際にどれだけ頻繁に起こるか、そして、実践者がこれらの不一致をどのように解決するかを分析する。 以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 4 Feb 2022 01:46:00 GMT)
    • 説明手法間で説明が一致しないことが多く、その際にどう解決すべきかについて一貫した方針がないとの指摘。実践者への調査も行っている点が面白い。
    • 実務的にも大きな問題となることがあり、何らかの手法だけに頼るのは危険だなと思う。結局のところ、いろいろな手法でチェック、多角的にテストするしかない。。

CoST: 時系列表現学習フレームワーク

WebFormer: WEBページからの情報抽出

  • WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
    構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
    論文  参考訳(メタデータ)   (Tue, 1 Feb 2022 04:44:02 GMT)
    • Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

mSLAM: multilingual Speech and LAnguage Model

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。

機械学習モデルはバイアスを増幅するか?

  • A Systematic Study of Bias Amplification [16.2]
    近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。 我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:04:24 GMT)
    • 機械学習モデルを用いることでバイアス(偏見)が増幅してしまうのではないか?ということを検証した論文。(解釈は悩ましいが)結果として状況によってはバイアス増幅が起きるとしている。
      • 論文でも触れられているが、バイアス増幅を避ける事で他のメトリクスが悪化することはあり、難しい問題。結局は論文の締めの通り「careful design of the entire pipeline from data collection to model deployment」に尽きる。

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL