Masked Language Modelを用いたタンパク質表現学習

  • Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
    タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。 提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 04:01:32 GMT)
    • 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。

金融分野における倫理的なAI

  • On the Current and Emerging Challenges of Developing Fair and Ethical AI Solutions in Financial Services [1.9]
    我々は、高レベルの原則と具体的なデプロイされたAIアプリケーションとのギャップについて、実践的な考察をいかに示すかを示す。 我々は、高レベルの原則と具体的なデプロイされたAIアプリケーションとのギャップについて、実践的な考察をいかに示すかを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 00:15:04 GMT)
    • 金融分野のAI活用で考えるべき倫理などをまとめた論文。ガイドラインの整理などが参考になるとともに現実とのギャップが理解できる内容。
    • 解決策が提示されているわけではないが「Without regulations it is really difficult to reach any ethics goals in the financial services industry.」はその通りだと思う。

FACT-AIの教育課程

  • Teaching Fairness, Accountability, Confidentiality, and Transparency in Artificial Intelligence through the Lens of Reproducibility [38.9]
    本稿では,アムステルダム大学における,公正性,説明責任性,信頼度,人工知能の透明性(FACT-AI)に関する技術的,大学院レベルのコースのセットアップについて説明する。 コースの焦点は、トップAIカンファレンスの既存のFACT-AIアルゴリズムに基づいたグループプロジェクトであり、彼らの経験に関するレポートを書くことである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 1 Nov 2021 10:58:35 GMT)
    • AIの社会実装に重要なFACT(Fairness, Accountability, Confidentiality, Transparency)の教育課程に関する報告。1ヶ月のフルタイムコースとして設計されているとのこと。(特に日本だと)この手のコースは多くなく、実践事例は参考になる。

マルチモーダル性を活用した電子健康記録データの分析

  • How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.4]
    電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。 本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。 2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 13:26:05 GMT)
    • EHR (Electronic Health Record)のデータ分析において時間に影響されないデータ、時系列性のあるデータ(離散/連続)、臨床ノートの情報という複数種類のデータを統合した結果性能向上に有効だったとの報告。

Self-Supervised Learningに対する10個の課題

  • 10 Security and Privacy Problems in Self-Supervised Learning [31.0]
    自己教師付き学習は、大量のラベルのないデータを使用してエンコーダを事前訓練することを目的としている。 本章では,自己教師型学習における学習済みエンコーダのセキュリティとプライバシに関する10の基本的な問題について論じる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 28 Oct 2021 21:45:53 GMT)
    • 様々なドメインの自己教師有り学習の概要と10個の攻撃やプライバシーへの問題に関する報告。概要を把握するのによい資料。取り上げられている問題、攻撃、課題は下記の通り。
      • Confidentialityの課題
        • Data Tracing/Auditing
        • Membership Inference Attack
        • Reconstruction Attack
        • Attribute/Property Inference Attack
        • Encoder Hyperparameter Stealing Attack
        • Encoder Parameter Stealing Attack
      • Integrityへの攻撃
        • Backdoor Attacks
        • Poisoning Attack
        • Evasion Attack
      • Availabilityの課題
        •  Resource Depletion Attack

シェアバイクの軌道を用いた違法駐車検出

  • Crowd-sensing Enhanced Parking Patrol using Sharing Bikes’ Trajectories [20.7]
    違法な自動車駐車は、大気汚染や交通事故につながる交通渋滞を引き起こすため、世界中の主要都市が直面する一般的な都市問題である。 Mobikeの巨大で高品質なシェアリングバイクは、ユビキタスで違法な駐車検知アプローチを設計するユニークな機会を提供する。 検出結果は、パトロールスケジュール、すなわち、違法な駐車リスクの高い地域へパトロール警官を派遣し、パトロール効率をさらに向上させることができる。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 05:48:51 GMT)
    • シェアバイクの軌道情報から違法駐車を検出する取り組み、これに加えて効果的なパトロール戦略を提案している。
    • 言われてみるとシェアバイクの軌道と違法駐車は関係していそうではあるけど面白いアプローチ

音声/画像によるAnomaly Event Detection

  • Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.7]
    本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。 監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。 音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 28 Oct 2021 02:42:48 GMT)
    • 音声+画像による異常検知。直感的にも効果がありそう。複数の情報ソースを束ね高性能を目指すアプローチは今後も有望だと思う。

数学的推論用データセットGSM8Kと検証モデルの有効性

  • Training Verifiers to Solve Math Word Problems [12.3]
    GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。 最大のモデルでさえ高いテスト性能を達成できないことがわかった。 性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
    論文  参考訳(メタデータ)   (Wed, 27 Oct 2021 04:49:45 GMT)
    • 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証(Verification)を行うモデルを用いることで性能が向上(30倍のサイズのモデルに匹敵)したとのこと。
      • 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
    • リポジトリはhttps://github.com/openai/grade-school-math

未来のインターネットにおける Multi-Agent Reinforcement Learning

  • Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey [45.8]
    マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 MARLはネットワークエンティティの学習効率を大幅に向上させることができ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 08:26:55 GMT)
    • 5Gやその先にあるようなネットワークでマルチエージェントな強化学習で何が必要か、どのような研究課題があるかをまとめたサーベイ。研究課題については既存アプローチが整理されており非常に勉強になる。

効率性を表す指標たちとその問題

  • The Efficiency Misnomer [50.7]
    我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。 コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 12:48:07 GMT)
    • モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①<②<③、FLOPS/性能のグラフは③<②<①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
      • 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。