Unsupervised Machine Learning for Explainable Medicare Fraud Detection

  • Unsupervised Machine Learning for Explainable Medicare Fraud Detection [16.3]
    我々は、医療を超過するプロバイダを特定するための、新しい機械学習ツールを開発した。 大規模なメディケアの請求データを用いて、詐欺や過度な監視と整合したパターンを識別する。 提案手法は、ラベル付きトレーニングデータに頼らず、完全に教師なしである。
    論文  参考訳(メタデータ)   (Sat, 5 Nov 2022 15:37:51 GMT)
  • Medicare データを用いた不正検出。

AnimeRun

  • AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.7]
    既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。 我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。 分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
    論文  参考訳(メタデータ)   (Thu, 10 Nov 2022 17:26:21 GMT)
    • オープンソースの3D映画から生成されたアニメ映像のデータセット
    • データセットはCC-BY-NC 4.0 License、コードは MIT Licenseとオープンソース
    • プロジェクトサイトはAnimeRun Project Page (lisiyao21.github.io)

Are AlphaZero-like Agents Robust to Adversarial Perturbations?

  • Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.1]
    AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。 私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。 我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
    論文  参考訳(メタデータ)   (Mon, 7 Nov 2022 18:43:25 GMT)
  • 強力な囲碁AIを誤らせるような敵対的攻撃が可能か検証した論文。現状最強と思われる(人間よりも強い)囲碁AIに対しても攻撃は可能とのこと。
  • リポジトリはlan-lc/adversarial_example_of_Go (github.com)

FormLM

  • FormLM: Recommending Creation Ideas for Online Forms by Modelling Semantic and Structural Information [33.7]
    オンラインフォームをモデル化し、フォーム作成のアイデアを推奨するためにFormLMを提示します。 モデルトレーニングと評価のために、62Kのオンラインフォームを持つ最初の公開オンラインフォームデータセットを収集する。 実験の結果,FormLMはすべてのタスクにおいて汎用言語モデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 10 Nov 2022 01:32:55 GMT)
  • オンラインアンケートなどのフォーム生成を支援するためのモデルの提案、データセットから構築している。「Form Creation Ideasは過去には体系的に研究されていない」というのはその通りだと思う…実用的なタスクとPLMを用いた問題解決の方針が参考になる。
  • プロジェクトサイトはhttps://github.com/microsoft/FormLMとのことだが、現時点では404。

Discord Questions

  • Discord Questions: A Computational Approach To Diversity Analysis in News Coverage [84.6]
    本稿では,情報源の違いを識別し,ニュース報道の多様性を理解する上で,読者を支援する新しい枠組みを提案する。 このフレームワークはDiscord Questionsの生成に基づいている。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 16:37:55 GMT)
  • ソースの違いを明確にする枠組みの提案。質問の生成→QAモデルによる回答収集→回答の統合というパイプラインを用いている。(記者の視点等が入るため)ニュースソースごとに質問応答(抽出されるデータ)は異なるはずで直感的にも効果的なアプローチのように思う。
  • リポジトリはsalesforce/discord_questions (github.com)

GREENER: Graph nEural nsEtwork for News Media pRofiling

  • GREENER: Graph Neural Networks for News Media Profiling [24.7]
    本稿では,ウェブ上でのニュースメディアのプロファイリングの問題について,その実態と偏見について考察する。 私たちの主な焦点は、オーディエンスの重複に基づいて、メディア間の類似性をモデル化することにあります。 予測精度は2つのタスクに対して2.5-27マクロF1ポイント向上した。
    論文  参考訳(メタデータ)   (Thu, 10 Nov 2022 12:46:29 GMT)
  • グラフに基づくニュースメディアの分析。ramybaly/News-Media-Reliability (github.com)を使って分析しており、Alexa MetricsやTwitter、Facebook、YouTube、Wikipediaなどデータを追加していった時の動きが興味深い

MACSum: Controllable Summarization with Mixed Attributes

  • MACSum: Controllable Summarization with Mixed Attributes [56.7]
    MACSumは、混合属性を制御するための最初の人間アノテーションによる要約データセットである。 混合制御可能な要約の新しいタスクに対する2つの単純かつ効果的なパラメータ効率のアプローチを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 17:17:37 GMT)
  • 複数の属性で制御可能な要約モデル(とデータセット)の提案。制御可能な点は「Topic, Speaker, Length, Extractiveness, Specificity」、よく動けば非常に理想形に近いように思う。残念ながら「We explore the hard prompt and soft prefix models to show this is a challenging task as a large gap between machine learning models and human still exists.」とのことだが、研究の進展を期待。
  • リポジトリはpsunlpgroup/MACSum: This repository maintains dataset, metrics, and models for paper MACSUM: Controllable Summarization with Mixed Attributes. (github.com)

BLOOMの論文

  • BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [266.0]
    大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 18:48:09 GMT)
  • オープンなLLM、bigscience/bloom · Hugging Faceの論文
  • オープンな巨大モデルは貴重であり自然言語処理分野での重要な研究成果。関わっている研究者も非常に多い。使用したデータセットに日本語が入っていない点は残念。ただ、Codeとして含まれていな内容を通じてか日本語も一定レベルで処理が可能であるのは興味深い。

Multilingual Multimodalityのサーベイ

  • Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.7]
    マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。 我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 21:46:01 GMT)

TOKEN2VEC / DyG2Vec

  • 音声認識等で用いられる音素トークンの分離、動的グラフの表現学習に関する2vecシリーズ
  • token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.0]
    token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。 実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 06:38:19 GMT)
  • DyG2Vec: Representation Learning for Dynamic Graphs with Self-Supervision [30.7]
    動的グラフ上での表現学習のための効率的なモデルであるDyG2Vecを提案する。 DyG2Vecはウィンドウベースのメカニズムを使用してタスクに依存しないノード埋め込みを生成し、将来のインタラクションを予測する。 2つのSSL評価機構を適用して動的グラフに適用し、SSL事前トレーニングがより堅牢な時間ノード表現の学習に役立つことを示す。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 18:13:04 GMT)