DialogLM: 長い対話を対象とした事前学習モデル

  • DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization [19.9]
    本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。 長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。 我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
    論文  参考訳(メタデータ)   (Mon, 6 Sep 2021 13:55:03 GMT)
    • 数千語以上と長い対話に対する言語モデルの提案。HAT-BARTやLongformerより優れた結果を出したとのこと。

LightAutoML: 軽量で高速なAutoMLフレームワーク

  • LightAutoML: AutoML Solution for a Large Financial Services Ecosystem [108.1]
    本稿では、ヨーロッパ大手金融サービス会社向けに開発されたLightAutoMLと呼ばれるAutoMLシステムについて述べる。 当社のフレームワークは、多数のアプリケーションに試験的にデプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Sep 2021 13:52:32 GMT)
    • 軽量・高速なAutoMLの紹介。テーブルデータを対象として「L2正則化な線形モデル、LightGBM、Catboost」+「Optunaを用いたTPE」で構成されている。与える情報はターゲットとテーブルデータ、それぞれの列がnumeric、category、datetimeのどれか?という情報とのこと。妥当な構成で妥当な結果が出るんだろうと思う。テーブル間結合に対応しているかは良く分からない。
      • 設計方針は以前紹介した「Fugu AutoML」と同じ(というかテーブルデータを対象とした多くのAutoMLフレームワークが同じような設計)、未公開バージョンではscikit-learn / statsmodelsによる線形回帰が実装されていたりするので設計思想も近しい。(といっても更新停止状態だけど・・・)
      • 個人的にはテーブル間結合機能の有無とLeakage発生回避の工夫が気になる。