2021年9月8日 – arXiv最新論文の紹介

DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization [19.9]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (Mon, 6 Sep 2021 13:55:03 GMT)
- 数千語以上と長い対話に対する言語モデルの提案。HAT-BARTやLongformerより優れた結果を出したとのこと。

LightAutoML: AutoML Solution for a Large Financial Services Ecosystem [108.1]
本稿では、ヨーロッパ大手金融サービス会社向けに開発されたLightAutoMLと呼ばれるAutoMLシステムについて述べる。当社のフレームワークは、多数のアプリケーションに試験的にデプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。
論文参考訳（メタデータ）参考訳（全文） (Fri, 3 Sep 2021 13:52:32 GMT)
- 軽量・高速なAutoMLの紹介。テーブルデータを対象として「L2正則化な線形モデル、LightGBM、Catboost」＋「Optunaを用いたTPE」で構成されている。与える情報はターゲットとテーブルデータ、それぞれの列がnumeric、category、datetimeのどれか？という情報とのこと。妥当な構成で妥当な結果が出るんだろうと思う。テーブル間結合に対応しているかは良く分からない。
  - 設計方針は以前紹介した「Fugu AutoML」と同じ（というかテーブルデータを対象とした多くのAutoMLフレームワークが同じような設計）、未公開バージョンではscikit-learn / statsmodelsによる線形回帰が実装されていたりするので設計思想も近しい。（といっても更新停止状態だけど・・・）
  - 個人的にはテーブル間結合機能の有無とLeakage発生回避の工夫が気になる。

日: 2021年9月8日