コンテンツへスキップ
- LightAutoML: AutoML Solution for a Large Financial Services Ecosystem [108.1]
本稿では、ヨーロッパ大手金融サービス会社向けに開発されたLightAutoMLと呼ばれるAutoMLシステムについて述べる。 当社のフレームワークは、多数のアプリケーションに試験的にデプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 3 Sep 2021 13:52:32 GMT)- 軽量・高速なAutoMLの紹介。テーブルデータを対象として「L2正則化な線形モデル、LightGBM、Catboost」+「Optunaを用いたTPE」で構成されている。与える情報はターゲットとテーブルデータ、それぞれの列がnumeric、category、datetimeのどれか?という情報とのこと。妥当な構成で妥当な結果が出るんだろうと思う。テーブル間結合に対応しているかは良く分からない。
- 設計方針は以前紹介した「Fugu AutoML」と同じ(というかテーブルデータを対象とした多くのAutoMLフレームワークが同じような設計)、未公開バージョンではscikit-learn / statsmodelsによる線形回帰が実装されていたりするので設計思想も近しい。(といっても更新停止状態だけど・・・)
- 個人的にはテーブル間結合機能の有無とLeakage発生回避の工夫が気になる。
- CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge [32.6]
エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介する。 私たちのデータセットは、真か偽かのエンティティに関する主張で構成されています。 クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人間のパフォーマンスは高い。
論文 参考訳(メタデータ) (Fri, 3 Sep 2021 17:56:40 GMT)
- Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。 弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 3 Sep 2021 17:15:38 GMT)- 英語のデータ+mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。
- Finetuned Language Models Are Zero-Shot Learners [67.7]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (Fri, 3 Sep 2021 17:55:52 GMT)- 効率的に自然言語で命令を記載可能な事前学習モデルを構築、GPT-3のFew-shotを上回る性能を出したとの報告。62個のデータセットを12種類のタスククラスタに分類、自然言語で書かれた命令を使いタスクを記述するためのテンプレートを手動で作成して学習データを構築。137BパラメータのTransformer(2.81T BPE tokenのWebドキュメント、対話データ、Wikipediaで事前学習済み、10%が英語以外)でモデルを構築したとのこと。読解タスクではprompt engneering無しでfew-shotのGPT-3を上回る結果を出している。一方で翻訳タスクではfew-shotのGPT-3を下回っているようで事前学習モデルの言語の偏りに影響されているように見える。
- 自然言語で指示可能とか未来を感じる結果、そして規模が非常に大きい。
- MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 2 Sep 2021 12:52:55 GMT)- EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。
- CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。 我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (Thu, 2 Sep 2021 12:21:06 GMT)
- Survey of Low-Resource Machine Translation [65.5]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。 翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (Wed, 1 Sep 2021 16:57:58 GMT)- (特に)低リソースの言語に対して機械翻訳モデルの状況を調査したサーベイ。主にパラレルコーパスのデータソース(収集・作成)、モノリンガルデータの活用、マルチリンガルデータ・モデルの活用、タグ付けや構文解析など機械翻訳以外の言語リソース活用、モデル構築・推論の改善、高度化など幅広い内容が扱われている。日英翻訳はリソースが多い言語ペアであると思うが、参考になる情報は多い。
- FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (Wed, 1 Sep 2021 00:08:14 GMT)- 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
- 専門家によるアノテーションの重要性が分かる結果な気がする。
- Towards Out-Of-Distribution Generalization: A Survey [30.7]
古典的な機械学習手法は、トレーニングデータとテストデータが独立して同じ分散であるというi.i.d.の仮定に基づいて構築されている。 実際のシナリオでは、i.i.d.の仮定はほとんど満たされず、分散シフトの下で古典的な機械学習アルゴリズムのパフォーマンスが急落する。 本論文は,OOD一般化問題を体系的かつ包括的に議論する最初の試みである。
論文 参考訳(メタデータ) (Tue, 31 Aug 2021 05:28:42 GMT)- 機械学習の社会実装で避けては通れない Out-Of-Distribution問題のサーベイ。問題の定義、対応手法(およびその関係性)、データセット、評価指標にわたる広範な内容だが16ページとコンパクト。研究概要を知るために良い内容だと思う。
- Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 27 Aug 2021 07:22:55 GMT)- Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
- リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra