- FairGBM: Gradient Boosting with Fairness Constraints [4.5]
公平性制約下での勾配向上決定木(GBDT)の学習フレームワークであるFairGBMを提案する。 オープンソース実装は、関連する作業と比較した場合のトレーニング時間の桁違いのスピードアップを示している。
論文 参考訳(メタデータ) (Mon, 19 Sep 2022 15:16:25 GMT)- 公平性制約を入れたLightGBM、良いトレードオフを実現しているように見えるが、データによって相性の悪いものもありそう。
- feedzai/fairgbm: Train Gradient Boosting models that are both high-performance *and* Fair! (github.com)
テキスト+表形式データに対する推論
- Answering Numerical Reasoning Questions in Table-Text Hybrid Contents with Graph-based Encoder and Tree-based Decoder [19.4]
本稿ではRelational Graph 拡張 Hybrid table-Numerical reasoning model with RegHNT を提案する。 表文ハイブリッドコンテンツに対する数値質問応答を表現木生成タスクとしてモデル化し,表文ハイブリッドQAベンチマーク(TAT-QA)で検証した。
論文 参考訳(メタデータ) (Fri, 16 Sep 2022 03:15:12 GMT)- 多くのドキュメントでテキストと表が混在しており、そのデータに対するQuestion Answeringは難しい。本件はデータをグラフ構造に変換、QAのQ部分をツリー構造に変換してグラフとの対応を取るアプローチのよう。
- コードが公開されたら内部を追ってみたい…
- リポジトリはlfy79001/RegHNT: Code for COLING 2022 long paper: Answering Numerical Reasoning Questions in Table-Text Hybrid Contents with Graph-based Encoder and Tree-based Decoder (github.com)
- 多くのドキュメントでテキストと表が混在しており、そのデータに対するQuestion Answeringは難しい。本件はデータをグラフ構造に変換、QAのQ部分をツリー構造に変換してグラフとの対応を取るアプローチのよう。
GENREAD: 検索の代わりの大規模言語モデル
- Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.9]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。 我々は,提案手法をgenRead と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (Wed, 21 Sep 2022 01:30:59 GMT)- open-domain QAで良く用いられる検索モジュールを大規模言語モデルによる生成器に置き換えることで優れた性能を達成との報告。 TriviaQA と WebQ でSoTAを主張。
- 大規模言語モデルからうまく情報を引き出す事と大規模な知識データベースを検索する事が近しく、しかも前者の性能が良いことを示しているような気がしていて、Transformer等による情報の圧縮はかなり効果的なんだろうなという直感。
NL2INTERFACE
- NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries [19.4]
NL2INTERFACEは自然言語クエリから対話型多視点インタフェースを生成する。 ユーザはインターフェイスと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。
論文 参考訳(メタデータ) (Mon, 19 Sep 2022 08:31:50 GMT)- 自然言語でインタラクティブに操作可能な環境。内部的にはテキストをstructurally parameterized SQL(SPS) に変換しているとのこと。
(内部動作は異なると思うが)ACT-1: Transformer for Actions (adept.ai)のようにやりたい事を言葉で指示する方針は有望なのだろうか?
HAPI(History of APIs): 大手企業APIの時系列データセット
- HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。 各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文 参考訳(メタデータ) (Sun, 18 Sep 2022 01:52:16 GMT)- 様々な商用APIの予測結果をまとめたデータセット。2020年~2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
- API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…
Mega: Moving Average Equipped Gated AttentionとBART-LS
- Mega: Moving Average Equipped Gated Attention [150.3]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。 我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (Wed, 21 Sep 2022 20:52:17 GMT)- Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
- シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。
- Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。 長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (Wed, 21 Sep 2022 00:41:07 GMT)- 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
- リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404
Summarization Programs: 解釈可能な要約
- Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。 本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。 要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文 参考訳(メタデータ) (Wed, 21 Sep 2022 16:50:22 GMT)- 解釈可能な抽象型要約手法の提案。文を短くする過程(操作)を木構造で追うことが可能。現時点では十分な性能を出せていないように見えるが改善可能性が示されている。
- リポジトリはswarnaHub/SummarizationPrograms: PyTorch code of Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees (github.com)
Whisper:OpenAIの高性能ASR
- Introducing Whisper (openai.com)
- Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)
OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。
多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる
セマンティックvSLAMのサーベイ
- Semantic Visual Simultaneous Localization and Mapping: A Survey [18.4]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。 次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。 最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 05:45:26 GMT)
堅牢なViTへのレシピ
- A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (Thu, 15 Sep 2022 16:00:04 GMT)- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。