コンテンツへスキップ
- Are the Multilingual Models Better? Improving Czech Sentiment with Transformers [1.5]
チェコ語における極性検出の課題を3つの感情極性データセットを用いて検討する。 我々は5つの多言語モデルと3つの単言語モデルを用いて微調整および実験を行う。 3つのデータセットすべてに対して、最先端の新たな結果が得られます。
論文 参考訳(メタデータ) (Tue, 24 Aug 2021 10:50:01 GMT)- チェコ語のセンチメント分析においてXLM-R-Largeがモノリンガルモデルを上回る性能を出したとの報告。マルチリンガルモデルの有効性を示していて、言語資源が少ない日本語にも参考になる結果のように思える。
- 性能の良い事前学習済みマルチリンガルモデルモデルであるRemBERTがHuggngfaceに取り込まれており、このようなモデルの利用も広まっていくのだと思う。いまのところ日本語はT5などBERT以降の構造&モノリンガル大規模事前学習モデルで公開されているものが存在する。とはいえ、データセットの規模等を考えると海外研究機関のマルチリンガルモデルより上の性能を出し続けられるかは難しい気がしなくもない。
- FuguMTのためにクロールしたデータセットでバイリンガル版T5とか作ろうかと思わなくもないがコスト的につらいなーと思う最近。
- Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
論文 参考訳(メタデータ) (Mon, 23 Aug 2021 02:13:56 GMT)- マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト+画像で検知することで能力が大幅に向上したとのこと。
- 直感的にもマルチモーダルに適した実用的な問題のように思える。
- An Empirical Cybersecurity Evaluation of GitHub Copilot’s Code Contributions [8.3]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。 コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。 これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (Fri, 20 Aug 2021 17:30:33 GMT)- ‘AIペアプログラマ’であるGitHub Copilotが出力したコードに脆弱性がないかを分析した論文。「89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。」とのこと。学習サンプルには脆弱なコードも含まれているはずで驚きはない(が危険性があるのは確か)。Copilotのような技術は期待しているし、完璧でなくとも機械翻訳のように付き合っていくのが良いのかなと思った。
- Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 20 Aug 2021 14:22:00 GMT)- 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
- こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。
- Fastformer: Additive Attention is All You Need [51.8]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 20 Aug 2021 09:44:44 GMT)- Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
- query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。
- QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query Attribute Value Extraction [57.6]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。 NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。 AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 19 Aug 2021 03:24:23 GMT)- 検索クエリにおいて「mk tote for womans」を「mk:ブランド名 tote:商品タイプ for womans:検索者」と認識したうえで「mk:Michael Kors 、tote: handbagカテゴリ 、womans:women(スペルミス修正)」と標準的な検索ワードに正規化する問題に取り組んだ論文。
- 「人がアノテーションした少数だが高品質なデータ」と「検索クエリ+その後のユーザのクリックから作成したノイジーだが大量のデータ」を組みあわせて使用し、DistilBERT(multilingualのものをDistilmBERT と表記?)ベースのモデルを用いている。
- DeepFake MNIST+: A DeepFake Facial Animation Dataset [33.7]
我々は,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。 顔のアニメーションビデオ1万本を10種類のアクションで撮影する。
論文 参考訳(メタデータ) (Wed, 18 Aug 2021 02:37:17 GMT)
- Data Pricing in Machine Learning Pipelines [6.7]
マシンラーニングパイプラインでは,3つの重要なステップで価格設定に重点を置いています。 データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。 また、機械学習モデルの協調トレーニングの段階における価格についても検討する。
論文 参考訳(メタデータ) (Wed, 18 Aug 2021 00:57:06 GMT)- machine learning pipeline(生データの収集、ラベリング、(協調した)学習、モデル自体)を価格に注目して整理した論文。データの価格には様々な要素があることが示され一筋縄ではいかないことが分かる。
- Program Synthesis with Large Language Models [40.4]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。 合成性能はモデルサイズと対数的にスケールすることがわかった。 ヒトからの自然言語フィードバックは、モデルの初期予測と比較してエラー率を半減することがわかった。 最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (Mon, 16 Aug 2021 03:57:30 GMT)- 244M~137Bパラメータの言語モデルでプログラム合成タスクを試した論文。合成性能はモデルサイズと対数的にスケールするという結果が興味深い。Scaling Lawが思い浮かぶ。
- 人間からの(自然言語による)フィードバックによってエラー率が減る結果はcoplilotのようなシステムが有望であることを示しているような気がする。(一方である程度コードを読める能力がないと使いづらいのは機械翻訳と同じ印象)
- Graph Capsule Aggregation for Unaligned Multimodal Sequences [16.7]
本稿では,グラフベースのニューラルモデルとカプセルネットワークを用いた非整合マルチモーダルシーケンスをモデル化するために,Graph Capsule Aggregation(GraphCAGE)を導入する。 シーケンスデータをグラフに変換することにより、前述のRNNの問題を回避することができる。 さらに、Capsule Networkの集約機能とグラフベースの構造により、我々のモデルは解釈可能になり、長距離依存の問題をよりよく解決できる。
論文 参考訳(メタデータ) (Tue, 17 Aug 2021 10:04:23 GMT)- グラフベースニューラルモデルとカプセルネットワークを用いたGraphCAGEを提案、Multimodal Sentiment AnalysisのデータセットCMU-MOSI、CMU-MOSEIでSOTAを達成とのこと。