GitHub Copilotのバグ・セキュリティの分析

  • An Empirical Cybersecurity Evaluation of GitHub Copilot’s Code Contributions [8.3]
    GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。 コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。 これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
    論文  参考訳(メタデータ)   (Fri, 20 Aug 2021 17:30:33 GMT)
    • ‘AIペアプログラマ’であるGitHub Copilotが出力したコードに脆弱性がないかを分析した論文。「89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。」とのこと。学習サンプルには脆弱なコードも含まれているはずで驚きはない(が危険性があるのは確か)。Copilotのような技術は期待しているし、完璧でなくとも機械翻訳のように付き合っていくのが良いのかなと思った。

Smart Bird: 効率的なTransformer

  • Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
    学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 14:22:00 GMT)
    • 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
    • こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。

Fastformer: 効率的で長いシーケンスを扱える構造

  • Fastformer: Additive Attention is All You Need [51.8]
    本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 09:44:44 GMT)
    • Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
    • query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。

QUEACO: E-コマースにおけるNER(Named Entity Recognition) とAVN(Attribute Value Normalization)

  • QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query Attribute Value Extraction [57.6]
    本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。 NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。 AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 19 Aug 2021 03:24:23 GMT)
    • 検索クエリにおいて「mk tote for womans」を「mk:ブランド名 tote:商品タイプ for womans:検索者」と認識したうえで「mk:Michael Kors 、tote: handbagカテゴリ 、womans:women(スペルミス修正)」と標準的な検索ワードに正規化する問題に取り組んだ論文。
    • 「人がアノテーションした少数だが高品質なデータ」と「検索クエリ+その後のユーザのクリックから作成したノイジーだが大量のデータ」を組みあわせて使用し、DistilBERT(multilingualのものをDistilmBERT と表記?)ベースのモデルを用いている。

DeepFake MNIST+

  • DeepFake MNIST+: A DeepFake Facial Animation Dataset [33.7]
    我々は,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。 顔のアニメーションビデオ1万本を10種類のアクションで撮影する。
    論文  参考訳(メタデータ)   (Wed, 18 Aug 2021 02:37:17 GMT)
    • VoxCeleb1 Datasetから作られたビデオデータセット。1万本の元データから10種類のアクションを適用して10万本の顔のアニメーション動画にしているとのこと。著者らの試行ではビデオの圧縮率が検出性能に大きな影響を与えたとのこと。
    • リポジトリはhttps://github.com/huangjiadidi/DeepFakeMnist

データセットの価格

  • Data Pricing in Machine Learning Pipelines [6.7]
    マシンラーニングパイプラインでは,3つの重要なステップで価格設定に重点を置いています。 データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。 また、機械学習モデルの協調トレーニングの段階における価格についても検討する。
    論文  参考訳(メタデータ)   (Wed, 18 Aug 2021 00:57:06 GMT)
    • machine learning pipeline(生データの収集、ラベリング、(協調した)学習、モデル自体)を価格に注目して整理した論文。データの価格には様々な要素があることが示され一筋縄ではいかないことが分かる。

Program Synthesis with Large Language Models: 大規模言語モデルとプログラミング

  • Program Synthesis with Large Language Models [40.4]
    我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。 合成性能はモデルサイズと対数的にスケールすることがわかった。 ヒトからの自然言語フィードバックは、モデルの初期予測と比較してエラー率を半減することがわかった。 最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 03:57:30 GMT)
    • 244M~137Bパラメータの言語モデルでプログラム合成タスクを試した論文。合成性能はモデルサイズと対数的にスケールするという結果が興味深い。Scaling Lawが思い浮かぶ。
    • 人間からの(自然言語による)フィードバックによってエラー率が減る結果はcoplilotのようなシステムが有望であることを示しているような気がする。(一方である程度コードを読める能力がないと使いづらいのは機械翻訳と同じ印象)

グラフ+Capsule Network

  • Graph Capsule Aggregation for Unaligned Multimodal Sequences [16.7]
    本稿では,グラフベースのニューラルモデルとカプセルネットワークを用いた非整合マルチモーダルシーケンスをモデル化するために,Graph Capsule Aggregation(GraphCAGE)を導入する。 シーケンスデータをグラフに変換することにより、前述のRNNの問題を回避することができる。 さらに、Capsule Networkの集約機能とグラフベースの構造により、我々のモデルは解釈可能になり、長距離依存の問題をよりよく解決できる。
    論文  参考訳(メタデータ)   (Tue, 17 Aug 2021 10:04:23 GMT)
    • グラフベースニューラルモデルとカプセルネットワークを用いたGraphCAGEを提案、Multimodal Sentiment AnalysisのデータセットCMU-MOSI、CMU-MOSEIでSOTAを達成とのこと。

Foundation Models: 基礎となるモデルの可能性とリスク

  • On the Opportunities and Risks of Foundation Models [260.2]
    ファンデーションAIモデルは、大規模なデータに基づいてトレーニングされており、幅広い下流タスクに適応できる。 本報告では,基礎モデルの可能性とリスクについて概説する。 これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 17:50:08 GMT)
    • StanfordのCenter for Research on Foundation Models (CRFM)による基礎モデル(≒大規模事前学習モデル)の可能性とリスクに関する論文。近年の大規模事前学習の状況と未来における課題について広範にまとまっている。114人の著者による211ページの論文であり書籍といっても良い規模。
    • https://www.arxiv-vanity.com/で変換済みのようなので、ここからブラウザの翻訳等使うと読みやすいかもしれない。

MMChat: Multi-Modal Chat Dataset

  • MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
    MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 15:27:49 GMT)
    • マルチモーダルな対話データセット。120K対話、200K画像と大規模。
    • 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。