GIVL: Geographical Inclusivity of Vision-Language

  • GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
    我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 03:43:45 GMT)
  • 結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
  • コードなどはリリース予定とのこと。

Fruit Ripeness Classification

  • Fruit Ripeness Classification: a Survey [59.1]
    食品を格付けするための特徴記述子を多用する多くの自動的手法が提案されている。 機械学習とディープラーニング技術がトップパフォーマンスの手法を支配している。 ディープラーニングは生のデータで操作できるため、複雑なエンジニアリング機能を計算する必要がなくなる。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 19:32:20 GMT)
  • 果物の熟成度合いを判定するAIに関するサーベイ。(当たり前かもだが)この分野にもDeepLearningが浸透していることがわかる。

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

  • Large Language Models as Corporate Lobbyists [0.0]
    自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。 モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 16:55:35 GMT)
  • AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
  • (正当な目的にも使えるとはいえ)SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
  • GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).
  • GPT Takes the Bar Exam [0.0]
    GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。 最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 18:19:43 GMT)
  • GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

“Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice

  • “Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice [10.8]
    研究者と実践者の間に明らかなギャップがあることから,本論文は2つの領域を橋渡しすることを目的としている。 まず実世界のケーススタディを3つのケーススタディで提示し、そのケーススタディから、未知の、あるいは無視された実用的な洞察を導き出すことができる。 次に、トップセキュリティカンファレンスで最近公開されたすべての敵対的ML論文を分析し、ポジティブなトレンドと盲点を強調します。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 14:11:07 GMT)
  • 機械学習を利用したシステムへの攻撃に関する非常に広範なサーベイ。研究と実務のギャップがわかる内容。セキュリティ関連一般に言えることかもだが、悪意のある攻撃からの防御にはシステム全体の考慮が必要。
  • このサーベイのリソースはReal Attackers Don’t Compute Gradients (real-gradients.github.io)で公開されている。また、Welcome to the Artificial Intelligence Incident Database が参考文献に挙げられており参考になった

ConvNeXt V2

  • ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.1]
    完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。 この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 18:59:31 GMT)
  • ConvNeXt: ResNetの近代化 – arXiv最新論文の紹介 (devneko.jp)の次世代バージョン。 Global Response Normalization (GRN)層の追加により性能向上とのことだが、シンプルな処理(に見える)追加で性能が大きく改善しているのが驚き。
  • リポジトリはGitHub – facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model、事前学習済みのモデルもダウンロード可能

Rank-LIME

  • Rank-LIME: Local Model-Agnostic Feature Attribution for Learning to Rank [16.8]
    Rank-LIMEは、モデルに依存しない局所的、ポストホック的特徴属性法である。 我々は,新しい相関に基づく摂動,微分可能なランキング損失関数を導入し,ランキングに基づく付加的特徴帰属モデルを評価するための新しい指標を導入する。
    論文  参考訳(メタデータ)   (Sat, 24 Dec 2022 12:14:32 GMT)
  • ランキングタスクに対する説明手法(LIMEベース)の提案

CiT: Curation in Training

  • CiT: Curation in Training for Effective Vision-Language Data [84.8]
    本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。 我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 18:59:57 GMT)
  • 近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
  • GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Muse: Text-To-Image Generation via Masked Generative Transformers

  • Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
    Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 14:43:38 GMT)
  • mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
  • Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)

VALL-E

  • Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
    テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 15:37:15 GMT)
  • 最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
  • リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

SparseGPT

  • Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
    大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。 これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 17:48:56 GMT)
  • one-shotなpruning手法の報告。OPTを対象にした実験では50%程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。