CC2Vec

  • CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection [20.7]
    CC2Vecは、単純なコードクローンを素早く識別するために設計された新しいコード符号化手法である。 広く使われている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価する。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 10:18:31 GMT)
  • 「In this paper, we introduce CC2Vec, a novel code encoding method designed to swiftly identify simple code clones while also enhancing the capability for semantic code clone detection.」とのこと。意味まで考慮して判定していけるのはすごい。
  • リポジトリはGitHub – CC2Vector/CC2Vec

LLM2Vec

  • LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.4]
    大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLLMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
    論文  参考訳(メタデータ)   (Tue, 09 Apr 2024 02:51:05 GMT)
  • LLMを用いたエンベディング。任意のCausalLMから埋め込み用モデル構築する手法の提案。優れた結果。単純といえば単純なアプローチではあるが、なぜこれが効果的なのかわかるようなわからないような。
  • 論文中の「Based on these findings (we replicate these results for other inputs and other Mistral models in Appendix F) and the strong unsupervised results for Mistral-7B with bidirectional attention, we speculate that Mistral models are pre-trained with some form bidirectional attention, e g , prefix language modeling (Raffel et al , 2020) – at least for some parts of its training.」が非常に興味深い。
  • リポジトリはMcGill-NLP/llm2vec: Code for ‘LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders’ (github.com)
  • Is Cosine-Similarity of Embeddings Really About Similarity? [46.8]
    コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。 正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。 我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 16:48:20 GMT)
  • コサイン類似度が最善でない場合もあるようだが、この手法はどうなんだろう。

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems

Img2Vec

  • Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.6]
    我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 03:01:37 GMT)
  • 2vec系、Img2Vec

Point2Vec

  • Point2Vec for Self-Supervised Representation Learning on Point Clouds [81.7]
    Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。 我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 10:08:29 GMT)
  • 2vecシリーズの点群版
  • リポジトリはpoint2vec (ka.codes)

AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

task vectors

  • Editing Models with Task Arithmetic [70.0]
    事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。 タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。 これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 05:50:53 GMT)
  • タスクを表すベクトルを作る・使うまでは理解できるとして、演算ができるって本当か?という研究。とても興味深い。
  • リポジトリはmlfoundations/task_vectors (github.com)

TOKEN2VEC / DyG2Vec

  • 音声認識等で用いられる音素トークンの分離、動的グラフの表現学習に関する2vecシリーズ
  • token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.0]
    token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。 実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 06:38:19 GMT)
  • DyG2Vec: Representation Learning for Dynamic Graphs with Self-Supervision [30.7]
    動的グラフ上での表現学習のための効率的なモデルであるDyG2Vecを提案する。 DyG2Vecはウィンドウベースのメカニズムを使用してタスクに依存しないノード埋め込みを生成し、将来のインタラクションを予測する。 2つのSSL評価機構を適用して動的グラフに適用し、SSL事前トレーニングがより堅牢な時間ノード表現の学習に役立つことを示す。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 18:13:04 GMT)

Dial2vec

vec2text

  • vec2text with Round-Trip Translations [31.0]
    本研究では,任意の自然言語テキストを生成することができるモデルについて検討する。 それらは普遍的なvec2textモデルと呼ばれます。 普遍性,多様性,流布性,意味的構造という,4つの望ましい特性を提案する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:20:18 GMT)
    • 2vecの逆でベクトルからのテキスト生成。面白い研究であるし、今も今後も機械翻訳や要約などテキスト生成系の技術は近しい動きをしているのだろうが、自然言語って何なんだろうと思わなくもない。