2024年5月10日 – arXiv最新論文の紹介

CC2Vec

CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection [20.7]
CC2Vecは、単純なコードクローンを素早く識別するために設計された新しいコード符号化手法である。広く使われている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価する。
論文参考訳（メタデータ） (Wed, 01 May 2024 10:18:31 GMT)
「In this paper, we introduce CC2Vec, a novel code encoding method designed to swiftly identify simple code clones while also enhancing the capability for semantic code clone detection.」とのこと。意味まで考慮して判定していけるのはすごい。
リポジトリはGitHub – CC2Vector/CC2Vec

Why Tabular Foundation Models Should Be a Research Priority [65.8]
テーブルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文参考訳（メタデータ） (Thu, 02 May 2024 10:05:16 GMT)
Large Tabular Model、欲しいと思いつつ汎用的にできるのか＆コストが見合うのかは論文を読んでなお結構疑問