クラスタリング – arXiv最新論文の紹介

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.2]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文参考訳（メタデータ） (Wed, 21 Jan 2026 16:47:05 GMT)
論文の大規模分析、基本的にはスタンダードなプロセスのように見えるがLLMを効果的に使っている点に注目。「Tsinghua University emphasizes directions such as knowledge distillation, graph neural networks, adversarial training, domain adaptation, and model generalization, while Carnegie Mellon University demonstrates strong performance in areas like robotic grasping and manipulation strategies and causal discovery.」といったfindingsは面白い。
リポジトリはGitHub – xzc-zju/Profiling_Scientific_Literature

In-Context Clustering with Large Language Models [50.3]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文参考訳（メタデータ） (Thu, 09 Oct 2025 17:07:55 GMT)
LLMの内部知識を用いたクラスタリングモデルの提案。fine tuningによって性能を大きく向上させている。軸設定が強力にできるのが素晴らしい。
プロジェクトサイトはIn-Context Clustering

SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery [55.7]
Generalized Category Discoveryは、新しいカテゴリーを同時に発見し、既知のカテゴリを正確に分類することを目的としている。自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。モデルが微妙な違いを認識し、未知のカテゴリを明らかにする能力を高める。
論文参考訳（メタデータ） (Mon, 26 Aug 2024 15:53:50 GMT)
新たなカテゴリを見つけるための手法として「self-expertise」を提案。Semi-Supervised Kmeansの後、疑似ラベル内でのunsupervised self-expertise、疑似ラベルを用いた supervised self-expertiseでクラスタを生成。
リポジトリはGitHub – SarahRastegar/SelEx

Large Language Models Enable Few-Shot Clustering [88.1]
大規模言語モデルは、クエリ効率が良く、数発の半教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。最初の2つのステージにLLMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文参考訳（メタデータ） (Sun, 2 Jul 2023 09:17:11 GMT)
大規模言語モデルを用いたクラスタリング手法提案。「GPT-3.5 is remarkably more effective than a true oracle pairwise constraint oracle at this price point; unless at least 2500 pairs labeled by a true oracle are provided, pairwise constraint KMeans fails to deliver any value for entity canonicalization.」とのことでLLMに支援されたクラスタリングは非常に有効としている。
リポジトリはGitHub – viswavi/few-shot-clustering

Deep Clustering: A Comprehensive Survey [53.4]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文参考訳（メタデータ） (Sun, 9 Oct 2022 02:31:32 GMT)
- Deep系のクラスタリング手法のサーベイ。

A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 15:05:13 GMT)
- ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。