Measuring Diversity in Synthetic Datasets 

  • Measuring Diversity in Synthetic Datasets [59.5]
    大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのための合成データセットを生成するために広く採用されている。 これらの合成データセットの多様性を正確に測定する – 堅牢なモデルのパフォーマンスに不可欠な側面は、大きな課題である。 分類の観点から,合成データセットの多様性を測定する新しい手法であるDCScoreを紹介する。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 15:46:34 GMT)
  • 合成データの多様性を評価する手法の提案、「the difference between samples can be measured through a n-classification task, where evaluating n sample datasets involves n n-classification tasks, with each sample corresponding to a distinct category.」という分類モデルを用いるアプローチ。合成データ活用が広がり、DeepSeek V3/R1で加速しそうな中、結論にある「we hope our work encourages future research to pay more attention to the diversity of synthetic datasets」はその通りだと思う。
  • リポジトリはGitHub – BlueWhaleLab/DCScore

AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society

  • AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society [32.8]
    本稿では,現実的な社会環境を統合した大規模社会シミュレータであるAgentSocietyを提案する。 提案したシミュレーターに基づいて,500万件のインタラクションをシミュレートし,10万件以上のエージェントの社会生活を生成する。 偏極、炎症性メッセージの普及、普遍的ベーシック・インカム・ポリシーの効果、ハリケーンなどの外部ショックの影響の4つに焦点をあてる。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 15:27:07 GMT)
  • LLM based Agentsの大規模シミュレーション、システムアーキテクチャは割と固めの構成に見えるが10Kを超える規模にスケールできそうなのは凄い。
  • 「AgentSociety serves as a powerful tool for predicting and mitigating social crises, tracking the spread of extreme ideologies, and analyzing group polarization, while also testing potential interventions for crisis management.」と主張。このアプローチがどの程度うまくいくのか楽しみでもあり、怖くもありという印象。

Human Decision-making is Susceptible to AI-driven Manipulation

  • Human Decision-making is Susceptible to AI-driven Manipulation [71.2]
    AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。 本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
    論文  参考訳(メタデータ)   (Tue, 11 Feb 2025 15:56:22 GMT)
  • 「Our randomized control trial with 233 participants demonstrated that human decision-making is highly susceptible to AI-driven manipulation, with participants significantly shifting preferences toward harmful options and away from beneficial choices when interacting with manipulative AI agents.」という衝撃的な結果。「strategy-enhanced manipulative agent (SEMA) employing
  • established psychological tactics to reach its hidden objectives.」の有効性がいまいちだった理由はそんなものを使わなくてもAIが強力だったとするんだろうか。
  • 今後、AIへの依存度が高まっていくこと、AIの性能自体が上がっていくことを考えると怖い結果。規制の必要性を主張しているがそれだけで十分とは思えない。。。

DeepThink: Aligning Language Models with Domain-Specific User Intents 

  • DeepThink: Aligning Language Models with Domain-Specific User Intents [25.5]
    本研究では、高品質な命令を生成するためのDeepThinkと呼ばれる新しいフレームワークを提案する。 DeepThinkはまず、いくつかのシード質問を生成して、実際のユーザ質問を模倣し、会話をシミュレートして、隠されたユーザニーズを明らかにし、会話のコンテキストによって回答を洗練する。 実験により、DeepThinkは広告ドメイン内の実際のユーザテストセット上でのGPT-4-turbo+RAGベースのアシスタントと比較して平均パフォーマンスが7.92%向上していることが示された。
    論文  参考訳(メタデータ)   (Sat, 08 Feb 2025 09:04:16 GMT)
  • 「: data synthesis based on conversations, data refinement based on conversations, and supervised fine-tuning (SFT) enhanced with retrieval, DeepThink addresses the critical challenge of adapting LLM to understand and meet hidden user needs in vertical domains.」というデータ合成フレームワーク+αの提案と有効性検証。
  • ユーザの隠れたニーズに対応するためLLMの内部知識が有効という解釈だろうか。ありそうな気はするのと、大規模に行うAgentSocietyのようなことが現実的なら様々な分野で活用できそう。(悪用も怖い)

An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

  • An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging [12.1]
    本稿では,言語固有の大規模言語モデル(LLM)の推論能力の向上を目的とする。 DeepSeek R1は推論に優れていますが、主に英語や中国語のような高リソース言語にメリットがあります。 低リソース言語は、英語中心のトレーニングデータとモデル最適化の優位性のため、いまだに保存されていない。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 08:10:45 GMT)
  • LLMの推論能力を高めるためのモデルマージ+SFT、「We demonstrate that, with only publicly available datasets and a computational budget of $120, it is possible to enhance the reasoning capabilities of language-specific LLMs to match the level of DeepSeek R1, without compromising their performance on target language tasks.」とのこと
  • Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社でも近いアプローチをとっているように見える。

LM2: Large Memory Models 

  • LM2: Large Memory Models [11.3]
    本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。 BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
    論文  参考訳(メタデータ)   (Sun, 09 Feb 2025 22:11:42 GMT)
  • Large Memory Model (LM2)「decoder-only Transformer architecture enhanced with an auxiliary memory module」の提案。多くの人が待ち望んでいる拡張形態であり、実用的な規模(大規模)での検証でうまくいくか興味津々。
  • リポジトリはGitHub – convergence-ai/lm2: Official repo of paper LM2