コンテンツへスキップ
- 34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery [26.0]
大規模言語モデル(LLM)は、材料科学と化学研究の多くの側面を再構築している。 最近の進歩は、最新のモデルのクラスが構造化データと非構造化データを統合することができることを示している。 第2回Large Language Model Hackathon for Applications in Materials Science and Chemistryで開発された34のプロジェクトを通して,LLMの応用を概観する。
論文 参考訳(メタデータ) (Mon, 05 May 2025 22:08:37 GMT)
- 「To explore the frontier of LLM capabilities across the research lifecycle, we review applications of LLMs through 34 total projects developed during the second annual Large Language Model Hackathon for Applications in Materials Science and Chemistry, a global hybrid event. These projects spanned seven key research areas: (1) molecular and material property prediction, (2) molecular and material design, (3) automation and novel interfaces, (4) scientific communication and education, (5) research data management and automation, (6) hypothesis generation and evaluation, and (7) knowl- edge extraction and reasoning from the scientific literature.」というハッカソンのまとめ
- 興味深いトライもあり、面白い。
- HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.1]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。 実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (Mon, 05 May 2025 02:38:58 GMT)
- 「Compared to previous tree planning methods such as ToT (Yao et al , 2024) and RAP (Hao et al , 2023), HTP introduces structural innovations that enable each edge to connect multiple child nodes, making it suitable for a divide-and-conquer strategy.」という特徴を持つHyperTreeを使った行動計画の提案。
- 効果が高いよう。通常のツリーよりも強力な構造であるのは確かだろうがLLMも扱いやすいという点が面白い。(いろいろ書ける)自然言語に似ている・・・?
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。 この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (Sat, 26 Apr 2025 07:48:52 GMT)
- ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
- リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities、
- $\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge [6.1]
我々は,複数のドメインにまたがる仮説的かつ妥当なニュースからなるデータセットである$textitNew News$を紹介した。 我々は,文脈を伴わないモデルから知識を抽出し,文脈を伴わないモデルの重みに組み込むための,セルフプレイデータ生成プロトコルのスイートを探索する。 以上の結果から,Sys2-FTの自己QAプロトコルは,モデルによるニュースの重み付け学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (Sat, 03 May 2025 12:49:35 GMT)
- ICLとFTのギャップに関する分析とSys2-FTという手法の提案。「Our results demonstrate that the self-QA protocol of Sys2-FT significantly improves models’ in-weight learning of the news.」とのこと。
- ICLとFTの差異はとても興味深いし実用上も重要。
- Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.2]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。 コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。 この調査は、AIのメモリに関する研究、ベンチマークデータセット、ツールに関する構造化された動的視点を提供する。
論文 参考訳(メタデータ) (Thu, 01 May 2025 17:31:33 GMT)
- LLM、エージェントにとって重要なメモリのサーベイ。
- 「In this survey, we first categorize memory representations into parametric, contextual structured, and contextual unstructured and then introduce six fundamental memory operations: Consolidation, Updating, Indexing, Forgetting, Retrieval, and Compression.」という軸設定。
- Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.9]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (Thu, 01 May 2025 19:06:10 GMT)
- 「SAGE instantiates a Sentient Agent that simulates human- like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts.」(SAGE=Sentient Agent as a Judge)という評価フレームワークの提案。「rankings produced by SAGE diverge markedly from Arena results, confirming that social cognition is orthogonal to generic helpfulness. 」とのこと。
- リポジトリはdigitalhuman/SAGE at main · Tencent/digitalhuman · GitHub
- Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.4]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。 彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。 本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (Wed, 30 Apr 2025 06:09:40 GMT)
- 「(1) assessment tools; (2) LLM-specific datasets; (3) evaluation metrics (consistency and stability); (4) empirical findings; (5) personality simulation methods; and (6) LLM-based behavior simulation.」を軸としたレビュー。
- HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.8]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。 コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 22:50:23 GMT)
- 「Despite the widespread adoption of RAG, it faces three significant technical challenges that hinder its ability to scale to millions of documents.」はまさにその通りで、大規模RAGの構築にとって参考になる論文。
- かなり凝ったことも行っている。(分野によっては)実用上もこのようなアプローチが必要になるんだろうか…