arXiv最新論文の紹介

Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs

Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.2]
大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
論文参考訳（メタデータ） (Fri, 27 Dec 2024 08:09:11 GMT)
Confidence scoreとCriticの分析、および、自己修正能力を高める手法の提案
「Confidence prompt/ICL example can lead higer CL and lower CS; critique prompt/ICL example can cause lower CL and higher CS.」（Confidence Level (CL) and Critique Score (CS)）とトレードオフの関係にあるとのこと。
両者を改善するために「Critique Improvement Tuning (CCT), which can be divided into Confidence Level Improvement Tuning (CLT) and Critique Score Improvement Tuning (CST).」を提案
リポジトリはGitHub – Zhe-Young/SelfCorrectDecompose: Code for paper “Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs”

Large Concept Models: Language Modeling in a Sentence Representation Space

Large Concept Models: Language Modeling in a Sentence Representation Space [62.7]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (Sun, 15 Dec 2024 21:20:12 GMT)
トークン単位ではなくコンセプト単位に言語を扱ったモデルの提案、「In this study, as proof of feasibility, we assume that a concept corresponds to a sentence, and use an existing sentence embedding space, SONAR, which supports up to 200 languages in both text and speech modalities. The Large Concept Model is trained to perform autoregressive sentence prediction in an embedding space.」という設定で「The LCM outperforms Llama-3.1-8B-IT on English and on the average over foreign languages officially supported by the LLM.」との興味深い結果。一方で「We acknowledge that there is still a long path to reach the performance of current flagship LLMs.」との記載も。
リポジトリはGitHub – facebookresearch/large_concept_model: Large Concept Models: Language modeling in a sentence representation space

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 22:08:40 GMT)
構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
現時点でデータは公開されていない・・・？

ResearchTown: Simulator of Human Research Community

ResearchTown: Simulator of Human Research Community [14.0]
ResearchTownは、リサーチコミュニティシミュレーションのためのマルチエージェントフレームワークである。 ResearchTownは、協調研究活動の現実的なシミュレーションを提供する。 ResearchTownは、複数の研究者と多様な論文で堅牢なシミュレーションを維持できる。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 18:26:53 GMT)
流行っているマルチエージェントフレームワーク、だが、ついにTownに。。。
グラフ構造を変更するとどうなるかに興味津々
リポジトリはGitHub – ulab-uiuc/research-town: A platform for developers to simulate research community

Deliberation in Latent Space via Differentiable Cache Augmentation

Deliberation in Latent Space via Differentiable Cache Augmentation [48.2]
凍結した大規模言語モデルをオフラインコプロセッサで拡張し,キー値(kv)キャッシュで動作することを示す。このコプロセッサは、後続の復号化の忠実性を改善するために設計された遅延埋め込みのセットでキャッシュを増強する。キャッシュが拡張されると、デコーダは多数のトークンに対して低いパープレキシティを達成できることを示す。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 18:02:25 GMT)
「This paper introduces differentiable cache augmentation, a novel method for enhancing frozen decoderonly language models by incorporating a learned coprocessor that operates on the model’s kv-cache.」という提案。coprocessorはトレーニング可能。
論文でも言及のある Pause Token と考え方は似ているが、この手法のほうがより強力とのこと。

AIGT: AI Generative Table Based on Prompt

AIGT: AI Generative Table Based on Prompt [32.5]
我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。 20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 02:51:06 GMT)
テーブルの合成に関する提案。
良いモデルを得るためにはよい合成データを作る、とか、良いCriticモデルを作るとか、そういうアプローチが重要になっている気がする。

Revisiting In-Context Learning with Long Context Language Models

Revisiting In-Context Learning with Long Context Language Models [22.9]
In-Context Learning (ICL) は、言語モデルが入力コンテキストで提供される例に基づいて予測を行う手法である。 LCLM(Long Context Language Models)の出現により、コンテキストに含まれるサンプルの数が大幅に増加した。 4つのタスクにまたがる18のデータセットに関する広範な実験を通じて、LCLMの文脈でこれらのアプローチを再考する。
論文参考訳（メタデータ） (Sun, 22 Dec 2024 08:55:19 GMT)
「we find that the advent of LCLMs has fundamentally shifted the challenge of ICL from that of selecting the most effective examples to that of collecting sufficient examples to fill the context window.」という報告、LCLM = Long Context Language Models。
LLMの高性能化もあって過去のテクニックの有効性が薄れているよう。この手の進化に対応するため、比較検証を正しく容易に行えるようにしておくのは重要。

2024年のまとめ

2024年はLLM全盛、MLLMやエージェント関連、合成データ、自己評価（LLM as a judge、Critic、それからの自己改善など）と話題の多い年だった。商用API、オープンモデルともに大きく性能を上げていて、そろそろAGIが達成されつつある気配を感じる。以下、2024年各月の話題をGPT-4oにまとめてもらった。その後、全体のまとめをo1-previewで実施した。技術的なキーワードも入れてもらっているので、振り返るのによいかもしれない。

[o1-previewによるAIのまとめ]

以下の5つのトピックが重要です。

マルチエージェントシステムとAIエージェントの進化（例：AgentScope、MMedAgent、o1、LLaVA-o1、Marco-o1）
マルチモーダルモデルの発展と評価（例：mPLUG-Owl3、VITA、xGen-MM、EMOVA、Improving Factuality with Explicit Working Memory）
大規模言語モデルのモデルアライメントと自己改善技術（例：LLM Alignment Techniques、Self-Feedback、Self-Improvement in Language Models、Knowledge Editing、HaluEditBench）
プライバシー、著作権、技術的AIガバナンス（例：technical AI governance、CopyBench、Learning to Refuse、OpenDevin）
多様な分野におけるLLMの応用（例：教育：GPT-4、Paper Copilot、医療：o1、Multimodal Learning in Healthcare、ソフトウェア工学：LLMs for Software Engineering、xLAM）

2024年後半、AI研究は飛躍的な進歩を遂げました。7月には、複数のエージェントを活用したマルチエージェントシステムが注目を集め、AgentScopeがエージェント間の高度なシミュレーションを可能にしました。同時に、MMedAgentのようなマルチモーダルエージェントが、視覚と言語情報を統合して複雑なタスクを処理する能力を示しました。

8月には、大規模言語モデル（LLM）の応用が多方面で進み、プロセスマイニングやテーブル質問応答などの分野でLLMが活躍しました。エージェントシステムの自動化も進展し、GitHub上でcrewAIが複雑なタスクの効率的な実行を可能にしました。モデルの効率化に関しては、モデル圧縮技術やPruning、DistillationがLLMの性能向上に寄与しました。

9月には、マルチモーダルモデルのオープンソース化が進み、MolmoやPixMoが登場しました。教育分野では、GPT-4が学生の学習効果を高めるツールとして活用され、医療分野ではo1が高度な推論能力を持つモデルとして注目を浴びました。また、データ合成と継続的学習の技術が進化し、Source2Synthが効率的なデータ生成を可能にしました。ソフトウェア工学では、LLMを活用したエージェントが開発プロセスを支援し、xLAMがその代表例となりました。

10月には、言語モデルのパーソナライゼーション技術が発展し、ComPOやComPRedがユーザーやコミュニティのニーズに合わせたモデルの調整を実現しました。プロンプト圧縮技術も進化し、モデルの効率的な利用が可能となりました。さらに、長文の文脈を処理できるTaipanやMamba-2が登場し、より大規模なデータの活用が進みました。知識編集技術の評価と応用では、HaluEditBenchがモデルの幻覚を修正するためのベンチマークとして提案されました。

11月には、ソーシャルメディア上のユーザー行動を大規模にシミュレーションするOASISが開発され、社会現象のモデル化が進みました。エージェント技術もさらに高度化し、LLaVA-o1やMarco-o1が複雑なタスクをより効果的に処理できるようになりました。自己回帰モデルの視覚分野での応用も進み、画像生成やマルチモーダル生成に新たな可能性が広がりました。

12月には、LLMの知識管理とその限界を探求する研究が盛んになりました。例えば、「Knowledge Boundary of Large Language Models」では、モデルの知識の範囲と限界が分析されました。また、自己改善手法として「Self-Improvement in Language Models」や「Knowledge Injection via Prompt Distillation」が提案され、モデルの性能向上に寄与しました。マルチモーダルモデルの評価も深化し、「Improving Factuality with Explicit Working Memory」がモデルの正確性を向上させる手法として注目されました。さらに、プライバシーや著作権に関する問題にも焦点が当てられ、「CopyBench」や「Learning to Refuse」がモデルの倫理的な側面を強化するために開発されました。

これらの研究の進展により、マルチエージェントシステムとAIエージェントの能力が飛躍的に向上し、マルチモーダルモデルもより高性能かつ多機能になっています。また、LLMのモデルアライメントや自己改善技術の進化により、モデルの安全性と信頼性が高まっています。プライバシーや著作権、AIガバナンスの分野でも重要な進歩が見られ、多様な分野でのLLMの応用が加速しています。

今後の研究では、マルチエージェントシステムとAIエージェントのさらなる高度化が期待されます。特に、医療や教育など専門分野での高度な推論能力を持つエージェントの実用化が進むでしょう。マルチモーダルモデルは、より多様なデータを統合し、現実世界での応用範囲を拡大すると予想されます。また、LLMのモデルアライメントと自己改善技術は、モデルの倫理性と信頼性を高めるために重要となり、法規制やガバナンスと連携した研究が進むでしょう。プライバシーや著作権の問題にも対応する技術が求められ、ユーザーの安心・安全を確保する取り組みが強化されるでしょう。最後に、LLMの多様な応用がさらに深化し、産業界や社会全体でのAI活用が一層進むことが期待されます。

[202401]

[主なトピック]

大規模言語モデル(LLM)の多言語対応: Orion-14B, MaLA-500, YAYI 2
AIによるビデオ生成・編集技術: Lumiere, PIA, Vlogger
知識編集・知識の再学習: DeepEdit, ReMaKE, A Comprehensive Study of Knowledge Editing for Large Language Models
AIの対話システムと応用: DIALIGHT, Conversational Diagnostic AI
AIのガバナンスと倫理的側面: TrustLLM, Risk Taxonomy

[概要]
まず、Orion-14BやMaLA-500、YAYI 2といった大規模言語モデル(LLM)の多言語対応に関連する研究では、世界中の多くの言語でAIの性能を向上させることが目指されています。これにより、異なる言語環境でも同等以上の対応が求められ、情報技術のグローバルな普及に寄与する可能性があります。次に、ビデオ生成や編集の分野では、LumiereやPIAが注目されており、高品質な映像解析を実現する新しい方法として開発が進められています。さらに、知識の編集や再学習についてもDeepEditやReMaKEが紹介され、AIが既存の知識を効率的に更新するための技術が研究されています。対話システムの分野では、DIALIGHTが多言語対応の対話システムとして、Conversational Diagnostic AIは医療対話に特化したAIシステムとしての新たな進歩を示しています。最後に、AIのガバナンスや倫理的側面においては、TrustLLMやRisk TaxonomyがAIの信頼性や安全性の評価基準として展開されています。これらの研究は、技術開発とともに人間社会との調和を目指す重要なステップを示しています。

[202402]

[主なトピック]

大規模言語モデル (LLM) の調査研究（例：Large Language Models: A Survey, Continual Learning for Large Language Models: A Survey）
テキスト要約とその技術（例：TL;DR Progress, Structured Chain-of-Thought Prompting for Few-Shot Generation）
知識編集とプライバシー（例：Knowledge Editing on Black-box Large Language Models）
埋め込みとデータ取得技術（例：BGE Landmark Embedding: A Chunking-Free Embedding Method, Multilingual E5 Text Embeddings）
語彙リソースと多言語対応（例：Aya Dataset, Aya Model）

[概要]
最近のAI研究では、特に大規模言語モデル（LLM）の能力を最大限に引き出すための多様なアプローチが注目されている。これらの技術は、テキスト要約から知識編集、埋め込み、さらには多言語対応まで幅広く取り扱っている。例えば、LLMの調査では、各種LLMの性能やその特性を理解するための包括的なサーベイが行われており、モデル間の差異を整理する興味深い視点を提供している。テキスト要約に関しては、Chain-of-ThoughtやBGE Landmark Embeddingといった新しい手法が提案され、より精密な情報整理と要約作成が進んでいる。また、ブラックボックスモデルにおける知識編集では、プライバシー漏洩への対処を中心に後処理が工夫されており、それに関するパイプラインは多くの関連研究を取り入れ、強力な一般化性能を実証している。多言語対応では、Aya DatasetやAya Modelのように、世界中の多様な言語での指示と完了例を集め、多言語コレクションを構築し、言語モデルのトレーニングに利用している。これらの研究は、ただ定期的に更新されるだけでなく、応用可能性のある実践的なアウトプットを提供し、AIの発展に寄与している。

[202403]

[主なトピック]

状態空間モデルを用いた時系列予測技術検討: Mamba, S-Mamba, D-Mambaの導入
大規模モデルの効率的な微調整手法: Parameter-Efficient Fine-Tuning (PEFT)の調査
コントラスト学習における生成データの影響と対応策: 拡散モデルの活用検討
逐次命令チューニングによるマルチモーダル言語モデルの評価: Continuous Instruction tuNing (CoIN)
データ選択と効率的な訓練方法の研究: データセットと選択手法に関するサーベイ

[概要]
この文章は、最新のAI技術に関する様々な論文の概要を紹介しています。第一に、状態空間モデルを用いて時系列予測能力を向上させるために開発されたMambaというフレームワークが紹介されています。この技術は、GPU使用を抑える一方で高性能を実現することを目指しています。また、効率的な微調整手法としてParameter-Efficient Fine-Tuning (PEFT)の調査結果が示され、事前訓練された大規模モデルを効率的に下流タスクに適応させる方法が詳論されています。さらに、コントラスト学習領域では生成データが学習効率に与える影響についての議論がなされており、特に拡散モデルの利用可能性について触れられています。また、継続的な命令チューニングを用いたマルチモーダル言語モデルの評価基準としてContinuous Instruction tuNing (CoIN)が提案され、モデルの長所と限界が検証されています。最後に、データの適切な選択と効率的な訓練方法についての調査が行われ、これが如何にモデル性能に影響を与えるかについて分析されています。これらの研究は、AI技術の進展における重要な課題とその解決策を探求する上での有用な知見を示しています。

[202404]

[主なトピック]

自動運転関連のビジョン言語モデル評価: CODA-LM, GPT-4V
LLMを用いたエージェントの戦略行動シミュレーション: GovSim, GPT-4
大規模言語モデルの多言語能力向上手法: CrossIn, Phi-3
マルチモーダルモデルの評価と進化: VisualWebBench, InternVL
言語モデルの知識容量と効率的なトレーニング手法: Scaling laws, RecurrentGemma

[概要]
最近の研究において、自動運転車のための新しいベンチマークであるCODA-LMを用いて、ビジョンと言語モデルを自動的に評価する手法が登場しました。これは、GPT-4Vなどの商用モデルでも十分に対応できない場面があることを示しており、モデルの進化が必要であることを示唆しています。また、LLMを使用したエージェントがいかにして戦略を立て、資源を管理するかをシミュレーションするプラットフォームのGovSimが発表され、この研究はAIの倫理的な使用に深く関わってきます。他方、Phi-3やCrossInといった研究では、大規模言語モデル(LLM)の多言語対応能力を拡張する技術が開発されました。特に、CrossInは複数の言語での指示チューニングデータを用いて効果的な知識の伝達を実現し、異なる言語間での性能向上を目指しています。さらに、マルチモーダルな大規模言語モデルの評価が進む中で、VisualWebBenchなどのベンチマークにより、MLLMのWebタスクにおけるパフォーマンスが測定されています。こうした研究はモデルの改善点を特定する重要な手段となっています。そして、RecurrentGemmaやスケーリング法則に関する研究には、LLMの知識を効率的にスケールさせるための新たな方法が提案されており、これらの技術革新はLLMのさらなる進化を支える基礎となっています。

[202405]

[主なトピック]

言語モデルの多言語化技術: TransLLM
パラメータ効率の良い微調整手法: MoRA, Low-ranked Adaptation, High-rank Updating
タンパク質理解と言語モデル: ProtT3, Protein Language Model, Protein-to-Text Generation
数学問題生成と小規模LLM: JiuZhang3.0, Synthesis Models, LLaMA-3
コンテキスト学習とデータ圧縮: Implicit In-context Learning, Context Vector, Extreme Context Compression

[概要]
「Why Not Transform Chat Large Language Models to Non-English」という論文では、非英語圏向けの大規模言語モデルの開発における課題と解決策が議論されています。非英語データの不足が、これらの言語モデル開発の大きな制約となっています。それに対して、TransLLMという手法が提唱されており、この手法は「翻訳型思考の連鎖」という概念を用いて、モデルを多言語化に適応させるサブタスクに分解します。これにより、ChatGPTを超える性能が観察されました。また、MoRAという新しい高ランク更新手法も言及されており、パラメータ効率のよい微調整が可能になります。同様に、LLMとタンパク質言語モデルを組み合わせたProtT3も紹介されており、タンパク質データをテキスト化する新しい手法が開発されています。さらに、数学問題の生成に特化した小規模LLMであるJiuZhang3.0は、多数の数学問題を効率的に生成し、高品質な事前学習データを提供することで、商用でも有望な結果を示しています。技術的には、各種の機械学習手法が、余裕のある処理能力と分析能力を持ち、学術的に高い価値を持つと考えられています。また、インコンテキスト学習をさらに深め、コンテキストベクトルの有効性を検証し、コンテキストの効率的な圧縮が研究されています。これにより、多言語対応の大規模言語モデルの研究は、より包括的かつ高度な知識生成を可能にする新たな段階に進みつつあります。

[202406]

[主なトピック]

コード生成技術: RAGを活用し、柔軟な生成プロセスを検討（CodeRAG-Bench、DeepSeek-Coder-V2）
大規模言語モデルの多言語処理: 多言語データセットとモデル評価（X-Instruction、A Survey on Large Language Models with Multilingualism）
ビジョン・ランゲージモデル: 複数のモードを用いた生成と評価（OpenVLA、MuirBench）
ツール活用とエージェント: モデルの能力を強化するツール学習やエージェント設計（Tool-Planner、Agent Design Pattern Catalogue）
データセットとベンチマークの重要性: 多様なタスクに向けたベンチマークの開発と評価（CS-Bench、Video-MME）

[概要]
近年のAI研究では、大規模言語モデルとビジョン・ランゲージモデルを活用した多様なアプローチが注目を集めています。特に、生成技術の分野では、複数の情報源からデータを取得して柔軟に生成を行う「検索拡張生成（RAG）」の有効性が確認されています。これにより、特定のタスクに応じた深い洞察を得ることが可能になるとされています。また、多言語処理においては、低リソース言語に対する新しいデータセットと評価手法の開発が進んでいます。特に、英語以外の言語において、AIモデルの性能を高めるためのアプローチが模索されている状況です。ビジョン・ランゲージモデルにおいても、異なるモードを組み合わせることで実現できる多様な応用例が示されており、これがAIの能力をさらに引き出す可能性を示しています。さらに、ツールを活用した新たなエージェントの設計や、効果的な操作を可能にするツール学習の手法も研究されており、これが高度な問題解決能力の強化につながっています。最後に、各種の大規模データセットとベンチマークが、AIモデルの性能評価において重要な役割を果たし続けており、これらを活用した多種多様な研究が進行中であることが見られます。

[202407]

[主なトピック]

マルチエージェントシステム: マルチエージェントプラットフォーム「AgentScope」、マルチモーダルエージェント「MMedAgent」、Spider2-V
技術的AIガバナンス: technical AI governance、OpenDevin、LLMBox
プライバシーと著作権: Learning to Refuse、CopyBench、Evaluating Copyright Takedown Methods for Language Models
データの合成と処理: Persona Hub、AutoBencher、LLM2LLM
ベンチマークと評価: BioKGBench、Mobile-Bench、OlympicArena Medal Ranks

[概要]
この記事では、最新のAI関連技術とベンチマークに関する多様なトピックが紹介されています。まず、マルチエージェントシステムでは、複数のエージェントを用いたシミュレーションを実現するためのプラットフォームである「AgentScope」や、視覚と言語を統合して問題を解決する「MMedAgent」などの技術が取り上げられています。これらは、異なる手法でシステム全体をより効率よく制御し、より踏み込んだシミュレーションを可能とするものです。

次に、技術的AIガバナンスの分野においても、非法的な利用を回避しAIの効果的管理をサポートする「technical AI governance」及び、オープンソースのAI開発プラットフォーム「OpenDevin」が紹介されています。これらの技術は、より安全で透明性の高いAIの開発と運用を支えるためのもので、AIが社会に及ぼす影響を継続的に評価する試みです。

また、プライバシーと著作権についても「Learning to Refuse」、著作権されたテキストの防止を支援する「CopyBench」といった技術が話題に上がっています。個人データの活用についての倫理的懸念が高まる中、これらの技術は重要な役割を果たすと期待されています。

さらに、データの合成と処理技術では、多様なキャラクター設定を用いる「Persona Hub」やベンチマークを自動構築する「AutoBencher」、そしてデータを拡張する「LLM2LLM」などが挙げられています。これらの技術は、データを効率的に扱い、モデルの性能向上に寄与するために開発されています。

最後に、ベンチマークと評価では、バイオメディカル分野のエージェント評価「BioKGBench」やモバイル環境向け「Mobile-Bench」、さらに性能をランキングする「OlympicArena Medal Ranks」といった様々な評価技術と基準が紹介されています。これらの技術は、AIの実用性と信頼性を高め、具体的な改善策を見つけやすくするためのものです。

[202408]

[主なトピック]

大規模言語モデル(LLM)とその応用：プロセスマイニング、テーブル質問応答、推論、マルチモーダルモデルなどがLLMを中心に展開されている。例：LLM時代のプロセスマイニング、TableBench、mPLUG-Owl3。
エージェントシステムと自動化：AIエージェントがプロセスマイニングタスクを効率的に実行するための取り組みが進んでいる。例：GitHub – crewAIInc/crewAI、Strategist。
モデル圧縮技術と効率化：コンピュータビジョンにおけるモデル圧縮の進展や、LLMに対するPruningとDistillationの試みが進んでいる。例：Computer Vision Model Compression Techniques、LLM Pruning and Distillation。
モデルアライメントとフィードバック：アライメント技術やSelf-Feedbackを用いたLLMの品質向上の取り組みが注目されている。例：A Comprehensive Survey of LLM Alignment Techniques, Internal Consistency and Self-Feedback。
マルチモーダルモデルの進化：視覚、言語、音声を組み合わせたMLLMが、様々なタスクで有効性を示している。例：VITA、xGen-MM。

[概要]

近年、人工知能の進展に伴い、大規模言語モデル(LLM)の役割はますます重要性を増しています。主にLLMの応用、エージェントシステムの自動化、モデル圧縮と効率化、モデルアライメントとフィードバック、マルチモーダルモデルの進化の5つのトピックに分かれた研究が進展しています。LLMは、プロセスマイニングやテーブル質問応答、マルチモーダルモデルへの適用において有効性を示しており、GitHub上でのプロジェクトも活発です。さらに、AIエージェントや自動化技術は、複雑なタスクの効率的な実行を可能にしており、エージェントシステムの設計が進化しています。また、コンピュータビジョンではモデル圧縮技術が重要な役割を果たし、PruningやDistillationはLLMの効率化に寄与しています。モデルアライメントでは、人間の期待に沿った応答を生成するためのRLHFやSelf-Feedback技術が考案され、LLMのパフォーマンス向上に寄与しています。最後に、マルチモーダルモデルの進化については、VITAやxGen-MMが視覚、言語、音声の同時処理を実現し、より複雑なタスクへの対応に寄与しています。これらの技術進展は、現実世界におけるAIの有効性を高め、さらに多様な応用の可能性を広げるものとなっています。

[202409]

[主なトピック]

マルチモーダルモデルとそのオープンウェイトの技術 (例: Molmo, PixMo, EMOVA)
自然言語処理と教育分野における大規模言語モデルの応用 (例: GPT-4, Paper Copilot)
医療分野でのAIの進展と課題 (例: o1, Multimodal Learning in Healthcare)
データ合成と継続的学習技術 (例: Synthetic continued pretraining, Source2Synth)
エージェントベースのAIとソフトウェア工学への応用 (例: LLMs for Software Engineering, xLAM)

[概要]

近年、オープンなマルチモーダルモデルが次々と開発されています。MolmoやPixMoなどは画像、テキスト、音声を組み合わせた多様なデータセットを使用します。これにより、これまで到達できなかった精度と表現力を実現しています。また、EMOVAのようなモデルは、感情を含むコミュニケーションを可能にし、多様なベンチマークで優れた性能を示しています。さらに、自然言語処理の技術は教育分野でも活用され始めており、GPT-4のようなモデルは学生のエンゲージメントを向上し、学習効果に良い影響を与えることが確認されています。医療分野では、o1などのモデルが、複雑な推論能力を有し、医療シナリオでの応用が予定されています。

データ合成や継続的学習の手法も、AIモデルの性能向上に重要な役割を果たしています。特にSource2Synthのような手法では、現実世界に基づいたデータを合成することで、効率的な学習が可能になります。ソフトウェア工学においても、エージェントベースのAIは注目されています。LLMsを活用したエージェントは、多様なタスクを効率的に処理し、ソフトウェア開発の場で既に効果を発揮し始めています。特にxLAMは、エージェントの動作を最適化するために合成データを活用しており、その応用範囲を広げています。このように、AI技術は多様な分野で急速に進化を遂げており、今後のさらなる発展が期待されています。

[202410]

[主なトピック]

言語モデルのパーソナライゼーション技術（ComPO、ComPRed）
プロンプト圧縮技術（ハードプロンプト法、ソフトプロンプト法）
合成データを用いた学習強化（ScaleQuest）
長文言語モデリング技術（Taipan、Mamba-2）
知識編集技術の評価と応用（HaluEditBench、Knowledge Editing）

[概要]

このテキストは、AIおよび大規模言語モデル（LLM）に関する複数の技術カテゴリを紹介しています。まず、言語モデルのパーソナライゼーション技術についての論文では、ComPOという新しい手法が紹介され、Redditデータを用いたComPRedでコミュニティの好みに合わせたモデル変換が行われています。また、プロンプト圧縮技術についてもハードプロンプト法とソフトプロンプト法に分けての研究概要が示されています。次に、合成データを活用したモデルの能力向上に関しては、ScaleQuestという新しいデータ合成フレームワークが提案され、従来のトレーニングセットを凌駕する質の高いデータ生成が可能とされています。さらには、長文言語モデリングに向けた技術としてTaipanのような選択的注意メカニズムを用いたステートスペースモデルが紹介され、特に大規模なコンテキスト内での効率的な処理が可能とされています。最後に、LLMにおける知識編集技術の評価と応用へ向けたHaluEditBenchというベンチマーク環境が提案されており、実際の幻覚修正における知識編集手法の有効性を測定しています。これらの技術は、現代のAI研究をリードする重要なテーマを含んでおり、特にコミュニティや業界での応用に期待が寄せられています。

[202411]

[主なトピック]

自動化と検証: 検証工学、ショートカット学習、Verifier Engineering、In-Context Learning
ソーシャルメディアと大規模シミュレーション: OASIS、LLM-driven simulations、Open Agents Social Interaction Simulations
自己回帰モデル: Autoregressive Models、Autoregression Perspective、画素ベース、トークンベース、スケールベース
ベンチマークと評価: Dynamic-SUPERB Phase-2、OpenScholar、JudgeBench、FrontierMath
言語モデルと推論: LLaVA-o1、Marco-o1、報酬誘導木探索、Structured Reasoning

[概要]
これらの記事では、先進的な基礎モデルの開発、検証、応用に関する様々なトピックが扱われています。特に注目されるのは、基礎モデルの後処理として検証工学が提案されており、自動化された検証機能を活用した新しい手法が紹介されています。また、In-Context Learningにおけるショートカット学習の課題についても研究されており、その学習プロセスにおける非効率を取り除く視点が提案されました。ソーシャルメディアのユーザー行動を大規模にシミュレーションするOASISは、現実のソーシャル現象をモデル化するための強力なフレームワークとして注目されています。自己回帰モデルも視覚分野に適用されつつあり、画像生成やマルチモーダル生成における革新が進められています。それに関連して、ベンチマークの重要性も強調されており、様々なタスクでの性能評価が進行しています。データ科学エージェントの開発では、大規模言語モデルがKaggleのグランドマスター級の性能を達成するなど、AIの応用がますます広がっています。複雑な推論や因果推論も強化されつつあり、これにより問題解決能力が向上しています。これらの研究は、AIの能力をさらに高めるための基盤を形成しており、様々な応用が期待されています。

[202412]

[主なトピック]

大規模言語モデル(LLM)の知識管理と境界の探求: Knowledge Boundary of Large Language Models, B-STaR, Think&Cite。
機械翻訳と推論技術の進化: DRT-o1, Path-of-Thoughts, HiAR-ICL。
ファインチューニングおよび自己改善手法: Knowledge Injection via Prompt Distillation, Predicting Emergent Capabilities by Finetuning, Self-Improvement in Language Models。
マルチモーダルモデルとその評価: Improving Factuality with Explicit Working Memory, Inst-IT, MME-Survey。
オープンソースデータセットとベンチマーク: RedPajama, WithdrarXiv, The BrowserGym Ecosystem。

[概要]

大規模言語モデル（LLM）の研究が進む中、知識の管理とその境界を理解することが重要視されています。「Knowledge Boundary of Large Language Models」では、LLMが有する知識の制限を様々な方法で探求しています。特に、自己学習と改善に関する技術、「B-STaR」や「Think&Cite」のように、モデルの性能を向上させるための知識の活用法が注目されています。一方、機械翻訳や関係推論といった応用技術は、「DRT-o1」や「Path-of-Thoughts」などの技術により飛躍的に進化しています。この分野では、ファインチューニングや自己改善がモデル性能に与える影響も注目されており、「Knowledge Injection via Prompt Distillation」や「Predicting Emergent Capabilities by Finetuning」といった手法が試みられています。

さらに、視覚情報を含むマルチモーダルモデルの評価も進んでおり、「Improving Factuality with Explicit Working Memory」や「Inst-IT」がその例です。これらは、モデルが一貫した正確な情報を生成することを目指しています。オープンソースのデータセットやベンチマークも進化しており、「RedPajama」や「WithdrarXiv」がその代表例で、広範なデータセットを基にした評価が可能となっています。これらの進展は、LLMの開発と応用において多くの新たな可能性を示すものであり、技術の進化が今後どのように社会に影響を与えるのかが注目されます。

PC Agent: While You Sleep, AI Works — A Cognitive Journey into Digital World

PC Agent: While You Sleep, AI Works — A Cognitive Journey into Digital World [19.0]
PC Agentは、人間の認知伝達を通じて、このビジョンに向けて重要なステップを示すAIシステムである。この仮説を検証するために、我々は3つの重要な革新を紹介した。 PowerPointのプレゼンテーション作成における予備的な実験は、少量の高品質な認知データで複雑なデジタル作業機能を実現することができることを示している。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 14:02:12 GMT)
「trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications.」という手法の提案。非常に効率的な印象。「In conclusion, we presented a cognition transfer framework that efficiently guides AI to the digital world through three key components: PC Tracker for collecting human-computer interaction data, a two-stage post-processing for cognition completion, and a multi-agent system for computer task automation.」とあるが、社会実装の上ではPC Tracker周りでいろいろとトラブルが起きそう。この手の操作データは誰に所属するべきなんだろう。
リポジトリはPC Agent: While You Sleep, AI Works – A Cognitive Journey into Digital World

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。既存の文書理解ベンチマークは少数のページしか処理できない。半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 13:39:32 GMT)
文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
リポジトリはGitHub – dengc2023/LongDocURL

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31