LLM – ページ 21 – arXiv最新論文の紹介

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
論文参考訳（メタデータ） (Mon, 20 May 2024 07:34:48 GMT)
社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.3]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (Fri, 17 May 2024 17:47:39 GMT)
LLMの多言語対応に関するサーベイ。
リポジトリも参考になる　GitHub – kaiyuhwang/MLLM-Survey: The paper list of multilingual pre-trained models (Continual Updated).

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.8]
LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
論文参考訳（メタデータ） (Thu, 30 May 2024 17:19:19 GMT)
LLMの評価手法の提案、「By using LLM agents to generate questions, employing LLM candidates in peer battles, and evaluating responses using LLM committee discussions, Auto-Arena produces less-contaminated, robust, and trustworthy evaluation results.」というエージェント的手法。自動評価ができるということは自動改善もできそうな気がするが、合議制で良いデータを作りfine tuningをしていくとどのくらいまで性能が上がるんだろうか。
プロジェクトサイト・リーダーボードはEmbedded Streamlit App (auto-arena.github.io)、英語と中国語でランキングがかなり異なるのが面白い。

Large Language Models Meet NLP: A Survey

Large Language Models Meet NLP: A Survey [79.7]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
論文参考訳（メタデータ） (Tue, 21 May 2024 14:24:01 GMT)
典型的なNLPタスクについてLLMを用いるアプローチを整理したサーベイ。結果がまとめられていないのがやや残念ではあるが、論文がリポジトリ（GitHub – LightChen233/Awesome-LLM-for-NLP）にまとまっているのが非常にありがたい。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

MoEで小型強力なYuan 2.0-M32
SSM（＆Transformerのハイブリッド）であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
中国語-英語ではあるが強力なオープンモデルであるMAP-Neo

Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
論文参考訳（メタデータ） (Tue, 28 May 2024 09:05:08 GMT)
MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model

Zamba: A Compact 7B SSM Hybrid Model [11.0]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文参考訳（メタデータ） (Sun, 26 May 2024 22:23:02 GMT)
SSMとTransformerのハイブリッドで効率的だが強力なLLM
リポジトリはZyphra/Zamba-7B-v1 · Hugging Face

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
論文参考訳（メタデータ） (Wed, 29 May 2024 17:57:16 GMT)
強力かつオープンなLLM
プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Why Not Transform Chat Large Language Models to Non-English?

Why Not Transform Chat Large Language Models to Non-English? [57.2]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文参考訳（メタデータ） (Wed, 22 May 2024 18:53:25 GMT)
LLMを他の言語に対応させる手法の提案。Target Language Pre-Training → Translation Pre-Training → Transfer Fine-Tuningという流れで翻訳をキーとしている。

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.1]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (Mon, 20 May 2024 15:48:32 GMT)
正方行列を用いたLoRAの改善
リポジトリはGitHub – kongds/MoRA

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (Thu, 23 May 2024 09:43:19 GMT)
数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース）を構築していて早速Llama 3を取り込んでいるのがすごい＆両者の性能がタスクによって大きく異なるのが興味深い。
リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。

xRAG、FlashRAG、HippoRAG

RAG関連の研究はとても盛ん

xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文参考訳（メタデータ） (Wed, 22 May 2024 16:15:17 GMT)
プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文参考訳（メタデータ） (Wed, 22 May 2024 12:12:40 GMT)
RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。その結果,本手法は最先端の手法を最大20%向上させることができた。提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
論文参考訳（メタデータ） (Thu, 23 May 2024 17:47:55 GMT)
海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31