コンテンツへスキップ
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [112.0]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。 MoTはモデルの非埋め込みパラメータをモダリティで分離する。 複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 18:59:06 GMT)
- 性能がルータに依存するMixture of Expertsに対して、「MoT extends the standard transformer architecture by incorporating modality-specific weights for all non-embedding model parameters, including feed-forward networks, attention matrices, and layer normalization.」というアプローチのMixture of Transformerの提案。「In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline’s performance using only 55.8% of the FLOPs.」と有効性を主張。
- A Survey of Small Language Models [104.8]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。 本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (Fri, 25 Oct 2024 23:52:28 GMT)
- Small Language Model(といっても感覚的には小規模LLM)のサーベイ
- 「The inherent difficulty of a survey of small language models is that the definitions of “small” and “large” are a function of both context and time. GPT2, a “large language model” in 2019 at 1.5B parameters, is smaller than many “small” language models covered in this survey.」とある通り、Smallとは?というのが大きな疑問。
- GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 17:28:10 GMT)
- MLLMベースのGUIエージェントのサーベイ
- 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。
- MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 21:20:10 GMT)
- 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
- リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
- Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [83.4]
Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。 我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。 Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
論文 参考訳(メタデータ) (Tue, 05 Nov 2024 04:14:25 GMT)
- 高性能かつモデルが公開されているタイプのLLM。389Bパラメータうち52BがアクティブなるMoEでLlama 3.1 70Bを超え、405Bと競合的と主張。比較的寛容なライセンスであるが「THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.」というのが特徴的。「This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China」との記載も。
- リポジトリはGitHub – Tencent/Tencent-Hunyuan-Large、モデルはtencent/Tencent-Hunyuan-Large · Hugging Face
- Number Cookbook: Number Understanding of Language Models and How to Improve It [64.0]
大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。 本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
論文 参考訳(メタデータ) (Wed, 06 Nov 2024 08:59:44 GMT)
- LLMにおける numerical understanding and processing ability (NUPA)の分析と、その改善方法の検討。現状だとコード生成を介すなどツールを使うアプローチが有力だが、「1) we want to study the self-contained NUPA of LLMs, 2) calling external tools whenever encountering numbers increases the inference latency (Xu et al , 2024), and 3) we believe NUPA without tools is a necessary ability of AGI.」という点から本件ではツール利用が検討対象外となっている。
- 現時点では「We investigate NUPA of LLMs and introduce a comprehensive benchmark, the NUPA test, to reveal that numerical problems remain challenging for modern LLMs.」とのこと。やはり難しい問題。実用上はコード生成を介すなどして対応できなくはないが・・・。
- リポジトリはGitHub – GraphPKU/number_cookbook
- Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level [73.1]
我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。 経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。 キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。
論文 参考訳(メタデータ) (Tue, 05 Nov 2024 23:55:23 GMT)
- 「our results indicate that Agent K v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a record of 6 gold medals, 3 silver medals, and 7 bronze medals」とKaggleのグランドマスター並みを主張するエージェントシステムの提案。
- パイプライン構成やプロンプトなど参考になる点は多いが、「However, because this assessment relies on a custom split of the training data rather than the competition’s actual private test set, it remains uncertain whether an agent’s high ranking in this context would align with results on the original Kaggle leaderboard.」という記載やLeakの可能性など「ほんまかいな」という疑問点はなくはない。
- Neural Fields in Robotics: A Survey [39.9]
Neural Fieldsは、コンピュータビジョンとロボット工学における3Dシーン表現の変革的アプローチとして登場した。 この調査は、ロボット工学における彼らの応用を探求し、知覚、計画、制御を強化する可能性を強調している。 それらのコンパクトさ、メモリ効率、微分可能性、基礎モデルと生成モデルとのシームレスな統合は、リアルタイムアプリケーションに理想的です。
論文 参考訳(メタデータ) (Sat, 26 Oct 2024 16:26:41 GMT)
- 「This paper provides a thorough review of Neural Fields in robotics, categorizing applications across various domains and evaluating their strengths and limitations, based on over 200 papers.」というサーベイ、ロボット分野で研究・応用が広がっているとのこと。
- リポジトリはNeural Fields in Robotics: A Survey