- Small Language Models: Survey, Measurements, and Insights [21.2]
小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
論文 参考訳(メタデータ) (Tue, 24 Sep 2024 06:36:56 GMT) - 「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
- リポジトリはGitHub – UbiquitousLearning/SLM_Survey
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms
- A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms [34.8]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。 しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。 低ビット量子化は、モデルパラメータのビット幅を減らすことでこれらの課題を緩和するための重要なアプローチとして現れている。
論文 参考訳(メタデータ) (Wed, 25 Sep 2024 07:38:02 GMT) - A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B – arXiv最新論文の紹介 (devneko.jp) にも関連する低ビット量子化に関するサーベイ。
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (Sun, 22 Sep 2024 00:30:11 GMT) - 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
- リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)
LLaVA-Critic: Learning to Evaluate Multimodal Models
- LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:36:33 GMT) - マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
- プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization
- Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 03:49:56 GMT) - 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
- リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face
Emu3: Next-Token Prediction is All You Need
- Emu3: Next-Token Prediction is All You Need [45.1]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 16:06:11 GMT) - 「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
- リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends
- The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends [65.0]
会話分析(CA)は、会話データから重要な情報を発見し分析する。 本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。 会話シーンの再構築,奥行きの属性分析,ターゲットトレーニングの実行,会話の生成から,CAの4つの重要なステップを導出した。
論文 参考訳(メタデータ) (Sat, 21 Sep 2024 16:52:43 GMT) - 「Conversation analysis aims to identify critical information from human-human, humanmachine, machine-machine, and multi-party conversations, derive the underlying causes, and develop the solutions to drive relevant improvements for more effective goal achievement continuously, such as elevating customer experience, reducing complaint rate.」という定義の会話分析に関するサーベイ。
- 様々なタスクがあり、このような軸での分析も面白い。
Law of the Weakest Link: Cross Capabilities of Large Language Models
- Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (Mon, 30 Sep 2024 05:12:01 GMT) - 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
- リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”
HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (Tue, 24 Sep 2024 19:47:21 GMT) - AIエージェントの安全性を確かめるフレームワークの提案
- プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)
日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench
先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開(Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com))とLiquid AIによるLiquid Foundation Models (LFMs)の発表(Liquid Foundation Models: Our First Series of Generative AI Models)、Metaによる動画生成AI、Meta Movie Genの発表(Meta Movie Gen)だった。
1つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学 情報理工学院 情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。
2つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。
最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
(10/19追記) arXivに論文が出ていたので追加。
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:04:31 GMT) - 45か国をカバーする文化的ベンチマーク
- リポジトリはCulturalBench – a Hugging Face Space by kellycyy
- Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。 ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 16:22:46 GMT)