staka – ページ 45 – arXiv最新論文の紹介

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (Sun, 22 Sep 2024 00:30:11 GMT)
多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

LLaVA-Critic: Learning to Evaluate Multimodal Models

LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:36:33 GMT)
マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (Fri, 27 Sep 2024 03:49:56 GMT)
「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face

Emu3: Next-Token Prediction is All You Need

Emu3: Next-Token Prediction is All You Need [45.1]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文参考訳（メタデータ） (Fri, 27 Sep 2024 16:06:11 GMT)
「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need

The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends

The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends [65.0]
会話分析(CA)は、会話データから重要な情報を発見し分析する。本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。会話シーンの再構築,奥行きの属性分析,ターゲットトレーニングの実行,会話の生成から,CAの4つの重要なステップを導出した。
論文参考訳（メタデータ） (Sat, 21 Sep 2024 16:52:43 GMT)
「Conversation analysis aims to identify critical information from human-human, humanmachine, machine-machine, and multi-party conversations, derive the underlying causes, and develop the solutions to drive relevant improvements for more effective goal achievement continuously, such as elevating customer experience, reducing complaint rate.」という定義の会話分析に関するサーベイ。
様々なタスクがあり、このような軸での分析も面白い。

Law of the Weakest Link: Cross Capabilities of Large Language Models

Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文参考訳（メタデータ） (Mon, 30 Sep 2024 05:12:01 GMT)
問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力（様々なタスクをクロスして問題を解く能力）の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文参考訳（メタデータ） (Tue, 24 Sep 2024 19:47:21 GMT)
AIエージェントの安全性を確かめるフレームワークの提案
プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)

日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開（Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com)）とLiquid AIによるLiquid Foundation Models (LFMs)の発表（Liquid Foundation Models: Our First Series of Generative AI Models）、Metaによる動画生成AI、Meta Movie Genの発表（Meta Movie Gen）だった。

１つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学情報理工学院情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

２つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
（10/19追記） arXivに論文が出ていたので追加。

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:04:31 GMT)
45か国をカバーする文化的ベンチマーク
リポジトリはCulturalBench – a Hugging Face Space by kellycyy

Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 16:22:46 GMT)

MinerU: An Open-Source Solution for Precise Document Content Extraction

MinerU: An Open-Source Solution for Precise Document Content Extraction [63.0]
MinerUは、高精度な文書コンテンツ抽出のためのオープンソースのソリューションである。我々は、MinerUが、様々なドキュメントタイプで一貫してハイパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (Fri, 27 Sep 2024 15:35:15 GMT)
強力なコンテンツ抽出フレームワークの提案。パイプライン構成及び構成要素のチューニングなども参考になる。「Additionally, we will introduce new models, such as table recognition and reading order, to enhance MinerU’s overall capabilities.」とある通り、順番認識は意外と難しい。ちょうど下記「Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding」論文が出ていた。
リポジトリはGitHub – opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [34.0]
本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
論文参考訳（メタデータ） (Sun, 29 Sep 2024 12:00:57 GMT)
リポジトリは　https://github.com/chongzhangFDU/ROOR とのことだが現時点では４０４

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:53:30 GMT)
最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。（GPT-4oはClaude 3.5より結果が悪かった）
リポジトリはJustice or Prejudice? Quantifying Biases in LLM-as-a-Judge (llm-judge-bias.github.io)

2025年5月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31