Loki: An Open-Source Tool for Fact Verification 

  • Loki: An Open-Source Tool for Fact Verification [49.5]
    Lokiは、誤情報の増加に対処するために設計されたオープンソースのツールだ。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 LokiはMITライセンスでリリースされており、GitHubから入手できる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:52:41 GMT)
  • OSSのファクトチェックツール、チェックすべきファクト(主張)の分解後、WEB検索結果を用いてファクトチェックを行うアプローチ
  • リポジトリはGitHub – Libr-AI/OpenFactVerification: Loki: Open-source solution designed to automate the process of verifying factuality

Small Language Models: Survey, Measurements, and Insights 

  • Small Language Models: Survey, Measurements, and Insights [21.2]
    小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 06:36:56 GMT)
  • 「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
  • リポジトリはGitHub – UbiquitousLearning/SLM_Survey

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

  • Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
    具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 00:30:11 GMT)
  • 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
  • リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

LLaVA-Critic: Learning to Evaluate Multimodal Models

  • LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
    本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:36:33 GMT)
  • マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
  • プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

  • Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
    さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 03:49:56 GMT)
  • 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
  • リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face

Emu3: Next-Token Prediction is All You Need

  • Emu3: Next-Token Prediction is All You Need [45.1]
    Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 16:06:11 GMT)
  • 「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
  • リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need

The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends 

  • The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends [65.0]
    会話分析(CA)は、会話データから重要な情報を発見し分析する。 本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。 会話シーンの再構築,奥行きの属性分析,ターゲットトレーニングの実行,会話の生成から,CAの4つの重要なステップを導出した。
    論文  参考訳(メタデータ)   (Sat, 21 Sep 2024 16:52:43 GMT)
  • 「Conversation analysis aims to identify critical information from human-human, humanmachine, machine-machine, and multi-party conversations, derive the underlying causes, and develop the solutions to drive relevant improvements for more effective goal achievement continuously, such as elevating customer experience, reducing complaint rate.」という定義の会話分析に関するサーベイ。
  • 様々なタスクがあり、このような軸での分析も面白い。

Law of the Weakest Link: Cross Capabilities of Large Language Models

  • Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
    我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 05:12:01 GMT)
  • 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
  • リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

  • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
    本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 19:47:21 GMT)
  • AIエージェントの安全性を確かめるフレームワークの提案
  • プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)