staka – ページ 182 – arXiv最新論文の紹介

FELM: Factuality Evaluation of large Language Models

FELM: Benchmarking Factuality Evaluation of Large Language Models [40.8]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文参考訳（メタデータ） (Sun, 1 Oct 2023 17:37:31 GMT)
world knowledge、 science/technology、 writing/recommendation、 reasoning、mathのドメインからなるベンチマーク、アノテーションがめっちゃしんどそう。。。
リポジトリはGitHub – hkust-nlp/felm: Github repository for “FELM: Benchmarking Factuality Evaluation of Large Language Models”

LLMを含む金融分野のNLP評価

Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
FinLMEvalは金融言語モデル評価のためのフレームワークである。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 11:43:15 GMT)
複数の金融分野でのデータセットでBERTなどencoder系モデル＋finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。

EIPE-text: Evaluation-guided Iterative Plan Extraction for long-form narrative text generation

EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation [114.5]
長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
論文参考訳（メタデータ） (Thu, 12 Oct 2023 10:21:37 GMT)
長文生成のためのフレームワーク、plan extraction, learning, inferenceからなり、計画時にQAベースの評価を行うのが特徴的。学習ステップでは in-context learningの適用も想定されており、一般的な学習とは若干異なる動きでも効果があるよう。

SOTOPIA

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 02:27:01 GMT)
様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標（目標の達成度合い）における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
プロジェクトサイトはSotopia

LLM Agent関連（OSS, 音楽, LLM強化,　マクロ経済）

最近、LLMをAgentとして使う研究が多く発表されている。LLMのAgents – arXiv最新論文の紹介 (devneko.jp)で取り上げたようにオープンな取り組み、音楽特化のような分野特化の取り組み、LLM自体を強化する取り組み（Llama 2 70Bを強化しgpt-3.5-turbo相当）など様々な研究がある。この分野が社会実装されると影響が大きく要注目。

OpenAgents: An Open Platform for Language Agents in the Wild [71.2]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 17:54:53 GMT)
Agentのためのオープンなプラットフォーム
プロジェクトサイトはGitHub – xlang-ai/OpenAgents: OpenAgents: An Open Platform for Language Agents in the Wild

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.6]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 13:31:10 GMT)
AI+音楽のためのエージェント、分野特化の取り組みは珍しいが1分野に様々なタスクがありツールがありという状況だと非常に役に立つと思う。
リポジトリはmuzic/agent at main · microsoft/muzic · GitHub

AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.7]
本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 15:19:53 GMT)
言語モデルのエージェント能力を高めるデータAgentInstructを構築、AgentTuningによってLlama 2 ベースのAgentLMを構築、70Bでgpt-3.5-turbo相当の能力とのこと
リポジトリはGitHub – THUDM/AgentTuning: AgentTuning: Enabling Generalized Agent Abilities for LLMs

Large Language Model-Empowered Agents for Simulating Macroeconomic Activities [48.6]
大規模言語モデル(LLM)は、最近、自律的な人間のような特徴を提供することで有名になった。我々は,人為的な意思決定と適応性を示すために,プロンプトエンジニアリング駆動型LLMエージェントを設計する。我々の研究は、LLMとその人間的特性に基づいてマクロ経済学をシミュレートする有望な可能性を実証している。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 14:19:40 GMT)
マクロ経済シミュレーションへのＬＬＭ活用、「Classic macroeconomic phenomena are reproduced and more reasonable compared to traditional rule-based or AI agents.」とのこと。

EUREKA: Evolution-driven Universal REward Kit for Agent

Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 17:31:01 GMT)
LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks [98.2]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。具体的には,LLM ベースのフレームワークである Auto Debug について述べる。実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 06:37:32 GMT)
LLMを評価するため（にHallucinationを引き起こす）データセットをエビデンス付きで自動作成するAutoDebugフレームワークワークの提案、対GPT-4やPaLMに対しても有効なよう
プロジェクトサイトはAutomatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks (autodebug-llm.github.io)

Set-of-Mark Prompting

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.7]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。我々は、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を異なるレベルの粒度の領域に分割し、これらの領域を一連のマークでオーバーレイする。マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文参考訳（メタデータ） (Tue, 17 Oct 2023 17:51:31 GMT)
GPT-4Vに対するプロンプトテクニック、Set-of-Markの提案。速度勝負みたいなところもあるのだろうけど、論文出るの速すぎ・・・
「We show that simply overlaying a number of symbolic marks on a set of regions of an input image can unleash the visual grounding ability of GPT-4V.」とのこと。人間でも画像にガイドを入れるとタスクをやりやすくなるのでアイデアとしてはそうだろうと思うものの、広範な実験・検証はとても参考になる。
プロジェクトサイトはSoM-GPT4V

DocXChain

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 02:49:09 GMT)
Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub

オープンなLLM（LLM-jp-13B）、Transparency Index、Llemma、Lemur

130億パラメータの大規模言語モデル「LLM-jp-13B」を構築～NII主宰LLM勉強会（LLM-jp）の初期の成果をアカデミアや産業界の研究開発に資するために公開～ – 国立情報学研究所 / National Institute of Informatics
でApache-2の日本語対応（おそらく日英対応）LLMが発表された。ツール類も含めてオープンであり素晴らしい取り組み

モデル：llm-jp (llm-jp) (huggingface.co)
コード：llm-jp · GitHub

LLMを含むFoundationModelのTransparencyレポートが Stanford HAIから出ている。Introducing The Foundation Model Transparency Index (stanford.edu)。OSSのものが一番とは限らない意外な結果だが、各指標が同じ重さだというのに無理がありそう。。

今週も特化型を含めてLLMの発表が複数あった。

Llemma: An Open Language Model For Mathematics [48.3]
数学のための大きな言語モデルであるLlemmaを紹介します。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 17:54:07 GMT)
Code Llamaを継続学習し、数学の能力を強化したLLM
リポジトリはGitHub – EleutherAI/math-lm

Lemur: Harmonizing Natural Language and Code for Language Agents [107.4]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文参考訳（メタデータ） (Tue, 10 Oct 2023 17:57:45 GMT)
コード生成能力が高いLLM、70BはCC-BY-NCで商用利用はできない。
プロジェクトサイトはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents
モデルはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents、リポジトリはGitHub – OpenLemur/Lemur: Lemur: Open Foundation Models for Language Agents

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31