arXiv最新論文の紹介

Holistic Evaluation of Text-To-Image Models

Holistic Evaluation of Text-To-Image Models [153.5]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (Tue, 7 Nov 2023 19:00:56 GMT)
「text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency」と12の側面での画像生成AIの評価。結果は「Overall, DALL-E 2 appears to be a versatile performer across human metrics.However, no single model emerges as the top performer in all aspects.」とのこと。
リポジトリはGitHub – stanford-crfm/helm: Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).、Holistic Evaluation of Text-To-Image Models (HEIM) (stanford.edu)

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
論文参考訳（メタデータ） (Mon, 13 Nov 2023 18:53:37 GMT)
スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
リポジトリはGitHub – zzxslp/MM-Navigator

Factcheck-GPT

Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output [124.3]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
論文参考訳（メタデータ） (Wed, 15 Nov 2023 14:41:57 GMT)
LLMのためのファクトチェックベンチマーク＆アノテーションツールの提案。「This reveals that current mainstreaming SOTA fact-checkers still have large room to improve on verification, particularly on false claims (F1<0.53).」とのこと。
リポジトリはGitHub – yuxiaw/Factcheck-GPT: Fact-Checking the Output of Generative Large Language Models in both Annotation and Evaluation.

Thread of Thought

Thread of Thought Unraveling Chaotic Contexts [133.2]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文参考訳（メタデータ） (Wed, 15 Nov 2023 06:54:44 GMT)
プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [26.6]
視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。本報告では,最新のVLM,Modelnamefullの総合評価と自律走行シナリオへの応用について述べる。本研究により,既存の自律システムと比較して,シーン理解や因果推論において,モデルネームが優れた性能を示すことが明らかとなった。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 12:58:37 GMT)
GPT-4Vの自動運転への適用可能性の検討。やはり高性能。
リポジトリはGitHub – PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

強化学習と拡散モデル

Diffusion Models for Reinforcement Learning: A Survey [26.6]
拡散モデルは、生成モデルの顕著なクラスとして現れている。最近の研究は、強化学習ソリューションの改善における拡散モデルの利点を示している。
論文参考訳（メタデータ） (Thu, 2 Nov 2023 13:23:39 GMT)
強化学習と拡散モデルに関するサーベイ。拡散モデルの役割としては大きく分けて「Diffusion models as the planner」「Diffusion models as the policy」「Diffusion models as the data synthesizer」というアプローチがあるとのこと。
リポジトリはGitHub – apexrl/Diff4RLSurvey: This repository contains a collection of resources and papers on Diffusion Models for RL, accompanying the paper “Diffusion Models for Reinforcement Learning: A Survey”

TencentLLMEval

TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs [35.7]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 13:58:59 GMT)
LLMの評価に関する論文、主として中国語に関するものだがクロスリンガル・マルチリンガルという意味では日本語の評価でも参考になりそう。Figure 2: Hierarchical task tree chartのような整理も興味深い。GPT-4が一つ抜けている感はあるものの、他のモデルも猛追という感じ。
リポジトリはGitHub – xsysigma/TencentLLMEval: TencentLLMEval is a comprehensive and extensive benchmark for artificial evaluation of large models that includes task trees, standards, data verification methods, and more.

Emotion Detection for Misinformation: A Review

Emotion Detection for Misinformation: A Review [23.5]
本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。本研究では,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の解析を行う。本稿では,大規模言語モデルに基づく感情に基づく誤情報検出において,現在進行中の課題について論じる。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 17:21:09 GMT)
感情を軸とした誤情報見地に関するサーベイ

TopicGPT

TopicGPT: A Prompt-based Topic Modeling Framework [83.4]
TopicGPTは,大規模言語モデルを用いて潜在トピックを明らかにするプロンプトベースのフレームワークである。競合する手法と比較して、人間の分類とよく一致したトピックを生成する。そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文参考訳（メタデータ） (Thu, 2 Nov 2023 17:57:10 GMT)
Topic GenerationとTopic Assignmentから成るLLM版トピックモデル。解釈可能性、適応可能性に優れるとのこと。クラスタリングへの応用事例でも近しい結論になっていたはずで結果は妥当そう。
リポジトリはGitHub – chtmp223/topicGPT: Code & Prompts for TopicGPT paper (Pham et al. 2023)

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations [105.6]
コンテキストベースのファインチューニングメソッドは、パラメータのごく一部でフルファインチューニングのパフォーマンスにマッチすることが多いため、人気を集めている。連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、ソフトプロンプティングとプレフィックスチューニングは完全な微調整よりも厳密に表現力に乏しいことを示す。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 16:19:34 GMT)
in-context learning, soft prompting, prefix tuningといったテクニックの限界（LLM内のスキルは引き出せるが新たなアテンションパターンが必要なタスクには対応できない）を示した論文、「it appears to be still strictly less expressive than full fine-tuning.」というのはそうなんだろうけど、実用的には本当かと思わなくもない挙動を観測したりもする。LLM内のデータが想像以上に多様なんだろうと思う。
「This paper formally showed that fine-tuning techniques working in embedding space, such as soft prompting and prefix-tuning, are strictly more expressive than prompting which operates in the discrete token space.」も面白い。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31