staka – ページ 120 – arXiv最新論文の紹介

Progressive Rectification Prompting

Get an A in Math: Progressive Rectification Prompting [42.1]
CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。 77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 22:25:57 GMT)
検証修正を繰り返すタイプのプロンプティング手法 Progressive Rectification Prompting (PRP)によってCoTからの性能向上を報告。
self-consistency, progressive-hint, progressive rectificationと工夫がされて行っていて面白いが、ここまで性能上がるものなんだろうか。（＆日本語でも効果があるんだろうか）

CyberSecEval

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 22:07:54 GMT)
セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

CogAgent

CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文参考訳（メタデータ） (Thu, 14 Dec 2023 13:20:57 GMT)
GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

A Survey of the Evolution of Language Model-Based Dialogue Systems

A Survey of the Evolution of Language Model-Based Dialogue Systems [25.3]
Task-oriented_dialogue_system (TOD) とopen-domain_dialogue_system (ODD) は大きな変換を経ている。この調査は、対話システムの歴史的軌跡を掘り下げ、言語モデルの進歩と関係を解明するものである。我々の調査は、LMのブレークスルーに沿った時系列的な視点を提供し、最先端の研究成果の包括的なレビューを提供する。
論文参考訳（メタデータ） (Tue, 28 Nov 2023 13:51:32 GMT)
対話システムのサーベイ、LargeがつかないLaugage Model-Basedとある通り、割と昔からのサーベイとなっていて最近の技術進歩や歴史を理解するうえでも良い資料

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 18:50:26 GMT)
LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。

Multimodal Large Language Models: A Survey

Multimodal Large Language Models: A Survey [36.1]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 05:15:12 GMT)
マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。

Image Super-Resolution with Text Prompt Diffusion

Image Super-Resolution with Text Prompt Diffusion [123.9]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。実験により、テキストプロンプトを画像SRに導入すると、合成画像と実画像の両方で優れた結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 24 Nov 2023 05:11:35 GMT)
超解像タスクにテキストプロンプトを導入する研究、確かにスコアが上がっており面白い。適切なプロンプトをかけるかとか、リークはとか思わなくはないが何らかの情報は追加されるはずで効果はありそう。
リポジトリはGitHub – zhengchen1999/PromptSR: PyTorch code for our paper “Image Super-Resolution with Text Prompt Diffusion”

Sequential Modeling Enables Scalable Learning for Large Vision Models

Sequential Modeling Enables Scalable Learning for Large Vision Models [120.9]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (Fri, 1 Dec 2023 18:59:57 GMT)
ピクセル以外の情報を用いないモデルの提案、プロンプトもピクセル。「So, we graciously hand over to you, our gentle reader, the task of pondering whether our modest LVM also exhibits the much-vaunted ‘Sparks of AGI’.」というコメントが面白く、熱い。
プロジェクトサイトはLarge Vision Models (yutongbai.com)

GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding

GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding [38.5]
GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。本稿では,マルチモーダル感情理解におけるGPT-4Vの能力について定量的に評価する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 13:27:37 GMT)
GPT-4による感情分類、タスクやドメインによってはsupervisedな手法を超えている。頑健性についても検証が行われており「This resilience to color space changes suggests that GPT-4V is inherently robust in this regard.」とのこと。一方で「However, GPT-4V performs poorly in micro-expression recognition (see Table 5), which indicates that GPT-4V is currently tailored for general domains.」との指摘も。なかなか悩ましい結果ではあるが、一般用途では強力に使えそうに思える。
リポジトリはGitHub – zeroQiaoba/gpt4v-emotion: GPT-4V with Emotion

Exchange-of-Thought

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文参考訳（メタデータ） (Mon, 4 Dec 2023 11:53:56 GMT)
モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31