arXiv最新論文の紹介

A Task-Solving Agent through Multi-Persona Self-Collaboration

Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [107.5]
Solo Performance Prompting (SPP)は、複数のペルソナと多ターンの自己コラボレーションをすることで、単一の大言語モデル(LLM)を認知的シナジストに変換する。 LLMに複数のきめ細かいペルソナを割り当てることによって、単一または固定数のペルソナよりも優れた問題解決能力が得られることが判明した。
論文参考訳（メタデータ） (Tue, 11 Jul 2023 14:45:19 GMT)
LLMを用いる際、ペルソナを動的に与えつつコラボレーションさせることで性能が上がるという報告。「Based on only a single large language model, SPP enables multi-persona self-collaboration which effectively elicits domain knowledge and reduces hallucination.」プロンプトのテクニックとして有名ではあるがきちんと評価していて興味深い。
リポジトリはGitHub – MikeWangWZHL/Solo-Performance-Prompting: Repo for paper “Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration”

FunQA, Movie101

FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:55 GMT)
ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか？（不明点が多いのでリポジトリへのリンクは貼っていない）

Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文参考訳（メタデータ） (Tue, 27 Jun 2023 11:42:44 GMT)
こちらはナレーション作成のタスクを対象とした映画のデータセット
同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

Recommender Systems in the Era of Large Language Models (LLMs)

Recommender Systems in the Era of Large Language Models (LLMs) [31.5]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 06:03:40 GMT)
LLM時代の推薦システムに関すルサーベイ。この分野にもLLMの影響は大きく、ChatGPTをバックボーンにしている研究も多い。

T-MARS: Text-Masking and Re-Scoring

T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [96.9]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 16:59:52 GMT)
効果的なデータフィルタリング手法の提案、画像からテキスト部分をマスキング、キャプションとの類似度を取るシンプルな手法。「Our proposed approach is based on the interesting observation that a large fraction of image-caption pairs in web-scale datasets contain images dominated by text features.」とのこと。
リポジトリはGitHub – locuslab/T-MARS: Code for T-MARS data filtering

LongNet

LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 17:59:38 GMT)
1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

A Survey on Evaluation of Large Language Models

A Survey on Evaluation of Large Language Models [69.7]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 16:28:35 GMT)
LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい（そして素早いなと思う）
２ページ目の図が分かりやすく、様々な側面（NLPの性能、頑健性、倫理、社会科学、・・・）からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
リポジトリがあり、こちらも参考になる　GitHub – MLGroupJLU/LLM-eval-survey

CausalVLRとLLMを用いた因果グラフの同定

CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (Fri, 30 Jun 2023 08:17:38 GMT)
因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning

Causal Discovery with Language Models as Imperfect Experts [119.2]
専門知識を用いて因果グラフの同定を改善する方法について検討する。整合性に基づく専門家の知識を改良するための戦略を提案する。本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 16:01:38 GMT)
別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。

Towards Open Vocabulary Learning: A Survey

Towards Open Vocabulary Learning: A Survey [122.4]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文参考訳（メタデータ） (Wed, 28 Jun 2023 02:33:06 GMT)
open vocabulary object detection やsegmentaitonといったOpen Vocabulary Learningのサーベイ。リポジトリがGitHub – jianzongwu/Awesome-Open-Vocabularyにあり、論文一覧やカテゴリなど非常に参考になる。

Large Language Models Enable Few-Shot Clustering

Large Language Models Enable Few-Shot Clustering [88.1]
大規模言語モデルは、クエリ効率が良く、数発の半教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。最初の2つのステージにLLMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文参考訳（メタデータ） (Sun, 2 Jul 2023 09:17:11 GMT)
大規模言語モデルを用いたクラスタリング手法提案。「GPT-3.5 is remarkably more effective than a true oracle pairwise constraint oracle at this price point; unless at least 2500 pairs labeled by a true oracle are provided, pairwise constraint KMeans fails to deliver any value for entity canonicalization.」とのことでLLMに支援されたクラスタリングは非常に有効としている。
リポジトリはGitHub – viswavi/few-shot-clustering

Jailbroken: How Does LLM Safety Training Fail?

Jailbroken: How Does LLM Safety Training Fail? [92.9]
ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。このような攻撃がなぜ成功し、どのように発生できるかを考察する。障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 17:58:10 GMT)
LLM（のAPIなどのサービス）に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30