arXiv最新論文の紹介

LLaVA-Interactive

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 15:13:43 GMT)
オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.5]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 03:20:16 GMT)
Plug-and-Play Dialogue Policy Planner (PPDPP)の提案、よくあるプロンプトベースのものより高性能とのこと。
リポジトリはhttps://github.com/dengyang17/PPDPPとのことだが、現時点では404

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文参考訳（メタデータ） (Sun, 29 Oct 2023 16:49:45 GMT)
たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

GPT-4Vによるビデオ分析

MM-VID: Advancing Video Understanding with GPT-4V(ision) [113.6]
我々は、GPT-4Vの能力を利用して高度な映像理解を促進する統合システムMM-VIDを提案する。 MM-VIDは、長いビデオや1時間以内のコンテンツの推論のような複雑なタスクによって生じる課題に対処するために設計されている。ビデオゲームやグラフィックユーザインタフェースといったインタラクティブな環境に適用する際の可能性を示す。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 17:44:09 GMT)
GPT-4Vを用いたビデオ対応、そもそも極めて高性能なバックボーンではあるが、(i) Multimodal Pre-Processing,(ii) External Knowledge Collection,(iii) Clip-Level Video Description Generation, (iv) Script Generationと凝ったパイプライン構成になっている。
プロジェクトサイトはMM-Vid: Advancing Video Understanding with GPT-4V(ision) (multimodal-vid.github.io)

WIMBD: WHAT’S IN MY BIG DATA?

What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:59:38 GMT)
大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

The Generative AI Paradox: “What It Can Create, It May Not Understand”

The Generative AI Paradox: “What It Can Create, It May Not Understand” [81.9]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文参考訳（メタデータ） (Tue, 31 Oct 2023 18:07:07 GMT)
様々な軸での生成AIのテストと評価、「In particular, they imply that existing conceptualizations of intelligence, as derived from experience with humans, may not be applicable to artificial intelligence—although AI capabilities may resemble human intelligence, the capability landscape may diverge in fundamental ways from expected patterns based on humans.」という指摘が面白い。English benchmark for stress-testing machine ToM – arXiv最新論文の紹介 (devneko.jp)の時も思ったが知性って何だろう？と改めて不思議になる。

Multilingual Mathematical Reasoning

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 06:56:14 GMT)
多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

LEMA: LEarning from MistAkes

Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:52:22 GMT)
GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い（新たな情報が多い）のはそうなんだろうと思う。
リポジトリはGitHub – microsoft/CodeT　？

Data-Centric Financial Large Language Models

Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文参考訳（メタデータ） (Sat, 7 Oct 2023 04:53:31 GMT)
金融分野向けにLLMを活用するため、データの前処理を工夫・拡張（AAR: abductive augmentation reasoning ）など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain＋LLMより有効とのこと。
「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 18:11:32 GMT)
AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の（たいして読まれない）EULAで逃げないでほしい。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31