arXiv最新論文の紹介

Retrieval-Augmented Generation for Large Language Models: A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 07:47:33 GMT)
応用例が増加しているRAGのサーベイ
リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

Generative Multimodal Models are In-Context Learners

Generative Multimodal Models are In-Context Learners [62.3]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 18:59:58 GMT)
マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

A Survey of Text Watermarking in the Era of Large Language Models

A Survey of Text Watermarking in the Era of Large Language Models [84.9]
テキスト透かしは、テキストの起源を追跡し検証し、誤用や海賊行為を防ぐのに役立つ。この調査は、現在のテキスト透かし技術を包括的に要約することを目的としている。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 06:11:42 GMT)
LLM時代のテキスト watermarkingのサーベイ。重要性は増しているものの攻撃方法も進化しており大変な印象。

PromptBench

PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 05:58:34 GMT)
LLM（に対するプロンプト）の評価を行うためのフレームワーク。簡単に使えそう＆便利そう
リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Captum

Using Captum to Explain Generative Language Models [6.0]
CaptumはPyTorchのモデル説明可能性のためのライブラリである。本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
論文参考訳（メタデータ） (Sat, 9 Dec 2023 07:35:24 GMT)
Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
リポジトリはCaptum · Model Interpretability for PyTorch

SmartEdit

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:54:11 GMT)
テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.9]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 13:00:57 GMT)
GPT-4Vの環境変化に対する能力を検証した論文、CLIPやLLaVAとも比較。「Our findings reveal that while GPT-4V demonstrates notable adaptability and zero-shot generalization capabilities, its performance varies significantly across different scenarios of distribution shifts.」「our journey toward creating truly robust and versatile AI foundation models is ongoing」との結論。
リポジトリはGitHub – jameszhou-gl/gpt-4v-distribution-shift: Code for “How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation”

Geminiの評価

Geminiの評価に関する論文が出ている。

An In-depth Look at Gemini’s Language Abilities [49.9]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 18:47:42 GMT)
Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
リポジトリはGitHub – neulab/gemini-benchmark

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.5]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。 Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 12:40:47 GMT)
こちらはマルチモーダルでの評価。比較対象は上記と同じでGemini Proだであることに要注意。「The qualitative results indicate that Gemini is indeed a strong challenger to GPT-4V, given its superior multi-modal reasoning capacity.」と評価
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

APIDocBooster

APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.9]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 Sentence Section Classification (CSSC) と UPdate SUMmarization (UPSUM) である。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 05:15:50 GMT)
APIのドキュメントを作成するためにセクション認識、抽出型の要約、抽象型の要約を組み合わせる手法を提案。通常の方法でGPT-4を使った場合に比べて優れているとのこと。単純にLLMを使うよりも問題を適切に分割していって使うと効果的という結果に見受けられる。

Gemini: A Family of Highly Capable Multimodal Models

Gemini: A Family of Highly Capable Multimodal Models [517.1]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
論文参考訳（メタデータ） (Tue, 19 Dec 2023 02:39:27 GMT)
Gemini – arXiv最新論文の紹介 (devneko.jp) の論文、arXiv版。改めて驚きの著者数。

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31