arXiv最新論文の紹介

YAYI 2

YAYI 2: Multilingual Open-Source Large Language Models [53.9]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (Fri, 22 Dec 2023 17:34:47 GMT)
多言語対応かつ高性能なLLM YAYI2の論文。YAYI2 30Bは5 shotのMMLUでScore=80.5と高い。学習データのクレンジングからpre train, SFT, RLHFと構築過程も非常に参考になる。
リポジトリはYAYI2/README_EN.md at main · wenge-research/YAYI2 (github.com、コードはOSSのようだがweightは別途ライセンスが定められている点に注意。

YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [21.0]
ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
論文参考訳（メタデータ） (Sun, 24 Dec 2023 21:33:03 GMT)
関連してuniversal information extraction taskへのチューニング手法、
リポジトリはYAYI-UIE/README_EN.md at main · wenge-research/YAYI-UIE (github.com)

2023年のarXiv

2023年、独自のスコアランキング上位の論文を集計してみた。2023年トップはGeminiの論文（Fugu-MT 論文翻訳(概要): Gemini: A Family of Highly Capable Multimodal Models (fugumt.com)）だった。著者数から言っても妥当であろうと思う。著者の多いSurveyが上位に来る傾向があるが、その他も注目すべき論文が多い。

スコアリングは論文著者がトップカンファレンスに通した発表数・トップ論文誌に通した論文数を元に算出している。有名研究者が多数参加する論文のスコアが上がりやすい。なお、今までの最高スコアはBIG-bench（Fugu-MT 論文翻訳(概要): Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models (fugumt.com)）の649.7である。

今年Fugu-MT: arxivの論文翻訳(概要) (fugumt.com)で扱った論文は初回バージョンのみを数えて79862件、バージョンアップ分を個別扱いにすると108555件だった。2022年は61378件、79010件だったことからこの分野がさらに盛り上がりを見せているかarXivの重要性が上がっているよう。いずれにしてもarXivだけで更新分併せて9000件/月、300件/日と多くの論文が投稿されていて情報を追うのはなかなか大変になっていると思う。

2023年発表でスコアが高かった論文上位10件

Gemini: A Family of Highly Capable Multimodal Models [517.1]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
論文参考訳（メタデータ） (Tue, 19 Dec 2023 02:39:27 GMT)
A Survey of Reasoning with Foundation Models [235.7]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応する基礎モデルを提案する。
論文参考訳（メタデータ） (Sun, 17 Dec 2023 15:16:13 GMT)
Graph Transformer GANs for Graph-Constrained House Generation [223.7]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。 GTGANは、グラフ制約のある住宅生成タスクにおいて、エンドツーエンドで効率的なグラフノード関係を学習する。
論文参考訳（メタデータ） (Tue, 14 Mar 2023 20:35:45 GMT)
Adaptive Siamese Tracking with a Compact Latent Network [219.4]
追跡タスクを分類に変換することで,シームズをベースとしたトラッカーを簡易化する直感的なビューを提供する。そこで本研究では,視覚シミュレーションと実追跡例を用いて,詳細な解析を行う。そこで我々は,古典的なSiamRPN++,SiamFC,SiamBANの3つのトラッカーを調整した。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 08:06:02 GMT)
Regeneration Learning: A Learning Paradigm for Data Generation [215.0]
再生学習は、データ生成のための対象データYの抽象化(Y’)を処理する。再生学習はデータ生成のパラダイムとして広く利用されている。
論文参考訳（メタデータ） (Sat, 21 Jan 2023 01:33:34 GMT)
Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems [211.4]
科学のためのAI(AI4Science)として知られる新しい研究領域領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解することを目的としている。主要な課題は、物理第一原理、特に対称性を深層学習法によって自然システムで捉える方法である。
論文参考訳（メタデータ） (Mon, 17 Jul 2023 12:14:14 GMT)
Focus on Your Target: A Dual Teacher-Student Framework for Domain-adaptive Semantic Segmentation [210.5]
意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
論文参考訳（メタデータ） (Thu, 16 Mar 2023 05:04:10 GMT)
DeepSpeed4Science Initiative: Enabling Large-Scale Scientific Discovery through Sophisticated AI System Technologies [198.6]
DeepSpeed4Scienceは、AIシステム技術革新を通じてユニークな機能を構築することを目指している。我々は、構造生物学研究における2つの重要なシステム課題に対処するために、DeepSpeed4Scienceで行った初期の進歩を紹介した。
論文参考訳（メタデータ） (Fri, 6 Oct 2023 22:05:15 GMT)
ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images [198.4]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 22:20:52 GMT)
De Novo Molecular Generation via Connection-aware Motif Mining [198.0]
我々は、マイニングされた接続認識モチーフに基づいて分子を生成する新しい方法、MiCaMを提案する。得られたモチーフ語彙は、分子モチーフ(頻繁な断片)だけでなく、それらの接続情報も含む。マイニングされた接続対応モチーフに基づいて、MiCaMは接続対応ジェネレータを構築し、同時にモチーフをピックアップし、どのように接続されているかを決定する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 14:40:47 GMT)

Retrieval-Augmented Generation for Large Language Models: A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 07:47:33 GMT)
応用例が増加しているRAGのサーベイ
リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

Generative Multimodal Models are In-Context Learners

Generative Multimodal Models are In-Context Learners [62.3]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 18:59:58 GMT)
マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

A Survey of Text Watermarking in the Era of Large Language Models

A Survey of Text Watermarking in the Era of Large Language Models [84.9]
テキスト透かしは、テキストの起源を追跡し検証し、誤用や海賊行為を防ぐのに役立つ。この調査は、現在のテキスト透かし技術を包括的に要約することを目的としている。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 06:11:42 GMT)
LLM時代のテキスト watermarkingのサーベイ。重要性は増しているものの攻撃方法も進化しており大変な印象。

PromptBench

PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 05:58:34 GMT)
LLM（に対するプロンプト）の評価を行うためのフレームワーク。簡単に使えそう＆便利そう
リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Captum

Using Captum to Explain Generative Language Models [6.0]
CaptumはPyTorchのモデル説明可能性のためのライブラリである。本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
論文参考訳（メタデータ） (Sat, 9 Dec 2023 07:35:24 GMT)
Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
リポジトリはCaptum · Model Interpretability for PyTorch

SmartEdit

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:54:11 GMT)
テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.9]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 13:00:57 GMT)
GPT-4Vの環境変化に対する能力を検証した論文、CLIPやLLaVAとも比較。「Our findings reveal that while GPT-4V demonstrates notable adaptability and zero-shot generalization capabilities, its performance varies significantly across different scenarios of distribution shifts.」「our journey toward creating truly robust and versatile AI foundation models is ongoing」との結論。
リポジトリはGitHub – jameszhou-gl/gpt-4v-distribution-shift: Code for “How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation”

Geminiの評価

Geminiの評価に関する論文が出ている。

An In-depth Look at Gemini’s Language Abilities [49.9]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 18:47:42 GMT)
Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
リポジトリはGitHub – neulab/gemini-benchmark

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.5]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。 Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 12:40:47 GMT)
こちらはマルチモーダルでの評価。比較対象は上記と同じでGemini Proだであることに要注意。「The qualitative results indicate that Gemini is indeed a strong challenger to GPT-4V, given its superior multi-modal reasoning capacity.」と評価
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31