arXiv – ページ 153 – arXiv最新論文の紹介

InternLM2

InternLM2 Technical Report [159.7]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文参考訳（メタデータ） (Tue, 26 Mar 2024 00:53:24 GMT)
InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)

Is Mamba Effective for Time Series Forecasting

Is Mamba Effective for Time Series Forecasting? [30.2]
状態空間モデル(SSM)は、シーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。本稿では,時系列予測(TSF)のための2つの簡単なSSMモデルを紹介する。 S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 08:50:44 GMT)
時系列予測へのMambaの応用、「S-Mamba employs one Mamba block to process VC, while D-Mamba incorporates an additional mamba block compared to S-Mamba for VC.」（VC = variates correlations ）という違いを持つ2つの構成で実験、効果を確認とのこと。
「The results prove Mamba possesses robust capabilities and exhibits remarkable potential to replace Transformer in the TSF tasks.」とのことだが、ほんまかいなと思わなくもなく、解釈が気になるところ。。。

PEFTのサーベイ

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey [57.5]
Efficient Fine-Tuning (PEFT) は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 PEFTは、事前訓練された大規模モデルのパラメータを調整して特定のタスクに適応させ、追加のパラメータや計算リソースの数を最小限にするプロセスを指す。この調査は、PEFTアルゴリズムとそのシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。
論文参考訳（メタデータ） (Thu, 21 Mar 2024 17:55:50 GMT)
PEFTのサーベイ
非常に多くの研究成果が出ている領域であり、ほんとうにありがたい

Adaptive inflation

Do Generated Data Always Help Contrastive Learning? [32.6]
コントラスト学習(CL)は、教師なし視覚表現学習において最も成功したパラダイムの1つである。生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
論文参考訳（メタデータ） (Tue, 19 Mar 2024 05:17:47 GMT)
合成データ＋データ拡張はうまくいかないことが多い。その分析と対応方法をまとめた論文。強力な画像生成モデルによる合成データ活用が検討されるなか、重要な報告だと思う。
リポジトリはPKU-ML/adainf: Official code for ICLR 2024 paper Do Generated Data Always Help Contrastive Learning? (github.com)

CoIN: Continual Instruction tuNing

CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (Wed, 13 Mar 2024 08:54:31 GMT)
マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

CLIcK: Cultural and Linguistic Intelligence in Korean

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [19.6]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (Mon, 11 Mar 2024 03:54:33 GMT)
韓国の文化的・言語的理解を評価するデータセット、日本語版が必要そうに思う。
リポジトリはrladmstn1714/CLIcK: CLIcK: Evaluation of Cultural and Linguistic Intelligence in Korean (github.com)

CoT Genius

ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (Thu, 21 Mar 2024 11:34:26 GMT)
CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化＋フィルタリングで構成されている。
リポジトリはRUCAIBox/ChainLM (github.com)

ChartThinker

ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 14:49:09 GMT)
チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

WorldGPT

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文参考訳（メタデータ） (Sun, 10 Mar 2024 16:09:02 GMT)
Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。

RAFT: Retrieval Augmented Fine Tuning

RAFT: Adapting Language Model to Domain Specific RAG [75.6]
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。 RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。 RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
論文参考訳（メタデータ） (Fri, 15 Mar 2024 09:26:02 GMT)
RAGのためのfine tuning手法の提案、「RAFT is a training strategy designed to enhance the model’s performance in answering questions within a specific domain, in “open-book” settings.」
リポジトリはGitHub – ShishirPatil/gorilla: Gorilla: An API store for LLMs

2026年5月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31