arXiv最新論文の紹介

ALMA: Advanced Language Model-based trAnslator

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models [27.8]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。 LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 22:53:15 GMT)
Llama-2をベースとした機械翻訳手法の提案、Monolingual Data Fine-tuning（ add English monolingual data during fine-tuning to prevent English knowledge forget） → High-Quality Data Fine-tuningという流れとのこと。
リポジトリはGitHub – fe1ixxu/ALMA: This is repository for ALMA translation models.

MDDS(Multi-document Diversity Summarization) & DIVERSESUMM

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [142.7]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文参考訳（メタデータ） (Sun, 17 Sep 2023 20:28:17 GMT)
Multi-document Summarizationを対象としたタスクとデータセットの構築。MDDS (Multi-document Diversity Summarization)という複数の情報源の利用を前提としたタスクを提案している。現実的ではあるがGPT-4であっても十分な性能とは言い難い難しいタスクとのこと。
現時点でデータセットは公開されていない？

Summarization is (Almost) Dead [49.4]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 08:13:01 GMT)

という論文も出ていたが、要約関連のタスクバリエーションはいろいろ考えられそう。（要約というかレポーティングに近くなっていきそうな気もしつつ）

PDFTriage

PDFTriage: Question Answering over Long, Structured Documents [64.6]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
論文参考訳（メタデータ） (Sat, 16 Sep 2023 04:29:05 GMT)
構造化文書へについて分析し、PDFTriage（Generate document metadata → LLM-based triage → Answer using retrieved content）を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。

Document Understanding関連でもLLMの活用が進む

LMDX: Language Model-based Document Information Extraction and Localization [15.7]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 22:32:56 GMT)
LLMを用いた文書からの情報抽出（OCRが起点）、LayoutLMv3を超えているのが凄い。

CoVe: Chain-of-Verification

Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 17:50:55 GMT)
初期回答を作成→検証計画（検証用の質問）を作成→検証（回答・合意確認）→最終回答とすることでHallucinationを防ぐ取り組み
近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 17:56:28 GMT)
特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
研究の進展が非常に速い分野でもありとても重要な論文

OpenBA

OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch [41.5]
OpenBAは、オープンソースの15Bバイリンガルな非対称seq2seqモデルである。 OpenBAを効果的かつ効率的な技術で強化し、3段階のトレーニング戦略を採用します。私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 15:46:40 GMT)
非対称encoder-decoderアーキテクチャのLLM、薄いとはいえencoder部分を持つのは珍しい気がする。サイズに比べて性能が高い。
リポジトリはGitHub – OpenNLG/OpenBA: OpenBA: An Open-Sourced 15B Bilingual Asymmetric Seq2Seq Model Pre-trained from Scratch、HuggingFaceサイトはOpenBA (OpenBA) (huggingface.co)

Baichuan 2, phi-1.5

Baichuan 2: Open Large-scale Language Models [50.4]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 04:13:22 GMT)
GitHub – baichuan-inc/Baichuan2: A series of large language models developed by Baichuan Intelligent Technology　のテクニカルレポート
ソースコードはApache-2だが、モデルは独自ライセンスとなっている。

Textbooks Are All You Need II: phi-1.5 technical report [55.7]
我々は、新しい13億のパラメータモデルphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。 textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 14:01:45 GMT)
高品質データの重要性が分かるPhi-1.5のテクニカルレポート
モデルはmicrosoft/phi-1_5 · Hugging Face

DePT: Decoupled Prompt Tuning

DePT: Decoupled Prompt Tuning [133.7]
この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 05:45:40 GMT)
GitHub – Koorye/DePT: Offical implemention of paper “Decoupled Prompt Tuning”

ELBERT: Equal Long-term BEnefit RaTe

Equal Long-term Benefit Rate: Adapting Static Fairness Notions to Sequential Decision Making [43.6]
ELBERT(Equal Long-term Benefit Rate)と呼ばれる長期公正性の概念を導入する。長期利益率の政策勾配は分析的に標準政策勾配に還元できることを示す。 3つの逐次意思決定環境の実験により,ELBERT-POはバイアスを著しく低減し,高い有効性を維持することが示された。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 01:10:01 GMT)
長期的な公平性の概念を提案。時間の概念は重要で面白い取り組み。
リポジトリはGitHub – Yuancheng-Xu/ELBERT: Official Implementation of the paper “Equal Long-term Benefit Rate: Adapting Static Fairness Notions to Sequential Decision Making” by Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang, Jieyu Zhao and Furong Huang

Large Language Models for Compiler Optimization

Large Language Models for Compiler Optimization [22.5]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。最適化前後の命令数と最適化コード自体を予測する。提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 22:11:46 GMT)
コードの最適化にLLMを使う報告。コンパイオプションを生成し他の手法に比べても有望な結果とのこと。
「We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size.」というのはLLMと言えるのか・・・？

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30