staka – ページ 147 – arXiv最新論文の紹介

ACEGPT: アラビア語のLLM

AceGPT, Localizing Large Language Models in Arabic [75.6]
本稿では,アラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。本論文は、アラビア語テキストによる事前学習、ネイティブアラビア語命令を用いた教師付き微調整(SFT)、アラビア語でのGPT-4応答、AIフィードバックによる強化学習(RLAIF)を含むパッケージ化されたソリューションの概要を述べる。目的は、文化的に認識され、価値に整合したアラビア語のLLMを訓練することであり、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに役立てることである。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 13:20:13 GMT)
アラビア語に対応したLLMを作る取り組み。英語以外のLLM構築とみてもとても参考になる。評価用データ重要だなあという印象。
リポジトリはGitHub – FreedomIntelligence/AceGPT

Data Augmentation for Conversational AI

Data Augmentation for Conversational AI [17.5]
データ拡張(DA)は、会話システムにおけるデータ不足問題を軽減するための感情的なアプローチである。このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。
論文参考訳（メタデータ） (Sat, 9 Sep 2023 09:56:35 GMT)
対話データのデータ拡張に関するCIKMのチュートリアル。プロジェクトサイトはData Augmentation for Conversational AI | Fundamentals and Advances (dataug-convai.github.io)
現時点では資料などアップロードされていないが面白そう。

MINT: Multi-turn INTeraction ベンチマーク

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 15:25:42 GMT)
マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。（フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる）

ALMA: Advanced Language Model-based trAnslator

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models [27.8]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。 LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 22:53:15 GMT)
Llama-2をベースとした機械翻訳手法の提案、Monolingual Data Fine-tuning（ add English monolingual data during fine-tuning to prevent English knowledge forget） → High-Quality Data Fine-tuningという流れとのこと。
リポジトリはGitHub – fe1ixxu/ALMA: This is repository for ALMA translation models.

MDDS(Multi-document Diversity Summarization) & DIVERSESUMM

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [142.7]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文参考訳（メタデータ） (Sun, 17 Sep 2023 20:28:17 GMT)
Multi-document Summarizationを対象としたタスクとデータセットの構築。MDDS (Multi-document Diversity Summarization)という複数の情報源の利用を前提としたタスクを提案している。現実的ではあるがGPT-4であっても十分な性能とは言い難い難しいタスクとのこと。
現時点でデータセットは公開されていない？

Summarization is (Almost) Dead [49.4]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 08:13:01 GMT)

という論文も出ていたが、要約関連のタスクバリエーションはいろいろ考えられそう。（要約というかレポーティングに近くなっていきそうな気もしつつ）

PDFTriage

PDFTriage: Question Answering over Long, Structured Documents [64.6]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
論文参考訳（メタデータ） (Sat, 16 Sep 2023 04:29:05 GMT)
構造化文書へについて分析し、PDFTriage（Generate document metadata → LLM-based triage → Answer using retrieved content）を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。

Document Understanding関連でもLLMの活用が進む

LMDX: Language Model-based Document Information Extraction and Localization [15.7]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 22:32:56 GMT)
LLMを用いた文書からの情報抽出（OCRが起点）、LayoutLMv3を超えているのが凄い。

CoVe: Chain-of-Verification

Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 17:50:55 GMT)
初期回答を作成→検証計画（検証用の質問）を作成→検証（回答・合意確認）→最終回答とすることでHallucinationを防ぐ取り組み
近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 17:56:28 GMT)
特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
研究の進展が非常に速い分野でもありとても重要な論文

OpenBA

OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch [41.5]
OpenBAは、オープンソースの15Bバイリンガルな非対称seq2seqモデルである。 OpenBAを効果的かつ効率的な技術で強化し、3段階のトレーニング戦略を採用します。私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 15:46:40 GMT)
非対称encoder-decoderアーキテクチャのLLM、薄いとはいえencoder部分を持つのは珍しい気がする。サイズに比べて性能が高い。
リポジトリはGitHub – OpenNLG/OpenBA: OpenBA: An Open-Sourced 15B Bilingual Asymmetric Seq2Seq Model Pre-trained from Scratch、HuggingFaceサイトはOpenBA (OpenBA) (huggingface.co)

Baichuan 2, phi-1.5

Baichuan 2: Open Large-scale Language Models [50.4]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 04:13:22 GMT)
GitHub – baichuan-inc/Baichuan2: A series of large language models developed by Baichuan Intelligent Technology　のテクニカルレポート
ソースコードはApache-2だが、モデルは独自ライセンスとなっている。

Textbooks Are All You Need II: phi-1.5 technical report [55.7]
我々は、新しい13億のパラメータモデルphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。 textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 14:01:45 GMT)
高品質データの重要性が分かるPhi-1.5のテクニカルレポート
モデルはmicrosoft/phi-1_5 · Hugging Face

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30