arXiv最新論文の紹介

A diverse Multilingual News Headlines Dataset from around the World

A diverse Multilingual News Headlines Dataset from around the World [57.4]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 12:08:39 GMT)
「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face　ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。

m3P: Multimodal Multilingual neural Machine Translation

m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (Tue, 26 Mar 2024 10:04:24 GMT)
「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
データセットが公開されているのも凄い　CSJianYang/InstrMulti102 · Datasets at Hugging Face

MATEval: A “Multi-Agent Text Evaluation framework”

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 10:41:47 GMT)
マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」とのことで現実的なデータ＆様々な手法と比較されているのは興味深い。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Evaluation Ethics of LLMs in Legal Domain

Evaluation Ethics of LLMs in Legal Domain [35.7]
本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 09:05:13 GMT)
LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following（正しく命令に従うか）」「Legal Knowledge（ Gender Bias, Age Bias, Career Biasを持っていないか）」「 Legal Robustness（回答の一貫性と誘導されないか）」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。

LLM Agent Operating System

AIOS: LLM Agent Operating System [40.9]
AIOSは、大規模言語モデル(LLM)ベースのインテリジェントエージェントのためのオペレーティングシステムである。具体的には、AIOSはリソース割り当てを最適化し、エージェント間のコンテキストスイッチを容易にし、エージェントの同時実行を可能にし、エージェントのためのツールサービスを提供し、エージェントのアクセス制御を維持するように設計されている。我々は、そのようなオペレーティングシステムのアーキテクチャを説明し、AIOSの基本設計と実装を提供する。
論文参考訳（メタデータ） (Tue, 26 Mar 2024 02:35:07 GMT)
LLM AgentのためのOS、LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem – arXiv最新論文の紹介 (devneko.jp)と同じチームによる論文。面白いアプローチではあるが、今後ありうる進化に追随していけるのか（抽象化が十分なのか）は気になるところ。
リポジトリはagiresearch/AIOS: AIOS: LLM Agent Operating System (github.com)

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
論文参考訳（メタデータ） (Wed, 20 Mar 2024 15:40:18 GMT)
Machine unlearning領域の攻撃や防御のサーベイ

Jamba: A Hybrid Transformer-Mamba Language Model

Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 23:55:06 GMT)
DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB（256Kコンテキスト）ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。（コンテキスト長すぎじゃないかと思わなくはないが）　性能はMixstralと良い勝負であり非常に効率的。
リポジトリはai21labs/Jamba-v0.1 · Hugging Face

OmniParser

OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.9]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 03:51:14 GMT)
visually-situated text parsing（text spotting, key information extraction, table recognition）のためのフレームワークを提案。Document Understandingの上でとても重要。2 stageの特化型の構成でMLLMでの解決ではない。
コード等はAlibabaResearch/AdvancedLiterateMachinery: A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Alibaba DAMO Academy. (github.com)で公開予定とのこと。

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [31.5]
従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
論文参考訳（メタデータ） (Fri, 8 Mar 2024 07:58:13 GMT)
World modelになるかもというsoraの主張に対してのサーベイ。「it is understandable that OpenAI claims Sora as an AI model that understands and thus, can simulate the physical world.」としながらも様々な課題も指摘している。「Nonetheless, why scaling up is not a cure-all and how to liberate Sora from contemporary issues in vision generation tasks is still left as a blue ocean in vision generation research community」

DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks（＆元MosaicML）によるDBRXで公開モデルとしては非常に高性能（ライセンスは独自）。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch（RWKV-x060-World-1B6-v2.1-20240328-ctx4096）がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5（および2）のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31