LLM – ページ 22 – arXiv最新論文の紹介

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.5]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文参考訳（メタデータ） (Thu, 16 May 2024 13:17:05 GMT)
LLMを用いて複数の訳文候補を組み合わせることで高品質な翻訳をしようという論文。fine tuning用のデータセットHypoTranslate（PeacefulData/HypoTranslate · Datasets at Hugging Face）も公開している。
リポジトリはGitHub – YUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators”

What Can Natural Language Processing Do for Peer Review?

What Can Natural Language Processing Do for Peer Review? [173.9]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文参考訳（メタデータ） (Fri, 10 May 2024 16:06:43 GMT)
LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
リポジトリはGitHub – OAfzal/nlp-for-peer-review

EWOK: Elements of World Knowledge

Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文参考訳（メタデータ） (Wed, 15 May 2024 17:19:42 GMT)
LLMの世界の知識（物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる）を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)

GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある（GPT-5の発表によって覆される可能性はあるが・・・）

気になっているのはコンテキストキャッシュガイド | Google AI for Developers | Google for Developersの実装で、中身がSSM＆状態を保存するようなものだと革新的（そうじゃないと思うけど）。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face

Chain of Attack

Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文参考訳（メタデータ） (Thu, 09 May 2024 08:15:21 GMT)
マルチターンな攻撃方法
リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM

DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開｜rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文参考訳（メタデータ） (Tue, 07 May 2024 15:56:43 GMT)
Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Face、deepseek-ai/DeepSeek-V2-Chat · Hugging Face

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
論文参考訳（メタデータ） (Tue, 07 May 2024 20:28:34 GMT)
国（本件検証対象は中国、インド、イラン、ケニア、米国）によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では４０４

Why Tabular Foundation Models Should Be a Research Priority

Why Tabular Foundation Models Should Be a Research Priority [65.8]
テーブルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文参考訳（メタデータ） (Thu, 02 May 2024 10:05:16 GMT)
Large Tabular Model、欲しいと思いつつ汎用的にできるのか＆コストが見合うのかは論文を読んでなお結構疑問

Causal Evaluation of Language Models

Causal Evaluation of Language Models [33.3]
言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
論文参考訳（メタデータ） (Wed, 01 May 2024 16:43:21 GMT)
LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文参考訳（メタデータ） (Thu, 02 May 2024 14:49:50 GMT)
多言語性能を上げるための２段階のアライメント手法（ question alignment and response alignment）の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
リポジトリはGitHub – NJUNLP/QAlign

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31