LLM – ページ 18 – arXiv最新論文の紹介

CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan

高い性能が話題となったCALM3 22B（論文などはまだ？）、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。

CALM3 22Bについてはこの記事を作成時点で公式ニュースリリースやテクニカルレポート、論文の発表などはなさそう
- cyberagent/calm3-22b-chat · Hugging Face
- 個人的な検証ではかなり高性能に思える　CyberAgentLM3-22B-Chat (CALM3-22B-Chat)の機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.2]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。 IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。 IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文参考訳（メタデータ） (Wed, 3 Jul 2024 17:59:21 GMT)
リポジトリはGitHub – InternLM/InternLM-XComposer: InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

YuLan: An Open-source Large Language Model [179.6]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文参考訳（メタデータ） (Fri, 28 Jun 2024 11:52:53 GMT)
リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model

Scaling Synthetic Data Creation with 1,000,000,000 Personas

Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5]
私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
論文参考訳（メタデータ） (Fri, 28 Jun 2024 17:59:01 GMT)
多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。
リポジトリはGitHub – tencent-ailab/persona-hub

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文参考訳（メタデータ） (Wed, 03 Jul 2024 15:04:25 GMT)
CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE（Mixture of insighTful Experts）の提案。
「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

MIRAI: Evaluating LLM Agents for Event Forecasting

MIRAI: Evaluating LLM Agents for Event Forecasting [22.5]
我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 12:22:46 GMT)
AIエージェントが未来を予測できるかを測るためのベンチマーク。「We finalized a collection of 991,759 GDELT event records, corresponding to 59,161 unique events and 296,630 unique news articles. Our test set contains 705 query and answer pairs on forecasting an event of given timestamp between two countries, with a 100 balanced test subset.」（GDELT=The GDELT Project）と大規模。
リポジトリはMIRAI: Evaluating LLM Agents for Event Forecasting (mirai-llm.github.io)

Multilingual Trolley Problems for Language Models

Multilingual Trolley Problems for Language Models [138.1]
この研究は、「道徳機械実験」という人間の道徳的嗜好に関する大規模横断的な研究から着想を得たものである。大規模な言語モデル(LLM)は、英語、韓国語、ハンガリー語、中国語などの言語では人間の好みと一致しているが、ヒンディー語やソマリ語(アフリカ)のような言語では一致していないことを示す。また, LLMが道徳的選択に与える説明を特徴付けるとともに, GPT-3によるGPT-4の決定と実用主義の裏側において, 公平性が最も有力であることを示す。
論文参考訳（メタデータ） (Tue, 02 Jul 2024 14:02:53 GMT)
トロッコ問題のような道徳的なジレンマを含む問題を多数の言語に翻訳し、LLMの回答と人間の回答を比較した論文。「We discover that LLMs are more aligned with human preferences in languages such as English, Korean, Hungarian, and Chinese, but less aligned in languages such as Hindi and Somali (in Africa).」とのことで言語間の差異は気になるところ。また、「Moreover, we characterize the explanations LLMs give for their moral choices and find that fairness is the most dominant supporting reason behind GPT-4’s decisions and utilitarianism by GPT-3.」は面白い結果。LLMの規模によるものか、アライメントの方針が変わったのか、興味がある。
リポジトリはGitHub – causalNLP/moralmachine

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.5]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (Mon, 24 Jun 2024 01:30:22 GMT)
LLMが研究者を支援できるかどうか、レビュワー・メタレビュワーの観点で試行した論文
結論として「Our analysis reveals that while LLMs can generate reviews, they often produce Deficient and paper-unspecific segments, lacking the diversity and constructive feedbacks.Additionally, even state-of-the-art LLMs struggle to assess review deficiencies effectively.」

“You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations

“You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
論文参考訳（メタデータ） (Tue, 18 Jun 2024 03:11:43 GMT)
LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
日本語で実行した場合どのようになるか興味がある。

UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs

UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.1]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 08:44:36 GMT)
ベースとなるLLMでコンテンツを圧縮、圧縮したコンテンツを使ってデコードすることで長文を取り扱うアプローチの提案。（前半と後半のつなぎに通常のテキストを使う例はよく見るのでモデル内で完結させられても不思議はないが、ちゃんと動作することに驚きがある）
リポジトリはGitHub – wenhaoli-xmu/UIO-LLMs: Official implementation of UIO-LLMs

Evaluating Copyright Takedown Methods for Language Models

Evaluating Copyright Takedown Methods for Language Models [100.4]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。本稿では,LMの著作権削除の可能性と副作用を初めて評価する。システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 18:09:46 GMT)
著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
論文参考訳（メタデータ） (Mon, 24 Jun 2024 16:31:12 GMT)
最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31