arXiv – ページ 76 – arXiv最新論文の紹介

DePT: Decoupled Prompt Tuning

DePT: Decoupled Prompt Tuning [133.7]
この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 05:45:40 GMT)
GitHub – Koorye/DePT: Offical implemention of paper “Decoupled Prompt Tuning”

ELBERT: Equal Long-term BEnefit RaTe

Equal Long-term Benefit Rate: Adapting Static Fairness Notions to Sequential Decision Making [43.6]
ELBERT(Equal Long-term Benefit Rate)と呼ばれる長期公正性の概念を導入する。長期利益率の政策勾配は分析的に標準政策勾配に還元できることを示す。 3つの逐次意思決定環境の実験により,ELBERT-POはバイアスを著しく低減し,高い有効性を維持することが示された。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 01:10:01 GMT)
長期的な公平性の概念を提案。時間の概念は重要で面白い取り組み。
リポジトリはGitHub – Yuancheng-Xu/ELBERT: Official Implementation of the paper “Equal Long-term Benefit Rate: Adapting Static Fairness Notions to Sequential Decision Making” by Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang, Jieyu Zhao and Furong Huang

Large Language Models for Compiler Optimization

Large Language Models for Compiler Optimization [22.5]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。最適化前後の命令数と最適化コード自体を予測する。提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文参考訳（メタデータ） (Mon, 11 Sep 2023 22:11:46 GMT)
コードの最適化にLLMを使う報告。コンパイオプションを生成し他の手法に比べても有望な結果とのこと。
「We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size.」というのはLLMと言えるのか・・・？

LLMのAgents

Agents: An Open-source Framework for Autonomous Language Agents [97.0]
我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 17:18:25 GMT)
オープンソースの言語エージェントフレームワーク
リポジトリはGitHub – aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents、The Agent Hubなる取り組みも予定しているようで期待大

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (Fri, 8 Sep 2023 19:34:05 GMT)
Cohere for AIによるデータ品質向上に関する報告
パープレキシティを用いるシンプル（？）な手法が高性能とのこと

Simultaneous Machine Translation with Large Language Models

Simultaneous Machine Translation with Large Language Models [51.5]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを解く能力を示した。我々は,LSMが追加の訓練を必要とせずにSimulMTに参加することができる簡易かつ効果的な混合政策を導入する。 Llama2-7B-chatでMUST-Cデータセットから9つの言語ペアを用いて行った実験は、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを実現できることを示した。
論文参考訳（メタデータ） (Wed, 13 Sep 2023 04:06:47 GMT)
simultaneous machine translationにLLMを用いる研究。Reading Policy、Writing Policyは既存研究のものがベース、Finetuningを行うことで優れた性能を出せるとのこと。

RGB: Retrieval-Augmented Generation Benchmark

Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (Mon, 4 Sep 2023 08:28:44 GMT)
LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
リポジトリはGitHub – chen700564/RGB

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 06:41:58 GMT)
LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」（PA: Percentage Agreement ）「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
GPT-4とかだと英語で有効だった手法が日本語でも動く（ように見える）わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。

Ambiguity-Aware In-Context Learning with Large Language Models

Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。そこで本研究では,ICLの優れた実演方法について検討する。意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 17:48:34 GMT)
通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。

ExpertQA

ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 16:54:34 GMT)
高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31