arXiv – ページ 93 – arXiv最新論文の紹介

XTREME-UP

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (Wed, 24 May 2023 06:09:28 GMT)
非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
リポジトリはGitHub – google-research/xtreme-up

LLMScore

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 16:57:57 GMT)
LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Scaling Data-Constrained Language Models

Scaling Data-Constrained Language Models [151.9]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文参考訳（メタデータ） (Thu, 25 May 2023 17:18:55 GMT)
データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

LIMA: Less Is More for Alignment

LIMA: Less Is More for Alignment [112.9]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (Thu, 18 May 2023 17:45:22 GMT)
強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

CoFe:

How Do In-Context Examples Affect Compositional Generalization? [86.6]
本稿では,コンテクスト内構成一般化を検証するためのテストスイートであるCoFeを提案する。構成一般化性能は、文脈内例の選択によって容易に影響を受けることが判明した。我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示します。
論文参考訳（メタデータ） (Thu, 25 May 2023 02:34:40 GMT)
in context learningのテストスイートの提案、詳細な分析がなされており非常に参考になる。「Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple.」とあるのは直感的にもそうだとは思うが、それぞれの要素について検証がなされているのが凄い。
リポジトリはContextualSP/cofe at master · microsoft/ContextualSP · GitHub

FACTSCORE: Factual precision in Atomicity Score

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
論文参考訳（メタデータ） (Tue, 23 May 2023 17:06:00 GMT)
生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆（The False Promise of Imitating Proprietary LLMsと同じ示唆）している気がする。

ExpertPrompting

ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [93.6]
ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
論文参考訳（メタデータ） (Wed, 24 May 2023 03:51:31 GMT)
工夫したプロンプト戦略を使ってデータセットを作成しLLaMA 7Bをチューニング、Vicunaなどを超えChatGPTの96%の能力を達成とのこと。Bardを超えているようにみえるのも興味深い。
リポジトリはGitHub – OFA-Sys/ExpertLLaMA: An opensource ChatBot built with ExpertPrompting which achieves 96% of ChatGPT’s capability.

Chameleon

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models [195.7]
大規模言語モデル(LLM)は、様々な自然言語処理タスクの解決において顕著な進歩を遂げている。 LLMは、最新の情報にアクセスできないため、固有の制限がある。本稿では,LLMを合成推論のためのプラグアンドプレイモジュールで拡張するAIシステムChameleonを紹介する。
論文参考訳（メタデータ） (Wed, 24 May 2023 17:52:19 GMT)
様々な手法（off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules）を組み合わせて問題を解くプランナー＆実行フレームワークの提案。4ページの表からはHuggingGPTなど近い発想の手法よりも多様なツールに対応していることが見て取れる。ベンチマーク結果も優れている（Adaptorなどを使ったFinetune以上に見える）
プロジェクトサイトはChameleon: Plug-and-Play Compositional Reasoning with Large Language Models (chameleon-llm.github.io)

RWKV: Reinventing RNNs for the Transformer Era

RWKV: Reinventing RNNs for the Transformer Era [27.3]
本稿では,トランスフォーマーの効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。提案手法は線形アテンション機構を利用して,トレーニング中に計算を並列化し,推論中に一定の計算量とメモリの複雑さを維持するトランスフォーマーあるいはRNNとしてモデルを定式化することができる。我々の実験は、RWKVが同様の大きさのトランスフォーマーと同等に動作していることを示し、将来の作業がこのアーキテクチャを活用してより効率的なモデルを作成することができることを示唆している。
論文参考訳（メタデータ） (Mon, 22 May 2023 13:57:41 GMT)
性能が高いと噂のRNNベースのRWKVの論文
「While many alternatives to Transformers have been proposed with similar claims, ours is the first to back up those claims with pretrained models with tens of billions of parameters.」という記載が熱く、おっしゃる通りで実用レベルの大きさ＆有名ベンチマークで有効性を示すことは重要だと思う。
リポジトリはGitHub – BlinkDL/RWKV-LM: RWKV is an RNN with transformer-level LLM performance. It can be directly trained like a GPT (parallelizable). So it’s combining the best of RNN and transformer – great performance, fast inference, saves VRAM, fast training, “infinite” ctx_len, and free sentence embedding.

The False Promise of Imitating Proprietary LLMs

The False Promise of Imitating Proprietary LLMs [158.7]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文参考訳（メタデータ） (Thu, 25 May 2023 05:00:12 GMT)
様々な所でトライされている「強力なLLMからの出力を使って、そうでもないLLMをfine tune」するアプローチを検証した論文。指示に良く従うように見えるが本質的な性能差を埋めているわけではないとの指摘。
「We showed that imitation can indeed improve the style, persona, and instruction adherence of open-source LMs.　However, imitation falls short in improving LMs across more challenging axes such as factuality, coding, and problem solving.」ということで応答部分の模倣がうまくいくからと言って問題を解く能力が増加して言えるわけでない、という当たり前と言えば当たり前の指摘。。

OSSなLLMだとLLaMAをoutperformしたというFALCON-40B、tiiuae/falcon-40b · Hugging Faceに期待大、Open LLM Leaderboard – a Hugging Face Space by HuggingFaceH4で現在のところトップの性能。商用利用時にはライセンス利用料が必要とのことで、ライセンスはよく読んで理解する必要がある。

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31