LLM – ページ 43 – arXiv最新論文の紹介

KICT: Knowledgeable InContext Tuning framework

Boosting In-Context Learning with Factual Knowledge [39.9]
In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文参考訳（メタデータ） (Tue, 26 Sep 2023 09:06:39 GMT)
ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
In context learningは強力であるので、このような研究の方向性も有望だと思う。

GPT-Fathom, NLPBench

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [31.3]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (Thu, 28 Sep 2023 16:43:35 GMT)
GitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.　を用いた評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文参考訳（メタデータ） (Wed, 27 Sep 2023 13:02:06 GMT)
NLPコースの試験から作られたデータセット
モデル×手法（Zero/Few shot, CoT, ToT）の結果が興味深い。
GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

Calibrating LLM-Based Evaluator [92.2]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (Sat, 23 Sep 2023 08:46:11 GMT)
LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択＆ICLというプロセス。
LLMを人っぽく使っている点が非常に興味深い。

LLaVA-RLHF

Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (Mon, 25 Sep 2023 20:59:33 GMT)
マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V（GPT-4V(ision) system card (openai.com)）と比較してみたところ。
リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face（ Apache License 2.0）など。

Qwen Technical Report, PLaMo-13B

Qwen Technical Report [132.5]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文参考訳（メタデータ） (Thu, 28 Sep 2023 17:07:49 GMT)
Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。

PFNからも日英対応LLMが出ている。日英2言語対応の大規模言語モデルPLaMo-13Bを研究・商用利用可能なオープンソースソフトウェアライセンスで公開 – 株式会社Preferred Networks、HuggingFaceはpfnet/plamo-13b · Hugging Face。Apache License v2.0で非常に使いやすそう。

MindAgent

MindAgent: Emergent Gaming Interaction [103.7]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 17:52:22 GMT)
CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
プロジェクトサイトはMindAgent

SlimPajama-DC: Understanding Data Combinations for LLM Training

SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 17:59:54 GMT)
LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い（言われてみればまぁそうだろうと思う。。）
データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face

ACEGPT: アラビア語のLLM

AceGPT, Localizing Large Language Models in Arabic [75.6]
本稿では,アラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。本論文は、アラビア語テキストによる事前学習、ネイティブアラビア語命令を用いた教師付き微調整(SFT)、アラビア語でのGPT-4応答、AIフィードバックによる強化学習(RLAIF)を含むパッケージ化されたソリューションの概要を述べる。目的は、文化的に認識され、価値に整合したアラビア語のLLMを訓練することであり、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに役立てることである。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 13:20:13 GMT)
アラビア語に対応したLLMを作る取り組み。英語以外のLLM構築とみてもとても参考になる。評価用データ重要だなあという印象。
リポジトリはGitHub – FreedomIntelligence/AceGPT

MINT: Multi-turn INTeraction ベンチマーク

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 15:25:42 GMT)
マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。（フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる）

ALMA: Advanced Language Model-based trAnslator

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models [27.8]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。 LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 22:53:15 GMT)
Llama-2をベースとした機械翻訳手法の提案、Monolingual Data Fine-tuning（ add English monolingual data during fine-tuning to prevent English knowledge forget） → High-Quality Data Fine-tuningという流れとのこと。
リポジトリはGitHub – fe1ixxu/ALMA: This is repository for ALMA translation models.

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31