arXiv最新論文の紹介

KICT: Knowledgeable InContext Tuning framework

Boosting In-Context Learning with Factual Knowledge [39.9]
In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文参考訳（メタデータ） (Tue, 26 Sep 2023 09:06:39 GMT)
ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
In context learningは強力であるので、このような研究の方向性も有望だと思う。

A Comprehensive Review on Financial Explainable AI

A Comprehensive Review on Financial Explainable AI [29.2]
金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。説明可能なAI手法のコレクションは,その特性に応じて分類する。我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 10:30:49 GMT)
金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

GPT-Fathom, NLPBench

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [31.3]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (Thu, 28 Sep 2023 16:43:35 GMT)
GitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.　を用いた評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文参考訳（メタデータ） (Wed, 27 Sep 2023 13:02:06 GMT)
NLPコースの試験から作られたデータセット
モデル×手法（Zero/Few shot, CoT, ToT）の結果が興味深い。
GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

Fin-Fact

Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文参考訳（メタデータ） (Fri, 15 Sep 2023 22:24:00 GMT)
金融分野のファクトチェッキング用データセット＆ベンチマーク
リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

Calibrating LLM-Based Evaluator [92.2]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (Sat, 23 Sep 2023 08:46:11 GMT)
LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択＆ICLというプロセス。
LLMを人っぽく使っている点が非常に興味深い。

LMSYS-Chat-1M

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [76.0]
LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 12:13:55 GMT)
LMSYSによる大規模対話データセット。lmsys/lmsys-chat-1m · Datasets at Hugging Faceからアクセス可能。
「Although most conversations are with Vicuna, we think the prompts alone are already highly valuable and one can use other models to regenerate answers if needed.」とのこと。言語は英語が圧倒的に多く、ポルトガル語、ロシア語、中国語、スペイン語と続く。unknownを除き日本語は9位？

LLaVA-RLHF

Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (Mon, 25 Sep 2023 20:59:33 GMT)
マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V（GPT-4V(ision) system card (openai.com)）と比較してみたところ。
リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face（ Apache License 2.0）など。

Qwen Technical Report, PLaMo-13B

Qwen Technical Report [132.5]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文参考訳（メタデータ） (Thu, 28 Sep 2023 17:07:49 GMT)
Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。

PFNからも日英対応LLMが出ている。日英2言語対応の大規模言語モデルPLaMo-13Bを研究・商用利用可能なオープンソースソフトウェアライセンスで公開 – 株式会社Preferred Networks、HuggingFaceはpfnet/plamo-13b · Hugging Face。Apache License v2.0で非常に使いやすそう。

MindAgent

MindAgent: Emergent Gaming Interaction [103.7]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文参考訳（メタデータ） (Mon, 18 Sep 2023 17:52:22 GMT)
CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
プロジェクトサイトはMindAgent

SlimPajama-DC: Understanding Data Combinations for LLM Training

SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 17:59:54 GMT)
LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い（言われてみればまぁそうだろうと思う。。）
データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28