- Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 07:03:32 GMT) - 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
- リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)
タグ: LLM
Adapting Large Language Models for Document-Level Machine Translation
- Adapting Large Language Models for Document-Level Machine Translation [49.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 09:29:13 GMT) - LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
- 「We find that the PEFT approach yields superior overall performance compared to the FFT approach」(ただしFFTのほうがデータ効率は高いとのこと)がとても興味深い
Leveraging Large Language Models for NLG Evaluation: A Survey
- Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (Sat, 13 Jan 2024 15:59:09 GMT) - LLMを用いた評価手法のサーベイ
- 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。
DeepEdit: Depth-first Search based Progressive Decoding for Knowledge Editing
- DeepEdit: Knowledge Editing as Decoding with Constraints [129.8]
我々は,制約付き復号化として,大規模言語モデル(LLM)の知識編集の新しい視点を開発する。 DeepEditは、知識編集を改善するニューラルシンボリックな方法であり、推論の一貫性、質問への関連性、更新された知識の認識を改善する。
論文 参考訳(メタデータ) (Fri, 19 Jan 2024 03:48:27 GMT) - デコード時に対応するタイプのKnowledge editing、出力を直接コントロールできるためプロンプトによる対応よりも強制力が強い。そしてブラックボックスモデルに対しても適用可能とのこと。リアルタイム性には課題を抱えそうだが、面白い方法だと思う。
- リポジトリはwangywUST/DeepEdit: Repository for our paper “DeepEdit: Knowledge Editing as Decoding with Constraints”. https://arxiv.org/abs/2401.10471 (github.com)
MaLA-500
- MaLA-500: Massive Language Adaptation of Large Language Models [18.0]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。 SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 08:57:39 GMT) - 534言語をカバーするLLM、データはcisnlp/Glot500: Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages (ACL’23) (github.com)、LLaMA 2 7Bを継続学習するアプローチ。
- モデルはMaLA-LM/mala-500 · Hugging Face
Orion-14B: Open-source Multilingual Large Language Models
- Orion-14B: Open-source Multilingual Large Language Models [15.6]
我々は,140億のパラメータを持つ多言語大言語モデルの集合であるOrion-14Bを紹介する。 データスケジューリング手法を用いて、英語、中国語、日本語、韓国語、その他の言語のテキストから得られた2.5兆トークンの多種多様なコーパスに基づいて基礎モデルを訓練する。 評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (Sat, 20 Jan 2024 12:29:27 GMT) - 日本語でも高性能として話題になったOrion-14Bの論文、コードはApache-2ライセンスだがウェイトは独自ライセンス。
- リポジトリはOrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。 (github.com)、日本語のプレスリリースも出ているOrionStarはオープンソースのマルチリンガルLLM「Orion-14B」をリリースしました。
Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models
- Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models [47.4]
本稿では,多言語大言語モデル(LLM)の多言語多言語翻訳性能の向上に焦点をあてる。 言語間整合性正規化(XConST)を導入し、異なる言語間の表現ギャップを埋め、ゼロショット変換性能を向上させる。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 12:11:30 GMT) - 多対多の機械翻訳性能を上げる正規化の活用。zero shotでの性能が大きく上がっている。
- リポジトリはgpengzhi/CrossConST-LLM: Code for arXiv paper “Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models” (github.com)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [92.1]
現在の言語モデルは、ハードデータで訓練されたモデルと同様に、比較的容易にハードデータから一般化されることが多い。 ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 18:36:29 GMT) - 易しい問題でチューニングしたモデルが難しい問題に対してもかなり有効であるとの報告。とっても面白い性質。
- 「Our findings suggest that the scalable oversight problem may be easier than previously thought.」とあるものの意図せず、強力なものを作ってしまう危険性もあるような。。(参考:Fugu-MT 論文翻訳(概要): Measuring Progress on Scalable Oversight for Large Language Models (fugumt.com))
- リポジトリはallenai/easy-to-hard-generalization: Code for the arXiv preprint “The Unreasonable Effectiveness of Easy Training Data” (github.com)
SciGLM
- SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning [60.1]
LLM(Large Language Models)は、科学的な発見を支援することを約束している。 我々はSciGLMを紹介した。SciGLMは大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。 より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、そして自己表現フレームワークと微調整コードをリリースします。
論文 参考訳(メタデータ) (Mon, 15 Jan 2024 20:22:21 GMT) - LLMの科学分野の能力を向上するデータ作成フレームワークを提案、モデルを構築し高い性能を達成。C-Eval Hardなど中国語のタスクにおいてはGPT-4をこえているように見える。CoT、self-reflective frameworkなど様々なテクニックを使ってデータを作るアプローチ。
- リポジトリはTHUDM/SciGLM: SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning (github.com)
Question Translation Training for Better Multilingual Reasoning
- Question Translation Training for Better Multilingual Reasoning [113.5]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (Mon, 15 Jan 2024 16:39:10 GMT) - 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
- リポジトリはNJUNLP/QAlign (github.com)