DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Faceallenai/OLMo-7B · Hugging Faceallenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

  • Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
    われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 20:29:50 GMT)
  • OLMo: Accelerating the Science of Language Models [166.1]
    言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

  • Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
    エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 07:03:32 GMT)
  • 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
  • リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

Adapting Large Language Models for Document-Level Machine Translation

  • Adapting Large Language Models for Document-Level Machine Translation [49.7]
    大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
    論文  参考訳(メタデータ)   (Fri, 12 Jan 2024 09:29:13 GMT)
  • LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
  • 「We find that the PEFT approach yields superior overall performance compared to the FFT approach」(ただしFFTのほうがデータ効率は高いとのこと)がとても興味深い

Leveraging Large Language Models for NLG Evaluation: A Survey

  • Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
    LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
    論文  参考訳(メタデータ)   (Sat, 13 Jan 2024 15:59:09 GMT)
  • LLMを用いた評価手法のサーベイ
  • 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。

DeepEdit: Depth-first Search based Progressive Decoding for Knowledge Editing

  • DeepEdit: Knowledge Editing as Decoding with Constraints [129.8]
    我々は,制約付き復号化として,大規模言語モデル(LLM)の知識編集の新しい視点を開発する。 DeepEditは、知識編集を改善するニューラルシンボリックな方法であり、推論の一貫性、質問への関連性、更新された知識の認識を改善する。
    論文  参考訳(メタデータ)   (Fri, 19 Jan 2024 03:48:27 GMT)
  • デコード時に対応するタイプのKnowledge editing、出力を直接コントロールできるためプロンプトによる対応よりも強制力が強い。そしてブラックボックスモデルに対しても適用可能とのこと。リアルタイム性には課題を抱えそうだが、面白い方法だと思う。
  • リポジトリはwangywUST/DeepEdit: Repository for our paper “DeepEdit: Knowledge Editing as Decoding with Constraints”. https://arxiv.org/abs/2401.10471 (github.com)

MaLA-500

Orion-14B: Open-source Multilingual Large Language Models

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks