2024年2月 – ページ 6 – arXiv最新論文の紹介

DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい（CommonCrawlがデータの多くを占めている）。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Face、allenai/OLMo-7B · Hugging Face、allenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文参考訳（メタデータ） (Wed, 31 Jan 2024 20:29:50 GMT)

OLMo: Accelerating the Science of Language Models [166.1]
言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
論文参考訳（メタデータ） (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

H2O-Danube-1.8B Technical Report [2.8]
H2O-Danube-1.8Bは1Tトークンで訓練された1.8B言語モデルである。 H2O-Danube-1.8BをApache 2.0ライセンスで公開しています。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 08:45:08 GMT)
OSSで小型、しかし、性能が高めのLLMの提案
h2oai/h2o-danube-1.8b-base · Hugging Face

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 07:03:32 GMT)
評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

Weak-to-Strong Jailbreaking on Large Language Models

Weak-to-Strong Jailbreaking on Large Language Models [96.5]
Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 18:48:37 GMT)
弱く（小さい）モデルの挙動を分析することで強く（大きい）モデルをjailbreakできるとの報告。通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)

Adapting Large Language Models for Document-Level Machine Translation

Adapting Large Language Models for Document-Level Machine Translation [49.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 09:29:13 GMT)
LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
「We find that the PEFT approach yields superior overall performance compared to the FFT approach」（ただしFFTのほうがデータ効率は高いとのこと）がとても興味深い

DoraemonGPT

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models [78.4]
DoraemonGPTは、大規模言語モデル(LLM)によって駆動される、動的ビデオタスクを処理する包括的なシステムである。 DoraemonGPTは、質問/タスクのあるビデオが与えられたら、入力されたビデオを大量のコンテンツで変換し、シンボリックメモリに変換して、textittask関連の属性を格納する。特殊なドメインに関しては,LLMには内部知識が限られていることを認識し,外部知識を評価し,異なるドメインにわたるタスクに対処するためのプラグイン・アンド・プレイ・ツールが組み込まれている。
論文参考訳（メタデータ） (Tue, 16 Jan 2024 14:33:09 GMT)
どうやって略称にしたのかもよくわからない名前のモデル。タイトルの鈴や図がかわいい。（研究はまじめで実用性も高い）
z-x-yang/DoraemonGPT: Official repository of DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (github.com)

Machine Translation Models are Zero-Shot Detectors of Translation Direction

Machine Translation Models are Zero-Shot Detectors of Translation Direction [52.2]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,p(texttranslation|text Origin)>p(textgenic|texttranslation)という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 18:59:02 GMT)
ある言語の文とそこからある言語に翻訳されれた文があったとき、翻訳の方向を検出する手法の提案。とてもシンプルな仮定だがうまくいくよう。（言語的に遠い場合でも大丈夫なのかは興味がある）
リポジトリはZurichNLP/translation-direction-detection: Unsupervised translation direction detection using NMT systems (github.com)

Leveraging Large Language Models for NLG Evaluation: A Survey

Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文参考訳（メタデータ） (Sat, 13 Jan 2024 15:59:09 GMT)
LLMを用いた評価手法のサーベイ
「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。

月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29