- Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (Fri, 26 Jan 2024 03:38:23 GMT) - 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
- コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。
投稿者: staka
Document Structure in Long Document Transformers
- Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (Wed, 31 Jan 2024 08:28:06 GMT) - 文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
- リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと(現在は404)
DolmaとOLMo
オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。
OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。
データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Face、allenai/OLMo-7B · Hugging Face、allenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (Wed, 31 Jan 2024 20:29:50 GMT)
- OLMo: Accelerating the Science of Language Models [166.1]
言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
論文 参考訳(メタデータ) (Thu, 1 Feb 2024 18:28:55 GMT)
H2O-Danube-1.8B Technical Report
- H2O-Danube-1.8B Technical Report [2.8]
H2O-Danube-1.8Bは1Tトークンで訓練された1.8B言語モデルである。 H2O-Danube-1.8BをApache 2.0ライセンスで公開しています。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 08:45:08 GMT) - OSSで小型、しかし、性能が高めのLLMの提案
- h2oai/h2o-danube-1.8b-base · Hugging Face
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate
- Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 07:03:32 GMT) - 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
- リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)
Weak-to-Strong Jailbreaking on Large Language Models
- Weak-to-Strong Jailbreaking on Large Language Models [96.5]
Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 18:48:37 GMT) - 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。下記のように通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
- リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)
- Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.2]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。 弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (Thu, 14 Dec 2023 23:07:33 GMT)
Adapting Large Language Models for Document-Level Machine Translation
- Adapting Large Language Models for Document-Level Machine Translation [49.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 09:29:13 GMT) - LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
- 「We find that the PEFT approach yields superior overall performance compared to the FFT approach」(ただしFFTのほうがデータ効率は高いとのこと)がとても興味深い
DoraemonGPT
- DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models [78.4]
DoraemonGPTは、大規模言語モデル(LLM)によって駆動される、動的ビデオタスクを処理する包括的なシステムである。 DoraemonGPTは、質問/タスクのあるビデオが与えられたら、入力されたビデオを大量のコンテンツで変換し、シンボリックメモリに変換して、textittask関連の属性を格納する。 特殊なドメインに関しては,LLMには内部知識が限られていることを認識し,外部知識を評価し,異なるドメインにわたるタスクに対処するためのプラグイン・アンド・プレイ・ツールが組み込まれている。
論文 参考訳(メタデータ) (Tue, 16 Jan 2024 14:33:09 GMT) - どうやって略称にしたのかもよくわからない名前のモデル。タイトルの鈴や図がかわいい。(研究はまじめで実用性も高い)
- z-x-yang/DoraemonGPT: Official repository of DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (github.com)
Machine Translation Models are Zero-Shot Detectors of Translation Direction
- Machine Translation Models are Zero-Shot Detectors of Translation Direction [52.2]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。 本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,p(texttranslation|text Origin)>p(textgenic|texttranslation)という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 18:59:02 GMT) - ある言語の文とそこからある言語に翻訳されれた文があったとき、翻訳の方向を検出する手法の提案。とてもシンプルな仮定だがうまくいくよう。(言語的に遠い場合でも大丈夫なのかは興味がある)
- リポジトリはZurichNLP/translation-direction-detection: Unsupervised translation direction detection using NMT systems (github.com)
Leveraging Large Language Models for NLG Evaluation: A Survey
- Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (Sat, 13 Jan 2024 15:59:09 GMT) - LLMを用いた評価手法のサーベイ
- 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。