コンテンツへスキップ
- Textbooks Are All You Need II: phi-1.5 technical report [55.7]
我々は、新しい13億のパラメータモデルphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。 textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。 我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文 参考訳(メタデータ) (Mon, 11 Sep 2023 14:01:45 GMT)
- 高品質データの重要性が分かるPhi-1.5のテクニカルレポート
- モデルはmicrosoft/phi-1_5 · Hugging Face
- Large Language Models for Compiler Optimization [22.5]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。 最適化前後の命令数と最適化コード自体を予測する。 提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文 参考訳(メタデータ) (Mon, 11 Sep 2023 22:11:46 GMT)
- コードの最適化にLLMを使う報告。コンパイオプションを生成し他の手法に比べても有望な結果とのこと。
- 「We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size.」というのはLLMと言えるのか・・・?
- When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (Fri, 8 Sep 2023 19:34:05 GMT)
- Cohere for AIによるデータ品質向上に関する報告
- パープレキシティを用いるシンプル(?)な手法が高性能とのこと
- Simultaneous Machine Translation with Large Language Models [51.5]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを解く能力を示した。 我々は,LSMが追加の訓練を必要とせずにSimulMTに参加することができる簡易かつ効果的な混合政策を導入する。 Llama2-7B-chatでMUST-Cデータセットから9つの言語ペアを用いて行った実験は、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを実現できることを示した。
論文 参考訳(メタデータ) (Wed, 13 Sep 2023 04:06:47 GMT)
- simultaneous machine translationにLLMを用いる研究。Reading Policy、Writing Policyは既存研究のものがベース、Finetuningを行うことで優れた性能を出せるとのこと。
- Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (Mon, 4 Sep 2023 08:28:44 GMT)
- LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
- リポジトリはGitHub – chen700564/RGB
- Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 06:41:58 GMT)
- LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
- GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。