コンテンツへスキップ
- Large Language Models for Compiler Optimization [22.5]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。 最適化前後の命令数と最適化コード自体を予測する。 提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文 参考訳(メタデータ) (Mon, 11 Sep 2023 22:11:46 GMT)
- コードの最適化にLLMを使う報告。コンパイオプションを生成し他の手法に比べても有望な結果とのこと。
- 「We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size.」というのはLLMと言えるのか・・・?
- When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (Fri, 8 Sep 2023 19:34:05 GMT)
- Cohere for AIによるデータ品質向上に関する報告
- パープレキシティを用いるシンプル(?)な手法が高性能とのこと
- Simultaneous Machine Translation with Large Language Models [51.5]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを解く能力を示した。 我々は,LSMが追加の訓練を必要とせずにSimulMTに参加することができる簡易かつ効果的な混合政策を導入する。 Llama2-7B-chatでMUST-Cデータセットから9つの言語ペアを用いて行った実験は、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを実現できることを示した。
論文 参考訳(メタデータ) (Wed, 13 Sep 2023 04:06:47 GMT)
- simultaneous machine translationにLLMを用いる研究。Reading Policy、Writing Policyは既存研究のものがベース、Finetuningを行うことで優れた性能を出せるとのこと。
- Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (Mon, 4 Sep 2023 08:28:44 GMT)
- LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
- リポジトリはGitHub – chen700564/RGB
- Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 06:41:58 GMT)
- LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
- GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。
- Ambiguity-Aware In-Context Learning with Large Language Models [27.2]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。 そこで本研究では,ICLの優れた実演方法について検討する。 意味的に類似したICLのデモンストレーションを選択するだけでなく、固有のラベルのあいまいさを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 17:48:34 GMT)
- 通常、意味的に近いものを入れるIn-Context Learningを改善する報告。「Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example’s decision boundary, brings the most performance gain.」とのこと。
- Inputデータとの類似性だけでなくLLMの知識の考慮がされる分高性能になるというのは「確かに」と思う。
- ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 16:54:34 GMT)
- 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
- リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers
- Large Language Model for Science: A Study on P vs. NP [88.7]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。 具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。 我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文 参考訳(メタデータ) (Mon, 11 Sep 2023 17:49:27 GMT)
- P vs NP問題を対象にLLM(GPT-4) + socratic reasoningで深い思考をしていく試行。著者らはLLM for Scienceと呼んでいるが、確かに興味深い結果。今後このように知識を深めていくスタイルが一般的になるのだろうか。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- On Large Language Models’ Selection Bias in Multi-Choice Questions [117.7]
大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。 我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。 選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (Thu, 7 Sep 2023 17:44:56 GMT)
- 多肢選択問題で回答の位置によりLLMの性能が変わることが知られている(For instance, moving the golden answers to position D degrades the accuracy of gpt-3.5-turbo by 6.3 (from 67.2 to 60.9))。この報告ではそのバイアスを軽減する手法 PriDe(Debiasing with Prior estimation)を提案している。
- 「It cannot be mitigated via basic prompting strategies (§2.5), such as explicit debiasing instruction (i.e., instructing LLMs to treat each option fairly) and Chain-of-Thought prompting (Wei et al , 2022).」や「We find that removing option IDs can debias LLMs,」というのも面白い。正しくバイアス除去を行うと全体的なパフォーマンスも向上するよう。