コンテンツへスキップ
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:18:25 GMT)
- 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
- リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404
- The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 21:19:47 GMT)
- 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。
- Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。 実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:11:01 GMT)
- LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
- リポジトリはGitHub – RUCAIBox/QuantizedEmpirical
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 14:56:35 GMT)
- ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
- 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
- プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”
- Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 00:08:49 GMT)
- Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
- プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。
- Retentive Network: A Successor to Transformer for Large Language Models [91.7]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論的には、再発と注意の関係を導出する。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (Mon, 17 Jul 2023 16:40:01 GMT)
- Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- AlpaGasus: Training A Better Alpaca with Fewer Data [106.9]
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
論文 参考訳(メタデータ) (Mon, 17 Jul 2023 17:59:40 GMT)
- LLMを用いてinstruction-finetuning用データを高品質化、品質の高い少数データの利用が有効だったという報告。instruction-finetuningのデータ品質の重要性は他の論文でも指摘されており(ゆえにRLHFが有効という話もあり)参考になる。
- プロジェクトサイトはAlpaGasus: Training a Better Alpaca with Fewer Data (lichang-chen.github.io)
- Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 17:08:59 GMT)
- Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
- StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
- 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)