- Large Language Models Encode Clinical Knowledge [21.6]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。 本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。 本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (Mon, 26 Dec 2022 14:28:24 GMT) - FLAN-PaLM+様々なテクニックおよびFLAN-PaLM+instruction prompt tuningで構築したMed-PaLMにより様々な医療分野のベンチマークでSoTA
- 人間(医者)には及んでいないものの試験合格水準にあるように見え、衝撃的な結果…
日: 2023年1月2日
Cramming: Training a Language Model on a Single GPU in One Day
- Cramming: Training a Language Model on a Single GPU in One Day [64.2]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。 我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。 この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (Wed, 28 Dec 2022 18:59:28 GMT) - 自然言語処理のタスクについて1GPU dayでどこまで性能を伸ばせるかを検証した論文。非常に興味深い設定で広範な実験がされている。
- データセットによる差、1 GPU dayとはいえ、GPUの種類(≒計算資源)による差についても面白い。
- リポジトリはGitHub – JonasGeiping/cramming: Cramming the training of a (BERT-type) language model into limited compute.