コンテンツへスキップ
- 14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon [31.1]
我々は化学、材料科学などにおける大規模言語モデル(LLM)の適用についてハッカソンを開催した。 この記事ではハッカソンの一部として構築されたプロジェクトを概説する。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
論文 参考訳(メタデータ) (Tue, 13 Jun 2023 07:44:32 GMT)
- 化学分野におけるLLM利用ハッカソンの報告、いろいろなアイデアがあって興味深いのとデモがあるのが凄い。「The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields.」との記載が印象的。
- Benchmarking Neural Network Training Algorithms [46.4]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。 コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。 固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (Mon, 12 Jun 2023 15:21:02 GMT)
- トレーニングアルゴリズムの改善を測るためのベンチマークの提案。多くの研究者が慎重に検討しており論文も長く詳細。勉強になる。
- MobileNMT: Enabling Translation in 15MB and 30ms [53.8]
デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。 モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
論文 参考訳(メタデータ) (Wed, 7 Jun 2023 08:25:51 GMT)
- 小規模で高速なニューラル機械翻訳モデルの提案
- リポジトリはGitHub – zjersey/Lightseq-ARM
- Augmenting Language Models with Long-Term Memory [142.0]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。 本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (Mon, 12 Jun 2023 15:13:39 GMT)
- LLMを凍結した状態でresidual side-network (SideNet)を使ってメモリ機構を実現する方式の提案。既存手法の性能を上回り、in context learningでも本手法を通したshot数の向上が性能向上に効果があったとのこと
- リポジトリはGitHub – Victorwz/LongMem
- A Survey of Learning on Small Data: Generalization, Optimization, and Challenge [101.3]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。 この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。 効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (Tue, 6 Jun 2023 15:44:14 GMT)
- 小規模データでの学習方法に関すルサーベイ。 2ページの図1にある整理軸が参考になる。
- KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。 能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。 データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (Thu, 15 Jun 2023 17:20:46 GMT)
- Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
- プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.