2022年10月11日 – arXiv最新論文の紹介

GLM-130B: An Open Bilingual Pre-trained Model [40.6]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 17:34:44 GMT)
- 英語・中国語バイリンガルな大規模言語モデル、モデルやトレーニングプロセスが公開されている、性能が高い以外にもRTX 3090 (24G)×4という構成で動作可能なのは凄い
- リポジトリはTHUDM/GLM-130B: GLM-130B: An Open Bilingual Pre-Trained Model (github.com)

XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 12:07:18 GMT)
- ドキュメント理解のため異なる文書フォーマットを単一のモデルで扱う統一事前学習モデルXdocを提案。
  - 省パラメータで様々な文章形式に対応できるのはありがたいが、（当たり前かもだが？）現時点ではそれぞれのSoTAには及んでいないよう。
- リポジトリはunilm/xdoc at master · microsoft/unilm (github.com)