2022年4月18日 – arXiv最新論文の紹介

GPT-NeoX-20B: オープンソースの巨大言語モデル

GPT-NeoX-20B: An Open-Source Autoregressive Language Model [16.3]
GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。ウェイトは寛容なライセンスで、自由に公開することができる。
論文参考訳（メタデータ） (Thu, 14 Apr 2022 04:00:27 GMT)
- Apache-2とオープンなライセンスの大規模言語モデル。tokenizerなどの工夫でGPT-3などと比べモデル規模の割に性能が高いとのこと。推論であっても2つのGPU（45GB以上のVRAM）が必要。
- 「we hope to train and open source a 175B parameter GPT-3 replication along the way.」というのにも期待大。
- リポジトリはGitHub – EleutherAI/gpt-neox: An implementation of model parallel autoregressive transformers on GPUs, based on the DeepSpeed library.

WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文参考訳（メタデータ） (Wed, 13 Apr 2022 12:52:40 GMT)
- 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、ライセンスはCC BY-SA 4.0。
- リポジトリはGitHub – wangxw5/wikiDiverse