BLOOM関連情報

BLOOM関連の情報が多く出ていた。

  • Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.9]
    複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 13:23:42 GMT)
  • BLOOMの機械翻訳性能の評価。zero shotでは微妙だがfew shotでの翻訳能力はかなり優れているよう。M2Mを超えている言語ペアがあるのはすごい。
  • 一方でリソースが少ない言語では十分な性能となっていなさそう
  • The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [37.0]
    BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。 本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 14:25:44 GMT)
  • ROOTSコーパスを作成する際のデータキュレーションの方針などを解説した論文。
  • Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results [12.0]
    BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 16:53:19 GMT)
  • 中国語の能力を強化したBLOOMの構築方法、日本語版が欲しい…