BLOOM関連情報

BLOOM関連の情報が多く出ていた。

  • Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.9]
    複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 13:23:42 GMT)
  • BLOOMの機械翻訳性能の評価。zero shotでは微妙だがfew shotでの翻訳能力はかなり優れているよう。M2Mを超えている言語ペアがあるのはすごい。
  • 一方でリソースが少ない言語では十分な性能となっていなさそう
  • The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [37.0]
    BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。 本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 14:25:44 GMT)
  • ROOTSコーパスを作成する際のデータキュレーションの方針などを解説した論文。
  • Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results [12.0]
    BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 16:53:19 GMT)
  • 中国語の能力を強化したBLOOMの構築方法、日本語版が欲しい…

Larger language models do in-context learning differently

  • Larger language models do in-context learning differently [93.9]
    言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。 ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 12:24:17 GMT)
  • モデルの大きさによってICLの効き方が異なるという論文 大きなモデルでは先行的に学んだ知識を上書きできるという事、小さなモデルではそれができないというのは非常に面白い。ICLが「ドメインを限定する」のか「内容を加味して判断している」のかがモデルの大きさによって違う?
  • 十分に大きなモデルでは任意のラベルマッピングを行う能力がある?というのは、本当に新たなことを学んでいけると解釈して良いのだろうか。
  • なんでこんなことができるんだろう・・・?