日本語特化CLIP

rinna社、日本語に特化した言語画像モデルCLIPを公開|rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。

rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。

リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Facerinna/japanese-cloob-vit-b-16 · Hugging Face

CiteSum: 論文のTLDR要約

  • CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
    我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。 科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。 ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 12 May 2022 16:44:19 GMT)

Gato: 汎用エージェント

  • A Generalist Agent [89.9]
    Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 16:03:26 GMT)
    • DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
    • 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。