SORAとGemini-1.5

先週話題となったニュースにテキストからのビデオ生成モデルであるOpenAIのSORA、極めて長いテキストを扱えるGoogleのGemini 1.5がある。両発表とも技術が一段進化した感がある。

Reka(Reka Flash: An Efficient and Capable Multimodal Language Model – Reka AI)のようなチャレンジャーも出てきていてニュースが多い。

  • Gemini 1.5: Unlocking multimodalunderstanding across millions of tokens ofcontext
    Gemini 1.5 Proは、きめ細かい情報をリコールして推論できる計算効率の高いマルチモーダル混合モデルである。モダリティ間の長いコンテキスト検索タスクのほぼ完璧なリコールを実現する。Gemini 1.0 Ultraの最先端のパフォーマンスを、幅広いベンチマークで比較または上回る。
  • 長文を扱える能力が高くTF-IDF での検索+re rankを行うパイプライン構成をとった場合を大きく超える性能。そして、旧Twitterでも紹介されていた「With only instructional materials (500 pages of linguistic documentation, a dictionary, and ≈ 400 parallel sentences) all provided in context, Gemini 1.5 Pro is capable of learning to translate from English to Kalamang, a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua2, and therefore almost no online presence.」が衝撃的。
  • gemini_v1_5_report.pdf (storage.googleapis.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です