AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities 

  • AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.8]
    本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。 この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。 次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:11:53 GMT)
  • 様々な Earth observationデータを統合的に扱える基盤モデルの提案。「We have presented AnySat, a versatile architecture designed to address the diversity of EO data in terms of resolutions, scales, and modalities.」ということで効果も検証されている。
  • リポジトリはGitHub – gastruc/AnySat

How to Synthesize Text Data without Model Collapse?

  • How to Synthesize Text Data without Model Collapse? [37.2]
    合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 09:43:39 GMT)
  • 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。

SafeWorld: Geo-Diverse Safety Alignment

  • SafeWorld: Geo-Diverse Safety Alignment [107.8]
    大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。 トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 13:31:46 GMT)
  • 安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
  • リポジトリはGitHub – PlusLabNLP/SafeWorld