Foundation Models for Remote Sensing and Earth Observation: A Survey

  • Foundation Models for Remote Sensing and Earth Observation: A Survey [101.8]
    本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。 モチベーションと背景の概要から始まり、続いて基本概念が導入された。 その後、データセットや技術貢献を含む既存のRSFM研究を分類し、レビューする。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 01:08:21 GMT)
  • Remote Sensing (RS) Foundation Modelのサーベイ

ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report

LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAIGrounding with Google Search  |  Gemini API  |  Google AI for DevelopersGround responses for Gemini models  |  Generative AI on Vertex AI  |  Google Cloudに注目。

前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。

後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。

その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。

  • GPT-4o System Card [211.9]
    GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 17:43:01 GMT)
  • Baichuan Alignment Technical Report [42.0]
    ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
    論文  参考訳(メタデータ)   (Sat, 19 Oct 2024 02:07:33 GMT)
  • A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
    信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 17:51:08 GMT)
  • 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。

ComPO: Community Preferences for Language Model Personalization 

  • ComPO: Community Preferences for Language Model Personalization [122.5]
    ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 14:02:40 GMT)
  • 言語モデルをpersonalizationする手法COMPOの提案。「Our proposed community preference optimization incorporates subreddit-specific contexts into the model, tailoring outputs to align with the distinct norms and values of individual communities.」というアプローチ。
  • リポジトリはGitHub – allenai/compred: Reddit Community Preferences

Claude 3.5 Sonnet, Haiku, Computer use, Aya Expanse

先週の話題で大きかったのはAnthropicによる Claude 3.5 Sonnetの強化とPC(GUI)を操作するエージェントの発表だった。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

前者はOpusを名乗らなかったのが注目で、さらなる高精度なモデルが用意されているとすると期待が大きい。後者はAgent S: An Open Agentic Framework that Uses Computers Like a Human  – arXiv最新論文の紹介などのようにGUIを使うアプローチが良いのか、OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused) – arXiv最新論文の紹介のAPI(コード)を介するアプローチが良いのかは議論が分かれるところだが、この手の進化には要注目である。

Cohereから出ている多言語モデルAyaにも要注目。Aya Expanse: Connecting Our World

GemmaやLlama、Mistral以上を主張するモデルでCC-BY NCで公開されている。CohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni 

NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。

1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。

2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。

  • HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
    リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 06:05:52 GMT)
  • nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
    我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 23:50:09 GMT)

Biased AI can Influence Political Decision-Making 

  • Biased AI can Influence Political Decision-Making [64.9]
    本稿では、AI言語モデルにおけるパルチザンバイアスが政治的意思決定に及ぼす影響について検討する。 政治的に偏見のあるモデルに晒された参加者は、意見を採用し、AIの偏見と一致した決定を下す可能性が著しく高いことがわかった。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 22:56:00 GMT)
  • 「We found that participants exposed to politically biased models were significantly more likely to adopt opinions and make decisions aligning with the AI’s bias, regardless of their personal political partisanship.」、「However, we also discovered that prior knowledge about AI could lessen the impact of the bias, highlighting the possible importance of AI education for robust bias mitigation.」という指摘。教育の効果はあるようだが、今後問題は大きくなっていくんじゃないかと思う。。

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 

  • GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.3]
    GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。 以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:36:37 GMT)
  • 「We introduce GSM-Symbolic, an enhanced benchmark that generates diverse variants of GSM8K questions using symbolic templates」というベンチマークの紹介であるが、「We show that LLMs exhibit more robustness to changes in superficial elements like proper names but are very sensitive to changes in numerical values」というのはなかなか衝撃的な結果。
  • 「To create the templates, we add seemingly relevant but ultimately inconsequential statements to GSM-Symbolic templates.」という無意味な情報を加えたGSM-NoOpでは結果がさらに悪くなるようで、単純なLeakでもない難しさがある。

Small Language Models: Survey, Measurements, and Insights 

  • Small Language Models: Survey, Measurements, and Insights [21.2]
    小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 06:36:56 GMT)
  • 「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
  • リポジトリはGitHub – UbiquitousLearning/SLM_Survey

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms