GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」(Hello Qwen2 | Qwen (qwenlm.github.io))と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art 

  • Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
    文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。 文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 10:16:43 GMT)
  • NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
  • (長く研究されてきた分野ではあるが)最近特に注目が集まっている分野だと思う。

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 

  • Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.1]
    Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。 我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:59:47 GMT)
  • ビデオ解析を対象としたベンチマーク。900個、256時間の動画に対して2.7KのQAを人がのテーションしている。ドメインも様々(GitHub – BradyFU/Video-MME: ✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis)。
  • 現時点のベンチマーク結果はGemini Proがもっともよく、Gemini Flash、GPT-4o、GPT-4Vが続いている。APIによって使えるデータ種類が異なるなど前提を合わせるのが難しい点に注意が必要。例えば「Since the video interface of GPT-4o has not been released yet, we sample 10 frames and evaluate the model using multiple images as input.」という注釈がある。
  • リポジトリはVideo-MME: Welcome