PLaMo-100B, EXAONE 3.0 7.8B, ShieldGemma

先週も多くの話題があったが、注目はPFNのPLaMo-100Bで詳細がBlogに公開されている。日本語での性能はGPT-4(0125 Preview)とほぼ同等と高い。その他のベンチマークでの評価も気になるところ。1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 – Preferred Networks Research & Development

LG AI Researchの小規模で強力なLLM、Gemmaベースのsafety content moderation modelなども興味深かった。

  • EXAONE 3.0 7.8B Instruction Tuned Language Model [42.2]
    EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。 比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 07 Aug 2024 04:38:38 GMT)
  • 韓国語の性能に優れるLLM
  • リポジトリはLGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face
  • ShieldGemma: Generative AI Content Moderation Based on Gemma [49.9]
    ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。 モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:48:14 GMT)
  • 強力な性能のGemmaベースなコンテンツモデレーションモデル
  • サイトはShieldGemma  |  Google AI for Developers、リポジトリはgoogle/shieldgemma-2b · Hugging Face

LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection

  • LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.4]
    我々は、細粒度MGT検出用に設計されたシステムであるtextbfLLM-DetectAIveを提示する。 テキストは、人書き、機械生成、機械化、人書きの機械ポリッシュの4つのカテゴリに分類することができる。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 07:43:17 GMT)
  • 機械が生成したテキストを検出するシステムの提案。
  • デモがMGT – a Hugging Face Space by raj-tomar001にある。残念ながら日本語には対応していなさそう。というのと、この論文のAbstractがMachine Generaterdと判定されたのだが。。。(というのとConclusionは入れる文の数によって判定が変わり、長さに対するロバストさもなさそう…)

Compositional Physical Reasoning of Objects and Events from Videos

  • Compositional Physical Reasoning of Objects and Events from Videos [122.7]
    本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。 我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。 また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 15:19:55 GMT)
  • ビデオ映像から物性を認識、推定するフレームワークPhysical Concept Reasoner (PCR)を提案。データCompositional Physical Reasoning (ComPhy) datasetも提供されている。
  • 実社会での実装上とても重要な能力であり、GPT-4VやGeminiなど汎用モデルで解くのは簡単ではなさそうな結果。
  • リポジトリはCompositional Physical Reasoning of Objects and Events from Videos (physicalconceptreasoner.github.io)

AssistantBench

  • AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
    言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 15:18:45 GMT)
  • WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
  • プロジェクトサイトはAssistantBench

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

  • MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
    MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:46:51 GMT)

Towards Effective and Efficient Continual Pre-training of Large Language Models 

  • Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
    CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。 本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。 バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
    論文  参考訳(メタデータ)   (Fri, 26 Jul 2024 13:55:21 GMT)
  • Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
  • リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon

LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

  • A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
    大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 06:45:52 GMT)
  • アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
  • 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野

Internal Consistency and Self-Feedback in Large Language Models: A Survey

The Llama 3 Herd of Models

  • The Llama 3 Herd of Models [345.5]
    本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:54:27 GMT)
  • Llama3の様々なバリエーションの紹介、モデル構築に関連する情報も多くとても興味深いのと、マルチモーダル化を進めているよう。「The resulting models are not yet being broadly released as they are still under development.」、「We note that our multimodal models are still under development and not yet ready for release.」など今後を期待させる表現も多い。