LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

  • A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
    大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 06:45:52 GMT)
  • アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
  • 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野

Internal Consistency and Self-Feedback in Large Language Models: A Survey

Formalizing UML State Machines for Automated Verification — A Survey 

  • Formalizing UML State Machines for Automated Verification — A Survey [15.0]
    モデリング言語(UML)は、動的システムのモデリングの標準である。 本稿では、設計段階でモデルチェックを行う目的でUMLステートマシンセマンティクスの形式化に関する1997年から2021年までの既存の研究を包括的に調査する。
    論文  参考訳(メタデータ)   (Wed, 24 Jul 2024 12:15:31 GMT)
  • UMLについて形式検証を軸に調査したサーベイ
  • 本サーベイにも関係するがLLMを用いて自然言語で書かれた使用を形式言語に変換、形式検証に持ち込むようなアプローチは興味深いと思っている(研究はされている)

The Llama 3 Herd of Models

  • The Llama 3 Herd of Models [345.5]
    本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:54:27 GMT)
  • Llama3の様々なバリエーションの紹介、モデル構築に関連する情報も多くとても興味深いのと、マルチモーダル化を進めているよう。「The resulting models are not yet being broadly released as they are still under development.」、「We note that our multimodal models are still under development and not yet ready for release.」など今後を期待させる表現も多い。

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

Apple Intelligence Foundation Language Models

Preliminary WMT24 Ranking of General MT Systems and LLMs

Text-to-SQLタスクのサーベイ

  • A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
    リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
    論文  参考訳(メタデータ)   (Sun, 21 Jul 2024 14:48:23 GMT)
  • 実用的にも重要なSQL生成タスクのサーベイ
  • LLMの影響は大きい

LAMBDA: A Large Model Based Data Agent