Internal Consistency and Self-Feedback in Large Language Models: A Survey

The Llama 3 Herd of Models

  • The Llama 3 Herd of Models [345.5]
    本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:54:27 GMT)
  • Llama3の様々なバリエーションの紹介、モデル構築に関連する情報も多くとても興味深いのと、マルチモーダル化を進めているよう。「The resulting models are not yet being broadly released as they are still under development.」、「We note that our multimodal models are still under development and not yet ready for release.」など今後を期待させる表現も多い。

Formalizing UML State Machines for Automated Verification — A Survey 

  • Formalizing UML State Machines for Automated Verification — A Survey [15.0]
    モデリング言語(UML)は、動的システムのモデリングの標準である。 本稿では、設計段階でモデルチェックを行う目的でUMLステートマシンセマンティクスの形式化に関する1997年から2021年までの既存の研究を包括的に調査する。
    論文  参考訳(メタデータ)   (Wed, 24 Jul 2024 12:15:31 GMT)
  • UMLについて形式検証を軸に調査したサーベイ
  • 本サーベイにも関係するがLLMを用いて自然言語で書かれた使用を形式言語に変換、形式検証に持ち込むようなアプローチは興味深いと思っている(研究はされている)

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

Apple Intelligence Foundation Language Models

Preliminary WMT24 Ranking of General MT Systems and LLMs

Text-to-SQLタスクのサーベイ

  • A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
    リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
    論文  参考訳(メタデータ)   (Sun, 21 Jul 2024 14:48:23 GMT)
  • 実用的にも重要なSQL生成タスクのサーベイ
  • LLMの影響は大きい

LAMBDA: A Large Model Based Data Agent

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism

  • Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.8]
    大規模言語モデル(LLM)は、テキスト内学習能力に優れる。 最近の研究は、ICLに関する2つの矛盾する見解を示している。 両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Jul 2024 05:26:52 GMT)
  • ICLの重要な要素である「タスク認識」と「近い事例情報の供給」についてマトリクスで検証した論文。