- Internal Consistency and Self-Feedback in Large Language Models: A Survey [17.5]
大規模言語モデル(LLM)は、正確に応答することが期待されているが、しばしば不十分な推論や幻覚的内容を生成する。 理論的枠組みは「内部整合性(internal Consistency)」と呼ばれ、推論の欠如や幻覚の存在といった現象について統一的な説明を提供する。 本稿では,自己フィードバック(Self-Feedback)と呼ばれる内部一貫性をマイニングする,合理的かつ効果的な理論的枠組みを提案する。
論文 参考訳(メタデータ) (Fri, 19 Jul 2024 17:59:03 GMT) - Self-なんとかに関連するもののサーベイ。「Self-Evaluation」 と「 Self-Update」からなる「Self-Feedbackフレームワーク 」で考えると整理しやすいのは確か。
- リポジトリはGitHub – IAAR-Shanghai/ICSFSurvey: A comprehensive survey on Internal Consistency and Self-Feedback in Large Language Models, including theoretical frameworks, task classifications, evaluation methods, future research directions and more!
The Llama 3 Herd of Models
- The Llama 3 Herd of Models [345.5]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:54:27 GMT) - Llama3の様々なバリエーションの紹介、モデル構築に関連する情報も多くとても興味深いのと、マルチモーダル化を進めているよう。「The resulting models are not yet being broadly released as they are still under development.」、「We note that our multimodal models are still under development and not yet ready for release.」など今後を期待させる表現も多い。
Formalizing UML State Machines for Automated Verification — A Survey
- Formalizing UML State Machines for Automated Verification — A Survey [15.0]
モデリング言語(UML)は、動的システムのモデリングの標準である。 本稿では、設計段階でモデルチェックを行う目的でUMLステートマシンセマンティクスの形式化に関する1997年から2021年までの既存の研究を包括的に調査する。
論文 参考訳(メタデータ) (Wed, 24 Jul 2024 12:15:31 GMT) - UMLについて形式検証を軸に調査したサーベイ
- 本サーベイにも関係するがLLMを用いて自然言語で書かれた使用を形式言語に変換、形式検証に持ち込むようなアプローチは興味深いと思っている(研究はされている)
Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux
先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。
これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。
- SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。 - 動画のセグメンテーションがSAM的に可能になったSAM2。
- 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2
Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face
FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。
Apple Intelligence Foundation Language Models
- Apple Intelligence Foundation Language Models [109.6]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。 私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 18:38:49 GMT) - Appleによる基盤モデルの紹介。「AFM-server: We train AFM-server from scratch for 6.3T tokens on 8192 TPUv4 chips, using a sequence length of 4096 and a batch-size of 4096 sequences.」といったようにかなり詳細な内容が記載されている。「AFM-on-device: For the on-device model, we found that knowledge distillation [Hinton et al , 2015] and structural pruning are effective ways to improve model performance and training efficiency.」とデバイス向けはMINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)と近いアプローチに見える。
- プロジェクトサイトはIntroducing Apple’s On-Device and Server Foundation Models – Apple Machine Learning Research
Preliminary WMT24 Ranking of General MT Systems and LLMs
- Preliminary WMT24 Ranking of General MT Systems and LLMs [69.8]
自動メトリクスに基づくWMT24一般MTシステムの序列である。 公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 11:01:17 GMT) - 「This is the preliminary ranking of WMT24 General MT systems based on automatic metrics.」、自動評価によるものではあるがとても興味深い
- 印象的な結果を残している「Unbabel -Tower70B」はAnnouncing Tower : An Open Multilingual LLM for Translation-Related Tasks (unbabel.com)、Tower – a Unbabel Collection (huggingface.co)の大規模バージョンだろうか。詳細が気になるところ。
Text-to-SQLタスクのサーベイ
- A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
論文 参考訳(メタデータ) (Sun, 21 Jul 2024 14:48:23 GMT) - 実用的にも重要なSQL生成タスクのサーベイ
- LLMの影響は大きい
LAMBDA: A Large Model Based Data Agent
- LAMBDA: A Large Model Based Data Agent [7.2]
LAMBDAは、オープンソースのコードフリーマルチエージェントデータ分析システムである。 複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。 LAMBDAは、さまざまな機械学習データセットで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (Wed, 24 Jul 2024 06:26:36 GMT) - マルチエージェントなデータ分析システム
- リポジトリはGitHub – Stephen-SMJ/LAMBDA: This is the offical repository of paper “LAMBDA: A large Model Based Data Agent”. https://www.polyu.edu.hk/ama/cmfai/lambda.html
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers
- SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (Fri, 12 Jul 2024 16:37:59 GMT) - 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
- リポジトリはGitHub – google/spiqa
Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism
- Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.8]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。 最近の研究は、ICLに関する2つの矛盾する見解を示している。 両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (Wed, 24 Jul 2024 05:26:52 GMT) - ICLの重要な要素である「タスク認識」と「近い事例情報の供給」についてマトリクスで検証した論文。