- Can Large Language Models Understand Symbolic Graphics Programs? [136.6]
我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。 シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。 シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 17:59:57 GMT) - コードのように表現した画像に対して質問に答えられるか?のベンチマーク。「This result suggests that how LLMs understand symbolic graphics programs is quite different from human.」とあるが、人間でできるんやろうか・・・。「For such a task, we create SGP-Bench, a benchmark that shows distinguishable results between LLMs and introduce the method of Symbolic Instruction Finetuning (SIT) that improves LLMs’ capability of understanding graphics programs.」のチューニング可能性が驚異的に思える。
- リポジトリはSGP-Bench
タグ: LLM
CARE: A Clue-guided Assistant for CSRs to Read User Manuals
- CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 08:44:44 GMT) - CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
- 「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。
Self-Taught Evaluators
- Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 17:57:02 GMT) - 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
- 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。
Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。
- Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 01:43:07 GMT)
- Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:58:16 GMT)
- STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:12:15 GMT)
PLaMo-100B, EXAONE 3.0 7.8B, ShieldGemma
先週も多くの話題があったが、注目はPFNのPLaMo-100Bで詳細がBlogに公開されている。日本語での性能はGPT-4(0125 Preview)とほぼ同等と高い。その他のベンチマークでの評価も気になるところ。1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 – Preferred Networks Research & Development
LG AI Researchの小規模で強力なLLM、Gemmaベースのsafety content moderation modelなども興味深かった。
- EXAONE 3.0 7.8B Instruction Tuned Language Model [42.2]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。 比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 04:38:38 GMT) - 韓国語の性能に優れるLLM
- リポジトリはLGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face
- ShieldGemma: Generative AI Content Moderation Based on Gemma [49.9]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。 モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:48:14 GMT) - 強力な性能のGemmaベースなコンテンツモデレーションモデル
- サイトはShieldGemma | Google AI for Developers、リポジトリはgoogle/shieldgemma-2b · Hugging Face
Towards Effective and Efficient Continual Pre-training of Large Language Models
- Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。 本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。 バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (Fri, 26 Jul 2024 13:55:21 GMT) - Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
- リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon
A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More
- A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 06:45:52 GMT) - アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
- 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野
Internal Consistency and Self-Feedback in Large Language Models: A Survey
- Internal Consistency and Self-Feedback in Large Language Models: A Survey [17.5]
大規模言語モデル(LLM)は、正確に応答することが期待されているが、しばしば不十分な推論や幻覚的内容を生成する。 理論的枠組みは「内部整合性(internal Consistency)」と呼ばれ、推論の欠如や幻覚の存在といった現象について統一的な説明を提供する。 本稿では,自己フィードバック(Self-Feedback)と呼ばれる内部一貫性をマイニングする,合理的かつ効果的な理論的枠組みを提案する。
論文 参考訳(メタデータ) (Fri, 19 Jul 2024 17:59:03 GMT) - Self-なんとかに関連するもののサーベイ。「Self-Evaluation」 と「 Self-Update」からなる「Self-Feedbackフレームワーク 」で考えると整理しやすいのは確か。
- リポジトリはGitHub – IAAR-Shanghai/ICSFSurvey: A comprehensive survey on Internal Consistency and Self-Feedback in Large Language Models, including theoretical frameworks, task classifications, evaluation methods, future research directions and more!
Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux
先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。
これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。
- SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。 - 動画のセグメンテーションがSAM的に可能になったSAM2。
- 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2
Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face
FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。
Apple Intelligence Foundation Language Models
- Apple Intelligence Foundation Language Models [109.6]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。 私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 18:38:49 GMT) - Appleによる基盤モデルの紹介。「AFM-server: We train AFM-server from scratch for 6.3T tokens on 8192 TPUv4 chips, using a sequence length of 4096 and a batch-size of 4096 sequences.」といったようにかなり詳細な内容が記載されている。「AFM-on-device: For the on-device model, we found that knowledge distillation [Hinton et al , 2015] and structural pruning are effective ways to improve model performance and training efficiency.」とデバイス向けはMINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)と近いアプローチに見える。
- プロジェクトサイトはIntroducing Apple’s On-Device and Server Foundation Models – Apple Machine Learning Research
Preliminary WMT24 Ranking of General MT Systems and LLMs
- Preliminary WMT24 Ranking of General MT Systems and LLMs [69.8]
自動メトリクスに基づくWMT24一般MTシステムの序列である。 公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 11:01:17 GMT) - 「This is the preliminary ranking of WMT24 General MT systems based on automatic metrics.」、自動評価によるものではあるがとても興味深い
- 印象的な結果を残している「Unbabel -Tower70B」はAnnouncing Tower : An Open Multilingual LLM for Translation-Related Tasks (unbabel.com)、Tower – a Unbabel Collection (huggingface.co)の大規模バージョンだろうか。詳細が気になるところ。