- LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 15:22:26 GMT) - 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
- リポジトリはLLaVA-Plus (llava-vl.github.io)
タグ: LLM
mPLUG-Owl2
- mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration [68.4]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。 効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 14:21:29 GMT) - DAMO AcademyのMLLM(multi-modal large language model)
- mPLUG-Owl/mPLUG-Owl2 at main · X-PLUG/mPLUG-Owl · GitHub
PASTA: Post-hoc Attention Steering for LLMs
- Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs [84.0]
PASTAは、大きな言語モデルでユーザーが指定した強調マークでテキストを読むことができる方法である。 LLMのユーザ命令に従う能力を大幅に強化したり、ユーザ入力から新たな知識を統合することができる。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 22:56:43 GMT) - 斜体や太字などLLMを協調書体へ対応させる方法の提案。Post hocなアプローチでfine tuningのようなパラメータ更新を必要としないが特徴的。効果は高いとのこと。
- リポジトリはGitHub – QingruZhang/PASTA: PASTA: Post-hoc Attention Steering for LLMs
QualEval
- QualEval: Qualitative Evaluation for Model Improvement [86.3]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。 例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (Mon, 6 Nov 2023 00:21:44 GMT) - LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
- リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)
Don’t Make Your LLM an Evaluation Benchmark Cheater
- Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 14:59:54 GMT) - LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
- 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。
Causal Inference Using LLM-Guided Discovery
- Causal Inference Using LLM-Guided Discovery [34.0]
グラフ変数(因果順序)に対する位相的順序は、因果効果の推論にのみ十分であることを示す。 本稿では,Large Language Models (LLMs) から因果順序を求める頑健な手法を提案する。 提案手法は発見アルゴリズムと比較して因果順序精度を大幅に向上させる。
論文 参考訳(メタデータ) (Mon, 23 Oct 2023 17:23:56 GMT) - LLMを用いた因果推論のサポート、トリプルを作っていくアプローチで既存手法より性能が高いとのこと。
- Fugu-MT 論文翻訳(概要): Causal Reasoning and Large Language Models: Opening a New Frontier for Causality (fugumt.com)でもあったが意外と相性が良い?
LLaVA-Interactive
- LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 15:13:43 GMT) - オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
- リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo
Myriad: multi-modal model by applying vision experts for industrial anomaly detection
- Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (Sun, 29 Oct 2023 16:49:45 GMT) - たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
- 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
- リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.
WIMBD: WHAT’S IN MY BIG DATA?
- What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (Tue, 31 Oct 2023 17:59:38 GMT) - 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
- リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)
Multilingual Mathematical Reasoning
- Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。 翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。 我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 06:56:14 GMT) - 多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
- リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations