LLaVA-Plus

  • LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
    LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 15:22:26 GMT)
  • 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
  • リポジトリはLLaVA-Plus (llava-vl.github.io)

mPLUG-Owl2

  • mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration [68.4]
    mPLUG-Owl2は多目的なマルチモーダル言語モデルである。 効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 14:21:29 GMT)
  •  DAMO AcademyのMLLM(multi-modal large language model)
  • mPLUG-Owl/mPLUG-Owl2 at main · X-PLUG/mPLUG-Owl · GitHub

PASTA: Post-hoc Attention Steering for LLMs

  • Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs [84.0]
    PASTAは、大きな言語モデルでユーザーが指定した強調マークでテキストを読むことができる方法である。 LLMのユーザ命令に従う能力を大幅に強化したり、ユーザ入力から新たな知識を統合することができる。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 22:56:43 GMT)
  • 斜体や太字などLLMを協調書体へ対応させる方法の提案。Post hocなアプローチでfine tuningのようなパラメータ更新を必要としないが特徴的。効果は高いとのこと。
  • リポジトリはGitHub – QingruZhang/PASTA: PASTA: Post-hoc Attention Steering for LLMs

QualEval

  • QualEval: Qualitative Evaluation for Model Improvement [86.3]
    モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。 例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 6 Nov 2023 00:21:44 GMT)
  • LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
  • リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)

Don’t Make Your LLM an Evaluation Benchmark Cheater

  • Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
    大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 14:59:54 GMT)
  • LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
  • 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

On the Opportunities of Green Computing: A Survey

  • On the Opportunities of Green Computing: A Survey [80.2]
    人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。 高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 03:08:34 GMT)
  • これから重要なGreen Computingのサーベイ。「The latest version of Generative Pre-trained Transformers GPT-4 with 1.8 trillion parameters, can emit between 12,456 and 14,994 metric tons CO2e if it was trained on normal grid electricity in California,」とのこと。排出権買うだけで1億円以上と考えてよいんだろうか。

Causal Inference Using LLM-Guided Discovery

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

  • Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks [139.4]
    Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。 視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。 同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
    論文  参考訳(メタデータ)   (Mon, 30 Oct 2023 18:23:58 GMT)
  • 事前学習済みのバックボーンを様々なタスクで比較した論文。「Across the suite of comprehensive evaluations in BoB, spanning tasks, datasets, and settings (including ID and OOD), supervised ConvNeXt-Base, supervised SwinV2-Base trained using ImageNet-21k, and CLIP ViT-Base come out on top.」とのこと。端的にまとまっているのがありがたい。
  • リポジトリはGitHub – hsouri/Battle-of-the-Backbones

LLaVA-Interactive

  • LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
    本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 15:13:43 GMT)
  • オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
  • リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

  • Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.5]
    そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。 具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 03:20:16 GMT)
  •  Plug-and-Play Dialogue Policy Planner (PPDPP)の提案、よくあるプロンプトベースのものより高性能とのこと。
  • リポジトリはhttps://github.com/dengyang17/PPDPPとのことだが、現時点では404