Everything of Thoughts

  • Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
    効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 12:30:36 GMT)
  • of thoughtシリーズワイルカードの2番目(?)
  • 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts  – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ

自動運転とLLM

LLaVA-Plus

  • LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
    LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 15:22:26 GMT)
  • 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
  • リポジトリはLLaVA-Plus (llava-vl.github.io)

mPLUG-Owl2

  • mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration [68.4]
    mPLUG-Owl2は多目的なマルチモーダル言語モデルである。 効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 14:21:29 GMT)
  •  DAMO AcademyのMLLM(multi-modal large language model)
  • mPLUG-Owl/mPLUG-Owl2 at main · X-PLUG/mPLUG-Owl · GitHub

PASTA: Post-hoc Attention Steering for LLMs

  • Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs [84.0]
    PASTAは、大きな言語モデルでユーザーが指定した強調マークでテキストを読むことができる方法である。 LLMのユーザ命令に従う能力を大幅に強化したり、ユーザ入力から新たな知識を統合することができる。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 22:56:43 GMT)
  • 斜体や太字などLLMを協調書体へ対応させる方法の提案。Post hocなアプローチでfine tuningのようなパラメータ更新を必要としないが特徴的。効果は高いとのこと。
  • リポジトリはGitHub – QingruZhang/PASTA: PASTA: Post-hoc Attention Steering for LLMs

QualEval

  • QualEval: Qualitative Evaluation for Model Improvement [86.3]
    モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。 例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 6 Nov 2023 00:21:44 GMT)
  • LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
  • リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)

Don’t Make Your LLM an Evaluation Benchmark Cheater

  • Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
    大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 14:59:54 GMT)
  • LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
  • 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

On the Opportunities of Green Computing: A Survey

  • On the Opportunities of Green Computing: A Survey [80.2]
    人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。 高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 03:08:34 GMT)
  • これから重要なGreen Computingのサーベイ。「The latest version of Generative Pre-trained Transformers GPT-4 with 1.8 trillion parameters, can emit between 12,456 and 14,994 metric tons CO2e if it was trained on normal grid electricity in California,」とのこと。排出権買うだけで1億円以上と考えてよいんだろうか。

Causal Inference Using LLM-Guided Discovery

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

  • Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks [139.4]
    Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。 視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。 同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
    論文  参考訳(メタデータ)   (Mon, 30 Oct 2023 18:23:58 GMT)
  • 事前学習済みのバックボーンを様々なタスクで比較した論文。「Across the suite of comprehensive evaluations in BoB, spanning tasks, datasets, and settings (including ID and OOD), supervised ConvNeXt-Base, supervised SwinV2-Base trained using ImageNet-21k, and CLIP ViT-Base come out on top.」とのこと。端的にまとまっているのがありがたい。
  • リポジトリはGitHub – hsouri/Battle-of-the-Backbones