- AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.1]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。 AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。 複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 14:29:30 GMT) - aerial image urban scene graph generation (AUG) datasetとモデルの提案。空撮画像から画像からの物体及び複雑な関係の理解を行う必要があり、とても難しそうなタスク。
- リポジトリはLPG-SGG: locality-preserving graph convolutional network (LPG) (gitee.com)
Introducing v0.5 of the AI Safety Benchmark from MLCommons
- Introducing v0.5 of the AI Safety Benchmark from MLCommons [94.1]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。 このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 15:01:00 GMT) - AI Safety Benchmark の紹介、対象はチャット。分類など参考になる部分も多い。
- リポジトリはmlcommons/modelbench: Run safety benchmarks against AI models and view detailed reports showing how well they performed. (github.com)
Llama 3, Mixtral 8x22B, Reka Core, WizardLM2
今年のHAI AI Index reportでも取り上げられていた通り基盤モデルの構築が盛んになっている。 AI Index Report 2024 – Artificial Intelligence Index (stanford.edu)
先週もLLM関連のニュースが多く、寛容な独自ライセンスのLlama 3、Apache-2ライセンスのMixtral 8x22Bとオープンなモデルの盛り上がりも衰えていない。設立間もないRekaによるReka Coreにも注目である。モデル性能も非常に高い。
WizardLM2も公開されたようだが、一時的になのかリポジトリにアクセスできなくなっている。@WizardLM on Hugging Face: “🔥🔥🔥 Introducing WizardLM-2! 📙Release Blog:…”、こちらも性能的に期待大
- Meta Llama 3、Introducing Meta Llama 3: The most capable openly available LLM to date
- 8B, 70Bを公開。8Bは同規模のMistralやGemmaより高性能。70BはベンチマークによるがGPT-4やClaude、Geminiといった商用モデルと競合可能な性能。400Bを構築中、構築段階でもGPT-4を超えそうとのことで最終性能が非常に楽しみ。
- モデルカード(llama3/MODEL_CARD.md at main · meta-llama/llama3 (github.com))が公開されており、構築に投じた計算リソースも公開されている。8Bで1.3M GPU hour、70Bで6.4M GPU hour。Lambda LabsのGPU Cloudでは3.5USD/GPU hour程度なのでかなりの額を投じていることになる。
- Mixtral 8×22: Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands
- MistralによるMoE構成LLM。Apache-2ライセンスとOSS。性能はClaude HaikuやGemini Pro、GPT-3.5、Qwen 1.5 72Bに競合するレベルに見える。
- HuggingFaceにも公開されている mistralai/Mixtral-8x22B-v0.1 · Hugging Face、mistralai/Mixtral-8x22B-Instruct-v0.1 · Hugging Face
- Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.4]
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。 最も有能で最大のモデルであるReka Coreは、自動評価とブライド評価の両方において、最高のフロンティアモデルにアプローチしています。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 17:59:48 GMT) - Reka Core: Reka Core: Our Frontier Class Multimodal Language Model — Reka AI、マルチモーダルでGPT-4Vと競合。
Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length
- Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
論文 参考訳(メタデータ) (Fri, 12 Apr 2024 20:28:14 GMT) - Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
- リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 15:21:34 GMT) - Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与
On the Causal Nature of Sentiment Analysis
- On the Causal Nature of Sentiment Analysis [98.4]
感性分析(SA)は、製品レビューのようなテキストで表される感情を特定することを目的としている。 本稿では2つのタスクの組み合わせとしてSAを定式化する。 予測タスクでは,LLMの性能向上のために,サンプルの裏側にある因果関係のメカニズムを用いる。
論文 参考訳(メタデータ) (Wed, 17 Apr 2024 04:04:34 GMT) - causally-awareで心理学を考慮したセンチメント分析手法の提案、効果検証。「we have formulated the task of SA into a prediction problem and a causal discovery problem.」(SA = sentiment analysis)と対象の問題を理解・分解したうえでLLMに解かせるというのは実務上重要になっていきそう、というのと、causal promptというのも興味深い。
RoT: Enhancing Large Language Models with Reflection on Search Trees
- RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文 参考訳(メタデータ) (Mon, 08 Apr 2024 12:31:23 GMT) - x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
- リポジトリはhuiwy/reflection-on-trees (github.com)
JailBreakV-28K
- JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.7]
本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。 MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。 LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 19:23:18 GMT) - MLLMへのJailbreakベンチマーク。「Our extensive experiments reveal that MLLMs inherit vulnerability from their LLM counterparts.」はまぁそうだろうと思いつつ・・・「In addition, text-based jailbreak attacks are more effective than image-based jailbreak attacks and are effective regardless of the image input.」は・・・
- リポジトリはJailbreakV-28K/JailBreakV-28k · Datasets at Hugging Face
Stream of Search (SoS): Learning to Search in Language
- Stream of Search (SoS): Learning to Search in Language [29.8]
本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。 本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。 この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
論文 参考訳(メタデータ) (Mon, 01 Apr 2024 06:50:52 GMT) - 言語モデルに探索戦略を教え込むことが可能そうという報告。「We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory.」、「The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers.」、Transformerは非常に強力。。
- リポジトリはkanishkg/stream-of-search (github.com)
AutoRace: AUTOmated ReAsoning Chain Evaluation
- LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
論文 参考訳(メタデータ) (Mon, 08 Apr 2024 06:35:09 GMT) - 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
- プロジェクトサイトはHome | Reasoners (llm-reasoners.net)