- MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.1]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。 トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。 本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (Mon, 20 May 2024 15:48:32 GMT) - 正方行列を用いたLoRAの改善
- リポジトリはGitHub – kongds/MoRA
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
- ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.4]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。 タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (Tue, 21 May 2024 08:06:13 GMT) - Protein Language ModelとLLMの組み合わせ。珍しい(?)マルチモーダル。LLMにはFugu-MT 論文翻訳(概要): Galactica: A Large Language Model for Science (fugumt.com)を使い検証、効果を確認している。
- リポジトリはGitHub – acharkq/ProtT3: Source code for ACL 2024 paper: “ProtT3: Protein-to-Text Generation for Text-based Protein Understanding”
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
- JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。 そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。 我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (Thu, 23 May 2024 09:43:19 GMT) - 数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース)を構築していて早速Llama 3を取り込んでいるのがすごい&両者の性能がタスクによって大きく異なるのが興味深い。
- リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0
Implicit In-context Learning
- Implicit In-context Learning [37.1]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Implicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (Thu, 23 May 2024 14:57:52 GMT) - ICLを表すベクトル(context vector)を使うことで高速化。できそうではあるがcontext vectorが持つ情報はどのくらいの有効性があるか&実際のところ何なのかが気になる。
- リポジトリはGitHub – LzVv123456/I2CL
STAR: A Benchmark for Situated Reasoning in Real-World Videos
- STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.8]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。 データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。 本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (Wed, 15 May 2024 21:53:54 GMT) - 動画を通したinteraction, sequence, prediction, feasibilityのベンチマーク
- プロジェクトサイトはSTAR: A Benchmark for Situated Reasoning in Real-World Videos (bobbywu.com)
YOLOv10: Real-Time End-to-End Object Detection
- YOLOv10: Real-Time End-to-End Object Detection [68.3]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。 非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (Thu, 23 May 2024 11:44:29 GMT) - YOLO v10、性能が高く低レイテンシ。
- リポジトリはGitHub – THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection
Agent Planning with World Knowledge Model
- Agent Planning with World Knowledge Model [88.5]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。 我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。 我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文 参考訳(メタデータ) (Thu, 23 May 2024 06:03:19 GMT) - World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
- リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では404
Risks and Opportunities of Open-Source Generative AI
- Risks and Opportunities of Open-Source Generative AI [64.7]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。 この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (Tue, 14 May 2024 13:37:36 GMT) - 活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
- やや長いがよく整理されている論文。
Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B
先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。
- マイクロソフトBuild 2024ニュースブック (microsoft.com)
- mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face
- Aya | Cohere For AI
MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。
別Blogで検証を行った(Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))感じ日本語でもタスクによっては優れた性能を発揮できそう。
xRAG、FlashRAG、HippoRAG
RAG関連の研究はとても盛ん
- xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。 実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (Wed, 22 May 2024 16:15:17 GMT) - プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
- リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token
- FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。 私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文 参考訳(メタデータ) (Wed, 22 May 2024 12:12:40 GMT) - RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
- リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research
- HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。 その結果,本手法は最先端の手法を最大20%向上させることができた。 提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
論文 参考訳(メタデータ) (Thu, 23 May 2024 17:47:55 GMT) - 海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
- リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.