staka – ページ 126 – arXiv最新論文の紹介

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 07:20:48 GMT)
RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics

AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。

Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 11:34:31 GMT)
生成モデルとロボティクスに関するサーベイ。

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
強化学習(RL)は、広範囲のアプリケーションで非常に有望である。ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 04:35:38 GMT)
深層強化学習とロボティクスに関するサーベイ。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 11:36:18 GMT)
ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。

Speech-MASSIVE

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.7]
Speech-MASSIVEは多言語音声言語理解データセットである。異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 16:55:28 GMT)
マルチリンガルな音声の言語理解データセット（spoken language understanding (SLU – the task of extracting semantic information from spoken utterances, which typically involves subtasks like intent detection and slot ﬁlling)）
リポジトリはGitHub – hlt-mt/Speech-MASSIVE: Speech-MASSIVE is a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus.
ライセンスはCC-BY-SA-4.0、日本語が入っていないのが残念。。。

Leveraging Web-Crawled Data for High-Quality Fine-Tuning

Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.2]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 08:12:52 GMT)
「Drawing on the intuition that rewriting data is comparatively simpler than performing intricate reasoning tasks for LLMs, we propose a method to augment the dataset by converting web-crawled data into high-quality ones.」という手法の提案。小規模なシードデータと大規模なクローリングデータのマッチングをとり、専用モデルを作るアプローチ。クリーニングが大変なのが伝わってくる。数学的な問題のバリエーションはとても多そうだけど、この方針でうまくいくのはなぜなのだろうか。。。（有名な問題の別解情報が使われているんだろうか）
リポジトリはGitHub – zhouj8553/Web_to_SFT: official code for the paper “Leveraging Web-Crawled Data for High-Quality Fine-Tuning”

VITA: Towards Open-Source Interactive Omni Multimodal LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM [106.5]
ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
論文参考訳（メタデータ） (Fri, 09 Aug 2024 17:59:49 GMT)
オープンなMLLMを目指す取り組み、Mixtral 8×7Bベース
プロジェクトサイトはHello VITA (vita-home.github.io)、リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA: Towards Open-Source Interactive Omni Multimodal LLM

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文参考訳（メタデータ） (Sun, 11 Aug 2024 04:53:12 GMT)
SMILESに対してもMambaが有効とのこと
transformerの代替として有望そう

Fairness and Bias Mitigation in Computer Vision: A Survey

Fairness and Bias Mitigation in Computer Vision: A Survey [61.0]
コンピュータビジョンシステムは、高精細な現実世界のアプリケーションにますますデプロイされている。歴史的または人為的なデータにおいて差別的な傾向を伝播または増幅しないことを確実にする必要がある。本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
論文参考訳（メタデータ） (Mon, 05 Aug 2024 13:44:22 GMT)
コンピュータビジョンにおける公平性のサーベイ。
生成モデルの流行で注目されている分野であり、研究の進展もとても速い。

A Survey of Mamba

A Survey of Mamba [26.7]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文参考訳（メタデータ） (Fri, 02 Aug 2024 09:18:41 GMT)
期待が膨らむMambaのサーベイ。
「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。

Can Large Language Models Understand Symbolic Graphics Programs?

Can Large Language Models Understand Symbolic Graphics Programs? [136.6]
我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 17:59:57 GMT)
コードのように表現した画像に対して質問に答えられるか？のベンチマーク。「This result suggests that how LLMs understand symbolic graphics programs is quite different from human.」とあるが、人間でできるんやろうか・・・。「For such a task, we create SGP-Bench, a benchmark that shows distinguishable results between LLMs and introduce the method of Symbolic Instruction Finetuning (SIT) that improves LLMs’ capability of understanding graphics programs.」のチューニング可能性が驚異的に思える。
リポジトリはSGP-Bench

2026年5月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31