コンテンツへスキップ
- FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。 スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。 画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文 参考訳(メタデータ) (Tue, 10 Dec 2024 17:02:58 GMT)
- 視覚的な属性(color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような)を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
- プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
- WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.8]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。 我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。 重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 23:36:23 GMT)
- 撤回された論文を集めた珍しいデータセット
- リポジトリはhttps://github.com/darpa-scify/withdrarxiv
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.2]
精度とデータ量とのトレードオフを改善する方法を示します。 15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 17:28:50 GMT)
- RedStone同様、Common CrawlをうまくRefineする手法の報告。こちらはNDIVIAによるもの。「We propose a method for transforming English Common Crawl into a 6.3T token longhorizon pretraining dataset, consisting of 4.4T globally deduplicated original tokens and 1.9T synthetically generated tokens.」と合成データについて触れられているのも興味深い。
- プロジェクトサイトはNemotron-CC
- RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.5]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。 私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 15:27:39 GMT)
- LLM構築など大規模な事前学習で重要なデータ源となっているCommonCrawlからのデータ構築についての報告と実装。フィルタリングの過程でデータが大幅に削られている。「Our general domain dataset, REDSTONE-Web, outperforms existing open-source datasets in common sense reasoning benchmarks, while the inclusion of REDSTONE-Code and REDSTONE-Math significantly improves model performance in code generation and mathematical problem solving.」とのこと。
- リポジトリはhttps://github.com/microsoft/redstoneとのことだが、現時点では404
- MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 21:20:10 GMT)
- 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
- リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
- JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 17:59:56 GMT)
- MMMUの日本語版
- リポジトリはJMMMU
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 17:48:54 GMT)
- 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
- プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding
- DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.1]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。 それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。 我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:08:52 GMT)
- 道徳的ジレンマのデータセット
- リポジトリはhttps://github.com/kellycyy/daily_dilemmas