- RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.5]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。 私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 15:27:39 GMT) - LLM構築など大規模な事前学習で重要なデータ源となっているCommonCrawlからのデータ構築についての報告と実装。フィルタリングの過程でデータが大幅に削られている。「Our general domain dataset, REDSTONE-Web, outperforms existing open-source datasets in common sense reasoning benchmarks, while the inclusion of REDSTONE-Code and REDSTONE-Math significantly improves model performance in code generation and mathematical problem solving.」とのこと。
- リポジトリはhttps://github.com/microsoft/redstoneとのことだが、現時点では404
タグ: データセット
RedPajama: an Open Dataset for Training Large Language Models
- RedPajama: an Open Dataset for Training Large Language Models [80.7]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。 例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (Tue, 19 Nov 2024 09:35:28 GMT) - RedPajamaの論文
- リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
- MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 21:20:10 GMT) - 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
- リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
- JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 17:59:56 GMT) - MMMUの日本語版
- リポジトリはJMMMU
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.3]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。 我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。 このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 16:11:49 GMT) - 多言語、大規模なVQAデータセット
- リポジトリはGitHub – worldcuisines/worldcuisines: WorldCuisines is an extensive multilingual and multicultural benchmark that spans 30 languages, covering a wide array of global cuisines.、リーダーボードはWorldCuisines – a Hugging Face Space by worldcuisines
- 今川焼のような議論が沸き起こるデータは少なめかもしれないのと、ノイズもそこそこ入っているように見受けられる。
Harnessing Webpage UIs for Text-Rich Visual Understanding
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 17:48:54 GMT) - 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
- プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life
- DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.1]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。 それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。 我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:08:52 GMT) - 道徳的ジレンマのデータセット
- リポジトリはhttps://github.com/kellycyy/daily_dilemmas
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (Sun, 22 Sep 2024 00:30:11 GMT) - 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
- リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (Sun, 25 Aug 2024 15:17:43 GMT) - マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
- 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。
SurveySum
- SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 11:13:23 GMT) - 学術論文の要約データセット
- リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face
要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。
- Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。 本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文 参考訳(メタデータ) (Sat, 01 Jun 2024 17:28:38 GMT)