コンテンツへスキップ
- AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.1]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。 AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。 複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 14:29:30 GMT)
- aerial image urban scene graph generation (AUG) datasetとモデルの提案。空撮画像から画像からの物体及び複雑な関係の理解を行う必要があり、とても難しそうなタスク。
- リポジトリはLPG-SGG: locality-preserving graph convolutional network (LPG) (gitee.com)
- A diverse Multilingual News Headlines Dataset from around the World [57.4]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。 言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (Thu, 28 Mar 2024 12:08:39 GMT)
- 「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
- リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (Tue, 26 Mar 2024 10:04:24 GMT)
- 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
- データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face
- EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (Fri, 15 Mar 2024 15:08:39 GMT)
- MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
- 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
- リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark
- Editing Conceptual Knowledge for Large Language Models [67.8]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。 本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。 実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (Sun, 10 Mar 2024 16:57:10 GMT)
- 概念を対象とした知識編集手法ができるか検証した論文。事実の編集よりも対象が大きく、既存手法で一定程度可能ではあるが限界もあるよう。ベンチマークデータが公開されていて「 To maintain the quality of our data, we manually review all the descriptions we gathered, replacing any unclear or ambiguous.」とのこと。。。
- リポジトリはEditing Conceptual Knowledge for Large Language Models (zjukg.org)、データはzjunlp/ConceptEdit · Datasets at Hugging Face
- A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 18:54:35 GMT)
- データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
- この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。