mPLUG-PaperOwl

  • mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model [73.4]
    本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 04:43:26 GMT)
  • 学術論文の図表を含むドキュメントを読解するためのデータ・モデルの提案、latexが取れるというのも大きいのだろうけど、分野特化は非常に有効に見える
  • リポジトリはmPLUG-DocOwl/PaperOwl at main · X-PLUG/mPLUG-DocOwl · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です