JDocQA

  • JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [16.0]
    本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 14:22:54 GMT)
  • 日本語のVQAデータセットの提案、公開はされていない?

Mapping the Increasing Use of LLMs in Scientific Papers 

  • Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
    2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
    論文  参考訳(メタデータ)   (Mon, 01 Apr 2024 17:45:15 GMT)
  • LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。