Multi-lingual and Multi-cultural Figurative Language Understanding

  • Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
    図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。 我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。 全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 15:30:31 GMT)
  • 多言語(多文化)な比喩表現(figurative language)のデータセット。
  • 面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
  • GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA

XTREME-UP

  • XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
    データ不足は、多言語NLPシステムの開発において重要な問題である。 我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 06:09:28 GMT)
  • 非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
  • リポジトリはGitHub – google-research/xtreme-up