XNLP: Structured Natural Language Processing 

  • XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
    我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。 全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
    論文  参考訳(メタデータ)   (Thu, 3 Aug 2023 16:13:05 GMT)
  • テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
  • デモサイトはXNLP (haofei.vip)

SuperCLUE

  • SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
    中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 17:24:09 GMT)
  • LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
  • 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
  • プロジェクトサイトはcluebenchmarks.com/superclue.html