- TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs [35.7]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。 本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 13:58:59 GMT) - LLMの評価に関する論文、主として中国語に関するものだがクロスリンガル・マルチリンガルという意味では日本語の評価でも参考になりそう。Figure 2: Hierarchical task tree chartのような整理も興味深い。GPT-4が一つ抜けている感はあるものの、他のモデルも猛追という感じ。
- リポジトリはGitHub – xsysigma/TencentLLMEval: TencentLLMEval is a comprehensive and extensive benchmark for artificial evaluation of large models that includes task trees, standards, data verification methods, and more.
日: 2023年11月16日
Emotion Detection for Misinformation: A Review
- Emotion Detection for Misinformation: A Review [23.5]
本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。 本研究では,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の解析を行う。 本稿では,大規模言語モデルに基づく感情に基づく誤情報検出において,現在進行中の課題について論じる。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 17:21:09 GMT) - 感情を軸とした誤情報見地に関するサーベイ