AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Responsible AI Considerations in Text Summarization Research: A Review of Current Practices

  • Responsible AI Considerations in Text Summarization Research: A Review of Current Practices [89.9]
    私たちは、責任あるAIコミュニティがほとんど見落としている共通のNLPタスクである、テキスト要約に重点を置いています。 我々は,2020-2022年に出版されたACLアンソロジーから333の要約論文の多段階的質的分析を行った。 私たちは、どの、どの、どの責任あるAI問題がカバーされているか、どの関係するステークホルダーが考慮されているか、そして、述べられた研究目標と実現された研究目標のミスマッチに焦点を合わせます。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 15:35:36 GMT)
  • テキスト要約に対するResponsibleAIのサーベイ、「 automatic text summarization systems have seen increasing use—despite the known risks of generating incorrect, biased, or otherwise harmful summaries.」は確かにそう思う一方で「Most papers do not discuss the limitations of their own work, and rarely include any ethical reflections.」とのこと
  • 人に何かを伝えるシステムではこの手の話題はとても重要。