2024年3月27日 – arXiv最新論文の紹介

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [19.6]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (Mon, 11 Mar 2024 03:54:33 GMT)
韓国の文化的・言語的理解を評価するデータセット、日本語版が必要そうに思う。
リポジトリはrladmstn1714/CLIcK: CLIcK: Evaluation of Cultural and Linguistic Intelligence in Korean (github.com)

ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (Thu, 21 Mar 2024 11:34:26 GMT)
CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化＋フィルタリングで構成されている。
リポジトリはRUCAIBox/ChainLM (github.com)

日: 2024年3月27日