ベンチマーク – ページ 17 – arXiv最新論文の紹介

MUG: Meeting Understanding and Generation benchmark

MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 11:52:25 GMT)
会議の理解と生成に関するデータセット
SLP（spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

MEGA: Multilingual Evaluation of Generative AI

MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

SMC-Bench

Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.2]
Sparsity May Cry”ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文参考訳（メタデータ） (Fri, 3 Mar 2023 18:47:21 GMT)
sparse neural network評価用のベンチマーク。難しいタスクを選ぶことで性能がより正確に測れそう。（というか簡単なタスクだとよくわからない）
リポジトリはGitHub – VITA-Group/SMC-Bench: [ICLR 2023] “Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!” Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, AJAY KUMAR JAISWAL, Zhangyang Wang

LEXTREME

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:05:08 GMT)
法律ドメインのマルチリンガルデータセット・ベンチマーク
（お前がやれという話ではあるが）この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP

ChatGPTの評価（NLPベンチマーク、失敗事例、エッセイ）

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題（Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp)）かもしれない。にしても低すぎという感覚はある…

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

A Categorical Archive of ChatGPT Failures [47.6]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 10:04:18 GMT)

ClimaBench

ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
論文参考訳（メタデータ） (Wed, 11 Jan 2023 00:22:56 GMT)
気候変動に関連するベンチマークでNLP向け
リポジトリはGitHub – climabench/climabench

Language Models as Inductive Reasoners

Language Models as Inductive Reasoners [141.3]
本稿では,自然言語の事実から自然言語規則を誘導するタスクを提案する。自然言語を論理言語ではなく知識の表現として使用し、事前学習した言語モデルを「推論者」として使用します。我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 11:12:14 GMT)
言語モデルにより帰納法を実現できるかの研究。モデル構築も評価も難しい問題。
本件のために12K規模のデータセットを作成、chain-of-language-models (CoLM)というフレームワークを提案、ベースラインを超えたと主張。
（ただし性能は高くなさそう…）
コードなどは公開予定とのこと

Robust Summarization Evaluation (RoSE)とAtomic Content Units (ACUs)

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
論文参考訳（メタデータ） (Thu, 15 Dec 2022 17:26:05 GMT)
評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
Yale-LILY/ROSE (github.com)

LawngNLI

LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from Short to Long Contexts and for Implication-Based Retrieval [72.5]
LawngNLIは米国法的な見解から構築されており、高い精度で自動ラベルが付けられている。短いコンテキストから長いコンテキストまでドメイン内の一般化のベンチマークを行うことができる。 LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
論文参考訳（メタデータ） (Tue, 6 Dec 2022 18:42:39 GMT)
法律ドメインのNatural Language Inferenceデータセット、前提が非常に長いのが特徴とのことで扱うのは簡単ではない印象
コードなどはCognitive Computation Group (upenn.edu)でリリースされる予定とのこと

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文参考訳（メタデータ） (Tue, 6 Dec 2022 04:37:51 GMT)
数学問題のベンチマークとそれらを解く手法の提案
リポジトリはchen-judge/UniGeo (github.com)

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30