arXiv最新論文の紹介

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 17:20:46 GMT)
Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

CMMLU: Chinese Massive Multitask Language Understanding

CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 15:49:51 GMT)
中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク（ランダム回答だと25%）、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
リポジトリはGitHub – haonan-li/CMMLU

BIG-bench: Beyond the Imitation Game benchmark (論文ver3)

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (Mon, 12 Jun 2023 17:51:15 GMT)
BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)

Simple and Controllable Music Generation

Simple and Controllable Music Generation [82.2]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 15:31:05 GMT)
制御可能な音楽生成、テキストまたはメロディーを条件に与える事が可能。
リポジトリはGitHub – facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.

Art and the science of generative AI: A deeper dive

Art and the science of generative AI: A deeper dive [26.7]
生成AIは、ビジュアルアート、コンセプトアート、音楽、フィクション、文学、ビデオ、アニメーションのための高品質な芸術メディアを作成することができる。我々は、生成的AIは芸術の終焉の前兆ではなく、独自の余裕を持つ新しい媒体であると主張している。
論文参考訳（メタデータ） (Wed, 7 Jun 2023 04:27:51 GMT)
生成AIがアートに与える影響を考察した論文
法的な扱いなど諸条件は日本とは異なるが興味深い論文、特に経済的な視点が入ってるのが面白かった

Machine Unlearningのサーベイ

Machine Unlearning: A Survey [56.8]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文参考訳（メタデータ） (Tue, 6 Jun 2023 10:18:36 GMT)
Machine Unlearningに関するサーベイ論文、最初に他のサーベイとの比較があるのが面白い。重要技術の包括的なサーベイという印象で引用数も100超。

X-Align++

X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文参考訳（メタデータ） (Tue, 6 Jun 2023 15:52:55 GMT)
カメラとLiDARデータの融合（ゆえにクロスモーダル）によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。

M3Exam

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 13:21:29 GMT)
マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models

WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models [2.4]
我々はMEDIQA-Chat 2023の共有タスクを医師と患者との会話から自動的な臨床ノート作成のために提出した。本稿では,共有タスクデータに事前学習言語モデル(PLM)を1つ,大言語モデル(LLM)を2つ導入し,その2つについて報告する。専門家の人間の精査は、ICLベースのGPT-4によるアプローチによって生成されたメモが、人間によるメモと同じくらい頻繁に好まれていることを示している。
論文参考訳（メタデータ） (Sat, 3 Jun 2023 17:56:29 GMT)
患者との対話記録からの臨床ノート作成、コンペティションで行われたもののよう。GPT-4 + ICLがPLM + finetuneに勝っている点、GPT-4 + ICLが人が書いたGrund Truthと互角レベルで人に好まれる点など面白い結果となっている。
リポジトリはGitHub – bowang-lab/MEDIQA-Chat-2023: A repository for organizing our submission to the MEDIQA-Chat Tasks @ ACL-ClinicalNLP 2023

An Empirical Study on Challenging Math Problem Solving with GPT-4

An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 02:34:35 GMT)
ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (Sun, 4 Jun 2023 17:02:59 GMT)
こちらも数学的な問題を解くためのフレームワーク提案（データセットの提案も）
リポジトリはGitHub – RUCAIBox/CARP

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31