コンテンツへスキップ
- KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。 能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。 データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (Thu, 15 Jun 2023 17:20:46 GMT)
- Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
- プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.
- CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (Thu, 15 Jun 2023 15:49:51 GMT)
- 中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク(ランダム回答だと25%)、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
- リポジトリはGitHub – haonan-li/CMMLU
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (Mon, 12 Jun 2023 17:51:15 GMT)
- BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
- 元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)
- Art and the science of generative AI: A deeper dive [26.7]
生成AIは、ビジュアルアート、コンセプトアート、音楽、フィクション、文学、ビデオ、アニメーションのための高品質な芸術メディアを作成することができる。 我々は、生成的AIは芸術の終焉の前兆ではなく、独自の余裕を持つ新しい媒体であると主張している。
論文 参考訳(メタデータ) (Wed, 7 Jun 2023 04:27:51 GMT)
- 生成AIがアートに与える影響を考察した論文
- 法的な扱いなど諸条件は日本とは異なるが興味深い論文、特に経済的な視点が入ってるのが面白かった
- Machine Unlearning: A Survey [56.8]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。 この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。 この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。 この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (Tue, 6 Jun 2023 10:18:36 GMT)
- Machine Unlearningに関するサーベイ論文、最初に他のサーベイとの比較があるのが面白い。重要技術の包括的なサーベイという印象で引用数も100超。
- X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (Tue, 6 Jun 2023 15:52:55 GMT)
- カメラとLiDARデータの融合(ゆえにクロスモーダル)によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。
- An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。 本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
論文 参考訳(メタデータ) (Thu, 8 Jun 2023 02:34:35 GMT)
- ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
- リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub
- Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。 ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (Sun, 4 Jun 2023 17:02:59 GMT)
- こちらも数学的な問題を解くためのフレームワーク提案(データセットの提案も)
- リポジトリはGitHub – RUCAIBox/CARP