Evaluating Copyright Takedown Methods for Language Models

  • Evaluating Copyright Takedown Methods for Language Models [100.4]
    言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 18:09:46 GMT)
  • 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
  • リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? 

  • OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
    我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。 本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 16:31:12 GMT)
  • 最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
  • リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

Themis: Towards Flexible and Interpretable NLG Evaluation

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

  • SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
    LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 21:52:21 GMT)
  • 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
  • リポジトリはtuanh23/SciEx · Datasets at Hugging Face

AgileCoder

  • AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
    アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。 このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。 また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
    論文  参考訳(メタデータ)   (Sun, 16 Jun 2024 17:57:48 GMT)
  • コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
  • プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems 

  • EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
    引用ベースのQAシステムは2つの欠点に悩まされている。 彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。 システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 19:40:38 GMT)
  • WEB検索+ナレッジグラフを用いたQA
  • Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

CS-Bench

  • CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
    計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 18:47:28 GMT)
  • コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
  • リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

  • ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
    本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 16:58:21 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
  • リポジトリはTHUDM · GitHub サイトは智谱清言 (chatglm.cn)