Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

  • Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
    大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 06:10:01 GMT)
  • モバイルエージェント向けベンチマーク
  • リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと(arXivへの公開時点では404)

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

  • MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
    言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。 総合的な機械学習評価ベンチマークであるMUSEを提案する。 人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 23:47:29 GMT)
  • Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
  • リポジトリはMUSE (muse-bench.github.io)

TALENT: A Tabular Analytics and Learning Toolbox

  • TALENT: A Tabular Analytics and Learning Toolbox [24.9]
    本稿では,表型手法の活用,分析,比較を行うためにTALENT (Tabular Analytics and LEarNing Toolbox) という汎用的なディープラーニングツールボックスを提案する。 TALENTは、様々なエンコーディングおよび正規化モジュールに関連する、20以上の深い表層予測手法の広範なコレクションを含んでいる。 本稿では,ツールボックスの設計と機能について述べるとともに,その実践的応用をいくつかのケーススタディを通じて説明し,ツールボックスをベースとした各種手法の性能について検討する。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 16:57:14 GMT)
  • テーブルデータ分析のためのツールボックスでDeep系の手法が豊富に含まれている。
  • リポジトリはGitHub – qile2000/LAMDA-TALENT: A comprehensive toolkit and benchmark for tabular data learning, featuring over 20 deep methods, more than 10 classical methods, and 300 diverse tabular datasets.
  • やはりCatBoostやXGBはかなり優秀なのでは・・・

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

  • BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
    BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。 私たちはまず『Understanding Literature』を2つの原子能力に分解した。 次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
    論文  参考訳(メタデータ)   (Sat, 29 Jun 2024 15:23:28 GMT)
  • biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
  • リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

AutoBencher、A Survey of Data Synthesis Approaches

  • AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
    3つのデシラタを言語モデルのための優れたベンチマークとして提示する。 ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
    論文  参考訳(メタデータ)   (Thu, 11 Jul 2024 10:03:47 GMT)
  • ベンチマークを自動的に構築する取り組み。
  • しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
  • リポジトリはGitHub – XiangLi1999/AutoBencher
  • A Survey of Data Synthesis Approaches [20.2]
    1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。 本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 06:37:09 GMT)
  • 合成データ関連のサーベイ。
  • リポジトリはGitHub – MiuLab/SynData-Survey

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

  • CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.0]
    言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。 LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。 リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
    論文  参考訳(メタデータ)   (Tue, 09 Jul 2024 17:58:18 GMT)
  • (シンプルな)Literal copyingだけでなくパラフェージングなどを通して行われるNon-literal copyingも対象にしたベンチマークの提案と検証。リテラルコピーが大規模モデルで問題になるのは直観的に明らかとして「In proprietary models, the transition from GPT-3.5 to GPT-4 interestingly reduces literal copying but increases non-literal copying.」や「we find that current inference-time mitigation methods, although effective at reducing literal copying, are insufficient for addressing nonliteral copying.」という記載は興味深い。
  • リポジトリはGitHub – chentong0/copy-bench: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

MMedAgent

  • MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
    本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 2 Jul 2024 17:58:23 GMT)
  • マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと

PaliGemma、ChartGemma

  • PaliGemma: A versatile 3B VLM for transfer [112.4]
    PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
    論文  参考訳(メタデータ)   (Wed, 10 Jul 2024 14:57:46 GMT)
  • PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
  • ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
    本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 22:16:40 GMT)
  • PaliGemmaのチャート対応バージョン
  • リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

Large Language Models Understand Layouts

  • Large Language Models Understand Layouts [6.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 09:03:12 GMT)
  • LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
  • リポジトリはGitHub – liweim/TextLayoutLLM

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

  • MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
    MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 17:59:26 GMT)
  • マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
  • リポジトリはMMLongBench-Doc (mayubo2333.github.io)