SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

  • SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
    大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:30:05 GMT)
  • Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
  • リポジトリはMulti-SWE-bench

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。