Can Large Language Models Understand Symbolic Graphics Programs?

  • Can Large Language Models Understand Symbolic Graphics Programs? [136.6]
    我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。 シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。 シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:59:57 GMT)
  • コードのように表現した画像に対して質問に答えられるか?のベンチマーク。「This result suggests that how LLMs understand symbolic graphics programs is quite different from human.」とあるが、人間でできるんやろうか・・・。「For such a task, we create SGP-Bench, a benchmark that shows distinguishable results between LLMs and introduce the method of Symbolic Instruction Finetuning (SIT) that improves LLMs’ capability of understanding graphics programs.」のチューニング可能性が驚異的に思える。
  • リポジトリはSGP-Bench

Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

  • Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.9]
    大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。 専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。 実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 17:50:28 GMT)
  • 様々なところで研究開発が進む、ソフトウエア開発に関する自立型エージェント。本件はSalesforceの研究で「DEI aims to harness these varied skills to tackle a broader range of problems more effectively with a multi-agent ensemble system and a re-ranking pipeline」というアプローチ(DEI =Diversity Empowers Intelligence )
  • 標準的ベンチマークが確立すると研究開発や分析が高速に進む。。。
  • リポジトリはSalesforce Research DEI Agents (salesforce-research-dei-agents.github.io)

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

  • The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.5]
    本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。 我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。 原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
    論文  参考訳(メタデータ)   (Mon, 12 Aug 2024 16:58:11 GMT)
  • Sakana AIが関わる科学者的自立型エージェント。「Each idea is implemented and developed into a full paper at a meager cost of less than $15 per paper, illustrating the potential for our framework to democratize research and significantly accelerate scientific progress.」とのこと。コードなどが公開されているのがすごい。「From manual inspection, we find that Claude Sonnet 3.5 consistently produces the highest quality papers, with GPT-4o coming in second.」という記載や、Common Failure Modesも参考になる。
  • パフォーマンスに関してはなかなか判断が難しいという印象だが、設定を少し変えた研究を大量にやらせてみるなど、活用可能性はあるかもしれない。
  • リポジトリはGitHub – SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬

From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future

  • From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.6]
    本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。 特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。 我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 14:01:15 GMT)
  • LLMを用いたソフトウエア工学に関するサーベイ。エージェントにもフォーカスしている。
  • 「The analysis revealed that the emergence of LLM-based agents has led to extensive research and applications across various software engineering topics, demonstrating different emphases compared to traditional LLMs in terms of tasks, benchmarks, and evaluation metrics.」と結論し、Agentの有効性を示唆していそう。(しかしtraditional LLMsって・・・)

Imagen 3 

  • Imagen 3 [130.7]
    本稿では,テキストプロンプトから高品質な画像を生成する潜時拡散モデルであるImagen 3を紹介する。 安全と表現に関する問題と、モデルの潜在的な害を最小限にするために使用した手法について議論する。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 16:15:50 GMT)
  • Imagen3が発表、性能の高さ「Imagen 3 is preferred over other state-of-the-art (SOTA) models at the time of evaluation.」はさすがとして、「Responsible Development and Deployment」がとても興味深い。

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

  • A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.5]
    MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。 本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
    論文  参考訳(メタデータ)   (Fri, 2 Aug 2024 15:14:53 GMT)
  • マルチモーダルなLLMに関するサーベイ。多くの研究機関が取り組んでおり成果も多数。
  • 図がとても参考になる。

CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers

  • Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.2]
    本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
    論文  参考訳(メタデータ)   (Sat, 03 Aug 2024 08:07:03 GMT)
  • 下流タスクをターゲットとした攻撃手法の提案。downstream transfer attacks (DTAs)は有効とのこと。また、「We also found that emerging PETL methods like LoRA are more susceptible to transfer attacks crafted on the pre-trained model.」という指摘はそうだろうと思いつつ、有用な方法なので頭が痛い。

EfficientRAG: Efficient Retriever for Multi-Hop Question Answering 

  • EfficientRAG: Efficient Retriever for Multi-Hop Question Answering [52.6]
    マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。 実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 06:57:49 GMT)
  • LLM callを抑えるためLabeler & Tagger、FIlterのモデルを使うタイプのRAG、合成データをうまく使ってトレーニングするアプローチ

VideoQA in the Era of LLMs: An Empirical Study

  • VideoQA in the Era of LLMs: An Empirical Study [108.4]
    Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。 本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。 分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。 しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 05:14:07 GMT)
  • MLLM時代のVideo QAに関する検証。VQAというとVisualを思い浮かべるがVideoなQAも非常に多くのモデルが発表されている。。。
  • https://github.com/doc-doc/VideoQA-LLMs がリポジトリとのことだが、現時点では404