コンテンツへスキップ
- Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.2]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。 我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。 実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 08:12:52 GMT)
- 「Drawing on the intuition that rewriting data is comparatively simpler than performing intricate reasoning tasks for LLMs, we propose a method to augment the dataset by converting web-crawled data into high-quality ones.」という手法の提案。小規模なシードデータと大規模なクローリングデータのマッチングをとり、専用モデルを作るアプローチ。クリーニングが大変なのが伝わってくる。数学的な問題のバリエーションはとても多そうだけど、この方針でうまくいくのはなぜなのだろうか。。。(有名な問題の別解情報が使われているんだろうか)
- リポジトリはGitHub – zhouj8553/Web_to_SFT: official code for the paper “Leveraging Web-Crawled Data for High-Quality Fine-Tuning”
- SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。 本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。 その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文 参考訳(メタデータ) (Sun, 11 Aug 2024 04:53:12 GMT)
- SMILESに対してもMambaが有効とのこと
- transformerの代替として有望そう
- Fairness and Bias Mitigation in Computer Vision: A Survey [61.0]
コンピュータビジョンシステムは、高精細な現実世界のアプリケーションにますますデプロイされている。 歴史的または人為的なデータにおいて差別的な傾向を伝播または増幅しないことを確実にする必要がある。 本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 13:44:22 GMT)
- コンピュータビジョンにおける公平性のサーベイ。
- 生成モデルの流行で注目されている分野であり、研究の進展もとても速い。
- A Survey of Mamba [26.7]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 09:18:41 GMT)
- 期待が膨らむMambaのサーベイ。
- 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。
- Can Large Language Models Understand Symbolic Graphics Programs? [136.6]
我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。 シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。 シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 17:59:57 GMT)
- コードのように表現した画像に対して質問に答えられるか?のベンチマーク。「This result suggests that how LLMs understand symbolic graphics programs is quite different from human.」とあるが、人間でできるんやろうか・・・。「For such a task, we create SGP-Bench, a benchmark that shows distinguishable results between LLMs and introduce the method of Symbolic Instruction Finetuning (SIT) that improves LLMs’ capability of understanding graphics programs.」のチューニング可能性が驚異的に思える。
- リポジトリはSGP-Bench
- Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.9]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。 専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。 実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 17:50:28 GMT)
- 様々なところで研究開発が進む、ソフトウエア開発に関する自立型エージェント。本件はSalesforceの研究で「DEI aims to harness these varied skills to tackle a broader range of problems more effectively with a multi-agent ensemble system and a re-ranking pipeline」というアプローチ(DEI =Diversity Empowers Intelligence )
- 標準的ベンチマークが確立すると研究開発や分析が高速に進む。。。
- リポジトリはSalesforce Research DEI Agents (salesforce-research-dei-agents.github.io)
- The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.5]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。 我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。 原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文 参考訳(メタデータ) (Mon, 12 Aug 2024 16:58:11 GMT)
- Sakana AIが関わる科学者的自立型エージェント。「Each idea is implemented and developed into a full paper at a meager cost of less than $15 per paper, illustrating the potential for our framework to democratize research and significantly accelerate scientific progress.」とのこと。コードなどが公開されているのがすごい。「From manual inspection, we find that Claude Sonnet 3.5 consistently produces the highest quality papers, with GPT-4o coming in second.」という記載や、Common Failure Modesも参考になる。
- パフォーマンスに関してはなかなか判断が難しいという印象だが、設定を少し変えた研究を大量にやらせてみるなど、活用可能性はあるかもしれない。
- リポジトリはGitHub – SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
- From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.6]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。 特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。 我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 14:01:15 GMT)
- LLMを用いたソフトウエア工学に関するサーベイ。エージェントにもフォーカスしている。
- 「The analysis revealed that the emergence of LLM-based agents has led to extensive research and applications across various software engineering topics, demonstrating different emphases compared to traditional LLMs in terms of tasks, benchmarks, and evaluation metrics.」と結論し、Agentの有効性を示唆していそう。(しかしtraditional LLMsって・・・)