コンテンツへスキップ
- Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 16:50:18 GMT)
- 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
- リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
- SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。
- GTA: A Benchmark for General Tool Agents [32.4]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (Thu, 11 Jul 2024 17:50:09 GMT)
- リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
- リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”
- sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
論文 参考訳(メタデータ) (Sat, 13 Jul 2024 13:03:45 GMT)
- 「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
- 「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・(ライセンス的にOKなNemotronだと現実的なのか気になるところ)
- Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.3]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。 これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。 本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文 参考訳(メタデータ) (Mon, 08 Jul 2024 16:29:08 GMT)
- 複数のLLMをうまく使う方法のサーベイ
- 研究領域がとても広いことがよくわかる(そして絵がかわいい)
- LLMBox: A Comprehensive Library for Large Language Models [109.2]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。 このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文 参考訳(メタデータ) (Mon, 08 Jul 2024 02:39:33 GMT)
- LLM関連のもろもろを集めたライブラリ。必要なものが集まっていると便利というのと、GPUメモリの必要量などの情報がまとまっているのもありがたい。
- リポジトリはGitHub – RUCAIBox/LLMBox: A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.
- GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.7]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (Fri, 5 Jul 2024 14:16:47 GMT)
- タイトルそのままGPT vs RETRO。
- Case2Code: Learning Inductive Reasoning with Synthetic Data [105.9]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。 まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。 実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
論文 参考訳(メタデータ) (Wed, 17 Jul 2024 11:35:00 GMT)
- 解くのが難しい「Case2Code is a program synthesis task that targets the reconstruction of unknown programs based on observations of the program behaviors.」というタスクのため合成データを作成、一般的なLLMではスコアが低いことを検証。次に合成データを使ったfine tuningの有効性を示した論文。いまいち納得感が薄いが「We believe synthetic Case2Code is a promising way to continue improving the LLMs when human-generated data is exhausted.」というのが結論であればそれは示せているのか・・・?
- リポジトリはGitHub – choosewhatulike/case2code
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 17:54:37 GMT)
- マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
- 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
- リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?