- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。 データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (Sun, 27 Oct 2024 12:44:25 GMT) - Kaggleのようなデータ分析の自動化。対象としているタスク(分析フェーズ)は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
- 「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
- リポジトリはGitHub – multimodal-art-projection/AutoKaggle
カテゴリー: arXiv
Survey of User Interface Design and Interaction Techniques in Generative AI Applications
- Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.6]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。 また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (Mon, 28 Oct 2024 23:10:06 GMT) - 生成AIを使うアプリケーションのUIについてまとめたサーベイ
- 珍しいサーベイ
Evaluating Cultural and Social Awareness of LLM Web Agents
- Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (Wed, 30 Oct 2024 17:35:44 GMT) - 「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
- エージェント設計時の注意が必要なことが分かる。
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.3]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。 実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (Fri, 25 Oct 2024 12:18:37 GMT) - タスクに応じた構造化を行うことによりRAGの性能を改善、GraphRAGと比べても優れた性能で計算コストも低い。
- リポジトリはGitHub – Li-Z-Q/StructRAG: StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
Foundation Models for Remote Sensing and Earth Observation: A Survey
- Foundation Models for Remote Sensing and Earth Observation: A Survey [101.8]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。 モチベーションと背景の概要から始まり、続いて基本概念が導入された。 その後、データセットや技術貢献を含む既存のRSFM研究を分類し、レビューする。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 01:08:21 GMT) - Remote Sensing (RS) Foundation Modelのサーベイ
ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report
LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAI、Grounding with Google Search | Gemini API | Google AI for Developers、Ground responses for Gemini models | Generative AI on Vertex AI | Google Cloudに注目。
前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。
後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。
その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。
- GPT-4o System Card [211.9]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文 参考訳(メタデータ) (Fri, 25 Oct 2024 17:43:01 GMT)
- Baichuan Alignment Technical Report [42.0]
ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
論文 参考訳(メタデータ) (Sat, 19 Oct 2024 02:07:33 GMT)
- A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
論文 参考訳(メタデータ) (Mon, 28 Oct 2024 17:51:08 GMT) - 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.7]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。 現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。 近年の研究では、LCSタスクにおけるLLMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (Sat, 26 Oct 2024 00:39:44 GMT) - LLMを用いたクロスリンガルでの要約方法の検証。低リソースな言語において、SUMMARIZATION, IMPROVEMENT, TRANSLATION and REFINEMENT (SITR)の4段階からなるfour-step zero-shot SITR architectureが有効との結果。
xGen-MM-Vid (BLIP-3-Video)
- xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 17:59:11 GMT) - salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
- リポジトリはxGen-MM-Vid (BLIP-3-Video)
JudgeBench: A Benchmark for Evaluating LLM-based Judges
- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 17:58:19 GMT) - LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
- リポジトリはGitHub – ScalerLab/JudgeBench
ComPO: Community Preferences for Language Model Personalization
- ComPO: Community Preferences for Language Model Personalization [122.5]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 14:02:40 GMT) - 言語モデルをpersonalizationする手法COMPOの提案。「Our proposed community preference optimization incorporates subreddit-specific contexts into the model, tailoring outputs to align with the distinct norms and values of individual communities.」というアプローチ。
- リポジトリはGitHub – allenai/compred: Reddit Community Preferences