Evaluating Cultural and Social Awareness of LLM Web Agents

  • Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
    CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:35:44 GMT)
  • 「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
  • エージェント設計時の注意が必要なことが分かる。

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

  • StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.3]
    Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。 実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 12:18:37 GMT)
  • タスクに応じた構造化を行うことによりRAGの性能を改善、GraphRAGと比べても優れた性能で計算コストも低い。
  • リポジトリはGitHub – Li-Z-Q/StructRAG: StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Foundation Models for Remote Sensing and Earth Observation: A Survey

  • Foundation Models for Remote Sensing and Earth Observation: A Survey [101.8]
    本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。 モチベーションと背景の概要から始まり、続いて基本概念が導入された。 その後、データセットや技術貢献を含む既存のRSFM研究を分類し、レビューする。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 01:08:21 GMT)
  • Remote Sensing (RS) Foundation Modelのサーベイ

ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report

LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAIGrounding with Google Search  |  Gemini API  |  Google AI for DevelopersGround responses for Gemini models  |  Generative AI on Vertex AI  |  Google Cloudに注目。

前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。

後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。

その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。

  • GPT-4o System Card [211.9]
    GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 17:43:01 GMT)
  • Baichuan Alignment Technical Report [42.0]
    ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
    論文  参考訳(メタデータ)   (Sat, 19 Oct 2024 02:07:33 GMT)
  • A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
    信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 17:51:08 GMT)
  • 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。

Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization

  • Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.7]
    CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。 現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。 近年の研究では、LCSタスクにおけるLLMの性能は、わずかな設定でも満足できないことが示されている。
    論文  参考訳(メタデータ)   (Sat, 26 Oct 2024 00:39:44 GMT)
  • LLMを用いたクロスリンガルでの要約方法の検証。低リソースな言語において、SUMMARIZATION, IMPROVEMENT, TRANSLATION and REFINEMENT (SITR)の4段階からなるfour-step zero-shot SITR architectureが有効との結果。

xGen-MM-Vid (BLIP-3-Video)

  • xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
    ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 17:59:11 GMT)
  • salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
  • リポジトリはxGen-MM-Vid (BLIP-3-Video)

JudgeBench: A Benchmark for Evaluating LLM-based Judges

  • JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
    judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 17:58:19 GMT)
  • LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
  • リポジトリはGitHub – ScalerLab/JudgeBench