staka – ページ 57 – arXiv最新論文の紹介

MMedAgent

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (Tue, 2 Jul 2024 17:58:23 GMT)
マルチモーダルな医療用エージェントの提案、様々なツール（各タスクのSOTAな手法）を使いながら問題を解き優れた性能とのこと

PaliGemma、ChartGemma

PaliGemma: A versatile 3B VLM for transfer [112.4]
PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
論文参考訳（メタデータ） (Wed, 10 Jul 2024 14:57:46 GMT)
PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 22:16:40 GMT)
PaliGemmaのチャート対応バージョン
リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

Large Language Models Understand Layouts

Large Language Models Understand Layouts [6.7]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 09:03:12 GMT)
LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
リポジトリはGitHub – liweim/TextLayoutLLM

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 17:59:26 GMT)
マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR＋LLMを超えている。
リポジトリはMMLongBench-Doc (mayubo2333.github.io)

How Does Quantization Affect Multilingual LLMs?

How Does Quantization Affect Multilingual LLMs? [50.9]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
論文参考訳（メタデータ） (Wed, 03 Jul 2024 15:39:40 GMT)
LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
多言語（というか日本語）への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。

CausalScore

CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 25 Jun 2024 06:08:16 GMT)
「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
リポジトリはGitHub – WilliamsToTo/causalscore_dialogue

BMIKE-53

BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning [43.1]
知識編集(KE)は、大規模言語モデルの知識を更新するための有効なソリューションとして登場した。 3種類のKEタスクタイプにわたる53の多言語における言語間KE評価のためのBMIKE-53ベンチマークを提案する。本評価では,信頼性,汎用性,局所性,可搬性の観点から,言語間知識伝達に着目した。
論文参考訳（メタデータ） (Tue, 25 Jun 2024 17:48:56 GMT)
マルチリンガルな知識編集ベンチマークと、Multilingual In-context Knowledge Editing (MIKE) 手法の提案
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
大規模言語モデル(LLM)はNLPの分野に革命をもたらした。本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 17:56:29 GMT)
機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe

A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics

A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics [4.3]
産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。
論文参考訳（メタデータ） (Thu, 27 Jun 2024 00:59:20 GMT)
デジタルツインに着目した攻撃に関するサーベイ
想定しているフレームワークは「Physical spaces comprise robotic sensors that collect data.Virtual space utilizes the data collected from physical space via a communication link between them.Predictions are generated by the AI models within vitual space, which are then analyzed before decisions are made by stakeholders.」

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
論文参考訳（メタデータ） (Fri, 21 Jun 2024 18:31:49 GMT)
テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30