arXiv最新論文の紹介

The Belebele Benchmark

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [82.6]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (Thu, 31 Aug 2023 17:43:08 GMT)
「multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants.」ということで非常に多言語のMRCデータセット。機械翻訳におけるFLORES-200のような立ち位置で非常に貴重なデータセット
「GPT3.5-TURBO performs the best on the top 20 languages, but after 40-50, its performance falls far behind INFOXLM and XLM-V.」というベンチマーク結果が興味深い。商業システムはある程度ターゲットとなる言語を絞っているよう。
リポジトリはGitHub – facebookresearch/belebele: Repo for the Belebele dataset, a massively multilingual reading comprehension dataset.

A Survey for Federated Learning Evaluations: Goals and Measures

A Survey for Federated Learning Evaluations: Goals and Measures [26.1]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護機械学習のための新しいパラダイムである。 FLの評価は、その学際的な性質と、実用性、効率性、セキュリティといった様々な目標のために難しい。我々はFLアルゴリズムの標準化された総合的な評価フレームワークを提供するオープンソースプラットフォームであるFedEvalを紹介した。
論文参考訳（メタデータ） (Wed, 23 Aug 2023 00:17:51 GMT)
Federated Learning の評価指標に関するサーベイおよび総合的な評価システムに関する論文。前半はFLの典型的な目標とその評価指標についてまとめられており、後半で著者が開発したFedEvalが紹介されている。FedEvalはKDD2022のFedEval: A Holistic Evaluation Framework for Federated Learningで発表されているよう。
リポジトリはhttps://github.com/Di-Chai/FedEval

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 11:35:21 GMT)
LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

AI Deception: A Survey of Examples, Risks, and Potential Solutions

AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.8]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 17:59:35 GMT)
AIが「人を欺く」方法を学んだとして、リスクとその解決策を調査した論文。事例が多く紹介されておりとても興味深い。
「Regulation」「Bot-or-not laws」「Detection」「Making AI systems less deceptive」の4つが解説策として挙げられている。開発側に何らかの制約をかけないと対応困難なのだろうか。

SketchDreamer

SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文参考訳（メタデータ） (Sun, 27 Aug 2023 19:44:44 GMT)
反復的かつ制御しながらスケッチを生成していく手法の提案。スケッチを部分毎に完成させていくのは面白く実用性がありそう。
リポジトリはGitHub – WinKawaks/SketchDreamer

Identifying and Mitigating the Security Risks of Generative AI

Identifying and Mitigating the Security Risks of Generative AI [179.2]
本稿では,GenAIによるジレンマに関するGoogleのワークショップの成果を報告する。 GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。この話題について,コミュニティの短期的,長期的目標について論じる。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 18:51:09 GMT)
LLMなど生成AIを使った攻撃と防御に関して整理した論文。Capability, Attack, Defenceと整理されている。AttackのところではSpear-phishing、Hallucinations、Dissemination of deepfakes、Proliferation of cyberattacks、Low barrier-of-entry for adversaries、Lack of social awareness and human sensibility、 Data feedback loops、Unpredictabilityが挙げられている。Unpredictabilityに「Currently, we remain unaware of the full range of capabilities and threats posed by GenAI models.」とあるのが興味深い。

Can Programming Languages Boost Each Other via Instruction Tuning?

Can Programming Languages Boost Each Other via Instruction Tuning? [31.2]
本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。結果は、プログラミング言語が互いに著しく改善できることを示しています。
論文参考訳（メタデータ） (Thu, 31 Aug 2023 15:53:51 GMT)
異なるプログラミング言語に関するfine tuningが他のプログラミング言語のコード生成に良い影響を与えるかを検証した論文。結果は効果がある。
「CODEM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X.」はまぁ分かるとして「 CODEM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1.」は不思議。結果を見るとなんとなく近い言語がより強化されているように見える気はする。
リポジトリはGitHub – NL2Code/CodeM

ZhuJiu

ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.6]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 06:56:44 GMT)
LLM評価のためのベンチマーク、評価観点など参考になる点は多い。
プロジェクトサイトはHome (zhujiu-benchmark.com)

LongBench

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 11:53:40 GMT)
LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning（「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など）, Synthetic Tasks（「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など）, Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

A Survey on Large Language Model based Autonomous Agents

A Survey on Large Language Model based Autonomous Agents [107.8]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。本稿では,自律エージェントの分野を包括的観点から体系的に検討する。社会科学,自然科学,工学の分野におけるLLMベースのAIエージェントの様々な応用について概説する。
論文参考訳（メタデータ） (Tue, 22 Aug 2023 13:30:37 GMT)
LLMを用いたAIエージェントに関するサーベイ。フレームワークとしてprofiling module, memory module, planning module, action moduleでの構成が想定されている。LLM活用が流行ってからエージェントへの応用、さらにそれらのサーベイが出るというスピード感がとても早い。。。
関連するリポジトリが用意されている。https://github.com/Paitesanshi/LLM-Agent-Survey

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30