LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction

  • LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.2]
    大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。 文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。 対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
    論文  参考訳(メタデータ)   (Sun, 25 Jan 2026 20:05:04 GMT)
  • LLMから文化的なナレッジグラフを引きだす手法の提案と検証。「Human evaluations show that while native languages convey richer cultural depth, English outputs are generally more coherent and preferred. Empirically, augmenting LLMs with CCKG improves performance on cultural commonsense reasoning and story generation.」というのは納得感がありつつ、日本語のLLM構築の重要性を示唆しているような気もする。
  • リポジトリはGitHub – JuniorTonga/Cultural_Commonsense_Knowledge_Graph: [EACL 2026 Main] Framework to construct a Cultural Commonsense Knowledge Graph( CCKG) that have geographical context.

OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks

  • OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
    ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 14:35:23 GMT)
  • 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
  • プロジェクトサイトはOS-Marathon Benchmark