SimulateBench

  • How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation [49.2]
    我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。 エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:51:11 GMT)
  • AIエージェントの一貫性(Consistency )と頑健性(Robustness )を計測するベンチマークの提案。一貫性、がん形成の定義は「Consistency measures whether the LLMs’ generated human behavior accurately depicts the identity information; Robustness measures whether the generated human behavior will be influenced by the perturbation in the profile.」とのこと
  • リポジトリはhttps://github.com/GAIR-NLP/GPTMan

Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

T-Eval

  • T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
    大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 17:02:06 GMT)
  • LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
  • リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step

Rethinking Tabular Data Understanding with Large Language Models

  • Rethinking Tabular Data Understanding with Large Language Models [39.4]
    本研究では,大規模言語モデル(LLM)のテーブル構造摂動に対する堅牢性について検討する。 我々は,同じ内容を示す表の構造的差異が,特に記号的推論タスクにおいて顕著な性能低下を示すことを示した。 テキストおよび記号的推論経路の集約は, 混合自己整合機構によって促進され, SOTA性能が73.6%向上し, WIKITABLEQUESTIONSの精度が向上した。
    論文  参考訳(メタデータ)   (Wed, 27 Dec 2023 19:58:52 GMT)
  • 簡単そうで意外と難しいLLMでテーブルデータを扱うときのテクニックに関する報告。正規化過程では「‘row tables’ with headers in the first column」に変換するとのこと。こちらの形式のほうが処理しやすいのは納得感がある。加えてAppendicesがとても良い。

MoTCoder: Modular-of-Thought Coder

ReMaKE: Retrieval-augmented Multilingual Knowledge Editor

  • Retrieval-augmented Multilingual Knowledge Editing [81.7]
    LLM(Large Language Models)で表される知識は、しばしば誤りであり、時間とともに時代遅れになる可能性がある。 知識編集(KE)は、新しい知識を注入するための効果的で経済的な代替手段として発展してきた。 本稿では,LLMの新たな知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
    論文  参考訳(メタデータ)   (Wed, 20 Dec 2023 14:08:58 GMT)
  • マルチリンガルな知識編集手法の提案
  • リポジトリはGitHub – Vicky-Wil/ReMaKEGitHub – zjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs.を内部的に利用しているよう。

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

  • NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
    Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 17:18:04 GMT)
  • RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
  • リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

  • From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape [5.9]
    生成人工知能(AI)の現状と今後の動向について批判的考察 GoogleのGeminiや、予想されるOpenAI Q*プロジェクトといったイノベーションが、さまざまなドメインにわたる研究の優先順位とアプリケーションをどう変えているのかを調査した。 この研究は、倫理的および人間中心の手法をAI開発に取り入れることの重要性を強調し、社会規範と福祉の整合性を確保した。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 01:11:39 GMT)
  • 生成AIに関するサーベイで歴史を振り返るのに参考になる。刺激的な内容も含まれるがほんまかいなと思わなくもない。

YAYI 2

  • YAYI 2: Multilingual Open-Source Large Language Models [53.9]
    我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。 ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 17:34:47 GMT)
  • 多言語対応かつ高性能なLLM YAYI2の論文。YAYI2 30Bは5 shotのMMLUでScore=80.5と高い。学習データのクレンジングからpre train, SFT, RLHFと構築過程も非常に参考になる。
  • リポジトリはYAYI2/README_EN.md at main · wenge-research/YAYI2 (github.com、コードはOSSのようだがweightは別途ライセンスが定められている点に注意。
  • YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [21.0]
    ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。 具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
    論文  参考訳(メタデータ)   (Sun, 24 Dec 2023 21:33:03 GMT)
  • 関連してuniversal information extraction taskへのチューニング手法、
  • リポジトリはYAYI-UIE/README_EN.md at main · wenge-research/YAYI-UIE (github.com)

2023年のarXiv

2023年、独自のスコアランキング上位の論文を集計してみた。2023年トップはGeminiの論文(Fugu-MT 論文翻訳(概要): Gemini: A Family of Highly Capable Multimodal Models (fugumt.com))だった。著者数から言っても妥当であろうと思う。著者の多いSurveyが上位に来る傾向があるが、その他も注目すべき論文が多い。

スコアリングは論文著者がトップカンファレンスに通した発表数・トップ論文誌に通した論文数を元に算出している。有名研究者が多数参加する論文のスコアが上がりやすい。なお、今までの最高スコアはBIG-bench(Fugu-MT 論文翻訳(概要): Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models (fugumt.com))の649.7である。

今年Fugu-MT: arxivの論文翻訳(概要) (fugumt.com)で扱った論文は初回バージョンのみを数えて79862件、バージョンアップ分を個別扱いにすると108555件だった。2022年は61378件、79010件だったことからこの分野がさらに盛り上がりを見せているかarXivの重要性が上がっているよう。いずれにしてもarXivだけで更新分併せて9000件/月、300件/日と多くの論文が投稿されていて情報を追うのはなかなか大変になっていると思う。

2023年発表でスコアが高かった論文上位10件

  1. Gemini: A Family of Highly Capable Multimodal Models [517.1]
    マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。 ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
    論文  参考訳(メタデータ)   (Tue, 19 Dec 2023 02:39:27 GMT)
  2. A Survey of Reasoning with Foundation Models [235.7]
    推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。 基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。 本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応する基礎モデルを提案する。
    論文  参考訳(メタデータ)   (Sun, 17 Dec 2023 15:16:13 GMT)
  3. Graph Transformer GANs for Graph-Constrained House Generation [223.7]
    本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。 GTGANは、グラフ制約のある住宅生成タスクにおいて、エンドツーエンドで効率的なグラフノード関係を学習する。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 20:35:45 GMT)
  4. Adaptive Siamese Tracking with a Compact Latent Network [219.4]
    追跡タスクを分類に変換することで,シームズをベースとしたトラッカーを簡易化する直感的なビューを提供する。 そこで本研究では,視覚シミュレーションと実追跡例を用いて,詳細な解析を行う。 そこで我々は,古典的なSiamRPN++,SiamFC,SiamBANの3つのトラッカーを調整した。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 08:06:02 GMT)
  5. Regeneration Learning: A Learning Paradigm for Data Generation [215.0]
    再生学習は、データ生成のための対象データYの抽象化(Y’)を処理する。 再生学習はデータ生成のパラダイムとして広く利用されている。
    論文  参考訳(メタデータ)   (Sat, 21 Jan 2023 01:33:34 GMT)
  6. Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems [211.4]
    科学のためのAI(AI4Science)として知られる新しい研究領域 領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解することを目的としている。 主要な課題は、物理第一原理、特に対称性を深層学習法によって自然システムで捉える方法である。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 12:14:14 GMT)
  7. Focus on Your Target: A Dual Teacher-Student Framework for Domain-adaptive Semantic Segmentation [210.5]
    意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。 対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。 本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 05:04:10 GMT)
  8. DeepSpeed4Science Initiative: Enabling Large-Scale Scientific Discovery through Sophisticated AI System Technologies [198.6]
    DeepSpeed4Scienceは、AIシステム技術革新を通じてユニークな機能を構築することを目指している。 我々は、構造生物学研究における2つの重要なシステム課題に対処するために、DeepSpeed4Scienceで行った初期の進歩を紹介した。
    論文  参考訳(メタデータ)   (Fri, 6 Oct 2023 22:05:15 GMT)
  9. ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images [198.4]
    大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。 トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。 提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
    論文  参考訳(メタデータ)   (Mon, 5 Jun 2023 22:20:52 GMT)
  10. De Novo Molecular Generation via Connection-aware Motif Mining [198.0]
    我々は、マイニングされた接続認識モチーフに基づいて分子を生成する新しい方法、MiCaMを提案する。 得られたモチーフ語彙は、分子モチーフ(頻繁な断片)だけでなく、それらの接続情報も含む。 マイニングされた接続対応モチーフに基づいて、MiCaMは接続対応ジェネレータを構築し、同時にモチーフをピックアップし、どのように接続されているかを決定する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 14:40:47 GMT)