WebArena

  • WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
    エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 22:59:32 GMT)
  • Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
  • プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2

  • PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
    本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 15:28:29 GMT)
  • 大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool

  • FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
    より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。 大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 14:20:51 GMT)
  • 生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
  • LLMを用いてクレーム検出→クエリ作成(検索エンジン等の利用)→クエリー&エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
  • (今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。)
  • リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI

Disco-Bench

  • Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
    本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:18:25 GMT)
  • 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
  • リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

  • The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
    ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 21:19:47 GMT)
  • 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

  • Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
    本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。 実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:11:01 GMT)
  • LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
  • リポジトリはGitHub – RUCAIBox/QuantizedEmpirical

FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets)

  • FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
    FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 14:56:35 GMT)
  • ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
  • 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
  • プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”

Amazon-M2

  • Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
    Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
    論文  参考訳(メタデータ)   (Wed, 19 Jul 2023 00:08:49 GMT)
  • Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
  • プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。

InternVid

  • InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
    InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 17:58:32 GMT)
  • ビデオ-テキストのマルチモーダルデータセット
  • リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub

RetNet: Retentive Network

  • Retentive Network: A Successor to Transformer for Large Language Models [91.7]
    大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論的には、再発と注意の関係を導出する。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 16:40:01 GMT)
  • Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)