EmoSet

  • EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
    EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 06:42:46 GMT)
  • 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
  • コードおよびデータは論文公開後に公開されるらしい

Auto-Tables

  • Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples [18.8]
    Auto-Tablesは、非リレーショナルテーブルを標準リレーショナルフォームに変換して、ダウンストリーム分析を行う。 評価の結果,Auto-Tables はテストケースの70%以上をインタラクティブな速度で変換できることがわかった。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 00:55:54 GMT)
  • 非リレーショナルなテーブルをRDBに変換する手法の提案。computer-vision inspired model architecture that exploits the common “visual” patterns in tables.ということでビジュアルを使っている点が興味深い(同様の分析をする際、人でも重要な情報源なのでうまくいきそうという気はする)

WebArena

  • WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
    エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 22:59:32 GMT)
  • Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
  • プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2

  • PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
    本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 15:28:29 GMT)
  • 大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool

  • FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
    より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。 大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 14:20:51 GMT)
  • 生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
  • LLMを用いてクレーム検出→クエリ作成(検索エンジン等の利用)→クエリー&エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
  • (今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。)
  • リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI

Disco-Bench

  • Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
    本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:18:25 GMT)
  • 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
  • リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

  • The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
    ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 21:19:47 GMT)
  • 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

  • Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
    本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。 実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:11:01 GMT)
  • LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
  • リポジトリはGitHub – RUCAIBox/QuantizedEmpirical

FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets)

  • FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
    FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 14:56:35 GMT)
  • ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
  • 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
  • プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”

Amazon-M2

  • Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
    Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
    論文  参考訳(メタデータ)   (Wed, 19 Jul 2023 00:08:49 GMT)
  • Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
  • プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。