L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Generating Adversarial Examples Robust to Round-Trip Translation

  • Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
    本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。 筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。 本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jul 2023 04:29:43 GMT)
  • 多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳(日→英→日のようにある言語を介して元の言語に戻す翻訳)下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
  • 「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
  • リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.

MultiRobustBench

  • MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
    機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 01:34:16 GMT)
  • あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
  • プロジェクトサイトはmultirobustbench.github.io

Med-PaLM Multimodal

  • Towards Generalist Biomedical AI [28.7]
    我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
    論文  参考訳(メタデータ)   (Wed, 26 Jul 2023 17:52:22 GMT)
  • マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
  • パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

EmoSet

  • EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
    EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 06:42:46 GMT)
  • 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
  • コードおよびデータは論文公開後に公開されるらしい

Auto-Tables

  • Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples [18.8]
    Auto-Tablesは、非リレーショナルテーブルを標準リレーショナルフォームに変換して、ダウンストリーム分析を行う。 評価の結果,Auto-Tables はテストケースの70%以上をインタラクティブな速度で変換できることがわかった。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 00:55:54 GMT)
  • 非リレーショナルなテーブルをRDBに変換する手法の提案。computer-vision inspired model architecture that exploits the common “visual” patterns in tables.ということでビジュアルを使っている点が興味深い(同様の分析をする際、人でも重要な情報源なのでうまくいきそうという気はする)

WebArena

  • WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
    エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 22:59:32 GMT)
  • Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
  • プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2

  • PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
    本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 15:28:29 GMT)
  • 大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool

  • FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
    より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。 大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 14:20:51 GMT)
  • 生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
  • LLMを用いてクレーム検出→クエリ作成(検索エンジン等の利用)→クエリー&エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
  • (今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。)
  • リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI