コンテンツへスキップ
- MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 01:34:16 GMT)
- あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
- プロジェクトサイトはmultirobustbench.github.io
- Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (Wed, 26 Jul 2023 17:52:22 GMT)
- マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
- パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。
- EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 06:42:46 GMT)
- 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
- コードおよびデータは論文公開後に公開されるらしい
- Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples [18.8]
Auto-Tablesは、非リレーショナルテーブルを標準リレーショナルフォームに変換して、ダウンストリーム分析を行う。 評価の結果,Auto-Tables はテストケースの70%以上をインタラクティブな速度で変換できることがわかった。
論文 参考訳(メタデータ) (Thu, 27 Jul 2023 00:55:54 GMT)
- 非リレーショナルなテーブルをRDBに変換する手法の提案。computer-vision inspired model architecture that exploits the common “visual” patterns in tables.ということでビジュアルを使っている点が興味深い(同様の分析をする際、人でも重要な情報源なのでうまくいきそうという気はする)
- WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (Tue, 25 Jul 2023 22:59:32 GMT)
- Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
- プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents
- PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文 参考訳(メタデータ) (Thu, 27 Jul 2023 15:28:29 GMT)
- 大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上
- FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。 大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (Tue, 25 Jul 2023 14:20:51 GMT)
- 生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
- LLMを用いてクレーム検出→クエリ作成(検索エンジン等の利用)→クエリー&エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
- (今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。)
- リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:18:25 GMT)
- 9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
- リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404
- The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 21:19:47 GMT)
- 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。
- Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。 実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 15:11:01 GMT)
- LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
- リポジトリはGitHub – RUCAIBox/QuantizedEmpirical