- “You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
論文 参考訳(メタデータ) (Tue, 18 Jun 2024 03:11:43 GMT) - LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
- 日本語で実行した場合どのようになるか興味がある。
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs
- UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.1]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。 本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 08:44:36 GMT) - ベースとなるLLMでコンテンツを圧縮、圧縮したコンテンツを使ってデコードすることで長文を取り扱うアプローチの提案。(前半と後半のつなぎに通常のテキストを使う例はよく見るのでモデル内で完結させられても不思議はないが、ちゃんと動作することに驚きがある)
- リポジトリはGitHub – wenhaoli-xmu/UIO-LLMs: Official implementation of UIO-LLMs
WildVision
- WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (Sun, 16 Jun 2024 20:53:25 GMT) - Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
- プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision
ViT-1.58b
- ViT-1.58b: Mobile Vision Transformers in the 1-bit Era [27.7]
本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。 CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 04:01:19 GMT) - 1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のViT版、「Our results show that ViT-1.58b achieves competitive accuracy on benchmarks like CIFAR10 and ImageNet-1k with significantly lower resource requirements.」とViTでも良い結果らしい。
- リポジトリはGitHub – DLYuanGod/ViT-1.58b
Evaluating Copyright Takedown Methods for Language Models
- Evaluating Copyright Takedown Methods for Language Models [100.4]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 18:09:46 GMT) - 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
- リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models
Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
- Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 17:49:25 GMT) - Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
- リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.8]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。 この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 17:58:52 GMT) - 画像編集に関するサーベイ、引用数が300を超える包括的内容、GitHub – xinchengshuai/Awesome-Image-Editingとリポジトリも公開されている。
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
- OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。 本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
論文 参考訳(メタデータ) (Mon, 24 Jun 2024 16:31:12 GMT) - 最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
- リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”
Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track
- Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.3]
RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。 TREC 2024 RAG Trackを提案する。
論文 参考訳(メタデータ) (Mon, 24 Jun 2024 17:37:52 GMT) - すごい名前のRAG評価用ベンチマーク・フレームワーク
- リポジトリはGitHub – castorini/ragnarok: Retrieval-Augmented Generation battle!
Gemma2, CriticGPT
Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう
いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)
OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI