コンテンツへスキップ
- Multilingual Trolley Problems for Language Models [138.1]
この研究は、「道徳機械実験」という人間の道徳的嗜好に関する大規模横断的な研究から着想を得たものである。 大規模な言語モデル(LLM)は、英語、韓国語、ハンガリー語、中国語などの言語では人間の好みと一致しているが、ヒンディー語やソマリ語(アフリカ)のような言語では一致していないことを示す。 また, LLMが道徳的選択に与える説明を特徴付けるとともに, GPT-3によるGPT-4の決定と実用主義の裏側において, 公平性が最も有力であることを示す。
論文 参考訳(メタデータ) (Tue, 02 Jul 2024 14:02:53 GMT)
- トロッコ問題のような道徳的なジレンマを含む問題を多数の言語に翻訳し、LLMの回答と人間の回答を比較した論文。「We discover that LLMs are more aligned with human preferences in languages such as English, Korean, Hungarian, and Chinese, but less aligned in languages such as Hindi and Somali (in Africa).」とのことで言語間の差異は気になるところ。また、「Moreover, we characterize the explanations LLMs give for their moral choices and find that fairness is the most dominant supporting reason behind GPT-4’s decisions and utilitarianism by GPT-3.」は面白い結果。LLMの規模によるものか、アライメントの方針が変わったのか、興味がある。
- リポジトリはGitHub – causalNLP/moralmachine
- LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 14:56:13 GMT)
- よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
- リポジトリはGitHub – dmg-illc/JUDGE-BENCH
- Text-Animator: Controllable Visual Text Video Generation [149.9]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:59:41 GMT)
- 文字が入ったアニメ動画を生成する研究、通常の位置制御とカメラの位置制御も可能とのこと。短い動画ではあるがテキストの保持が綺麗にできておりすごい。
- プロジェクトサイトはText-Animator (laulampaul.github.io)
- LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.5]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。 本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。 私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (Mon, 24 Jun 2024 01:30:22 GMT)
- LLMが研究者を支援できるかどうか、レビュワー・メタレビュワーの観点で試行した論文
- 結論として「Our analysis reveals that while LLMs can generate reviews, they often produce Deficient and paper-unspecific segments, lacking the diversity and constructive feedbacks.Additionally, even state-of-the-art LLMs struggle to assess review deficiencies effectively.」
- “You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
論文 参考訳(メタデータ) (Tue, 18 Jun 2024 03:11:43 GMT)
- LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
- 日本語で実行した場合どのようになるか興味がある。
- UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.1]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。 本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 08:44:36 GMT)
- ベースとなるLLMでコンテンツを圧縮、圧縮したコンテンツを使ってデコードすることで長文を取り扱うアプローチの提案。(前半と後半のつなぎに通常のテキストを使う例はよく見るのでモデル内で完結させられても不思議はないが、ちゃんと動作することに驚きがある)
- リポジトリはGitHub – wenhaoli-xmu/UIO-LLMs: Official implementation of UIO-LLMs
- WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (Sun, 16 Jun 2024 20:53:25 GMT)
- Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
- プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision
- ViT-1.58b: Mobile Vision Transformers in the 1-bit Era [27.7]
本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。 CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 04:01:19 GMT)
- 1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のViT版、「Our results show that ViT-1.58b achieves competitive accuracy on benchmarks like CIFAR10 and ImageNet-1k with significantly lower resource requirements.」とViTでも良い結果らしい。
- リポジトリはGitHub – DLYuanGod/ViT-1.58b
- Evaluating Copyright Takedown Methods for Language Models [100.4]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 18:09:46 GMT)
- 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
- リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models
- Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 17:49:25 GMT)
- Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
- リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.