コンテンツへスキップ
- OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
論文 参考訳(メタデータ) (Mon, 1 Aug 2022 15:19:25 GMT)
- Neural Knowledge Bank for Pretrained Transformers [20.4]
本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。 知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
論文 参考訳(メタデータ) (Sun, 31 Jul 2022 09:14:34 GMT)- Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。
- MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
大規模複合感情データベースMAFWを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文 参考訳(メタデータ) (Mon, 1 Aug 2022 13:34:33 GMT)
- An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。 ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。 一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文 参考訳(メタデータ) (Tue, 2 Aug 2022 17:50:36 GMT)
- Efficient Long-Text Understanding with Short-Text Models [38.8]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文 参考訳(メタデータ) (Mon, 1 Aug 2022 11:14:39 GMT)
- CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。 年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。 その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
論文 参考訳(メタデータ) (Mon, 25 Jul 2022 17:57:07 GMT)
- Multiface: A Dataset for Neural Face Rendering [108.4]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。 顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (Fri, 22 Jul 2022 17:55:39 GMT)
- Towards Clear Expectations for Uncertainty Estimation [64.2]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。 この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (Wed, 27 Jul 2022 07:50:57 GMT)- Uncertainty Estimation はとても重要な要素であり、その評価を行った論文
- ではあるが、消化不良感がある。論文でも指摘されているが不確実性をうまく評価できるベンチマークの開発が必要そう
- Algorithmic Fairness in Business Analytics: Directions for Research and Practice [24.3]
本稿では,アルゴリズムフェアネスの先見的,BAに着目したレビューを行う。 まず、バイアスの源泉と測定方法、およびバイアス緩和アルゴリズムに関する最先端の研究について概説する。 次に、ユーティリティ・フェアネスの関係について詳細な議論を行い、これらの2つの構成要素間のトレードオフの頻繁な仮定は、しばしば間違いまたは近視的であることを強調した。
論文 参考訳(メタデータ) (Fri, 22 Jul 2022 10:21:38 GMT)- よくあるFairnessのサーベイではあるが、最近の状況・事例や様々な見方を知るために参考になる。
- Causal Fairness Analysis [68.1]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。 我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。 本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (Sat, 23 Jul 2022 01:06:34 GMT)- 意思決定における公平性の問題をモデル化、100ページ超と教科書並みの記載がある。
- Satellite Image Based Cross-view Localization for Autonomous Vehicle [78.7]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。 従来の方法では、このタスクを画像検索、すなわち、車両が捉えた地上画像と衛星画像とのマッチングとしてのみ扱う。本稿では,画像検索の共通知識から外れた,新しいクロスビュー定位手法を提案する。 具体的には,(1)地上の視界と頭上の視界の間の幾何学的ギャップを埋めるために計測された3次元点を利用した幾何学的特徴抽出器 (GaFE) ,(2) 姿勢認識特徴抽出を促進するために三重項損失を適用したPose Aware Branch (PAB) ,(3) レバンス・マルカルト (LM) アルゴリズムを用いたRecursive Pose Refine Branch (RPRB) を開発し,実際の車両に対する最初のポーズを反復的に調整する。
論文 参考訳(メタデータ) (Wed, 27 Jul 2022 13:16:39 GMT)- GPSだけでは不十分な用途・場所では位置(+角度など)の推定(Localization)に画像を用いることは一般的に行われている。Localizationを衛星画像を活用して高精度に行う手法を提案。