コンテンツへスキップ
- When Creators Meet the Metaverse: A Survey on Computational Arts [19.4]
本論では, 仮想現実をブレンドした新しいアートワークについて, 計算芸術に関する包括的調査を行う。 メタバースサイバースペースの拡張された地平線における斬新な創造のいくつかの顕著なタイプが反映されている。 計算芸術の民主化,デジタルプライバシ,メタバースアーティストの安全,デジタルアートの所有権認識,技術的課題など,いくつかの研究課題を提案する。
論文 参考訳(メタデータ) (Fri, 26 Nov 2021 13:24:37 GMT)- 仮想現実とアートに関するサーベイ。読み物としても非常に面白く刺激的。
- Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (Mon, 29 Nov 2021 18:59:03 GMT)
- Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。 本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文 参考訳(メタデータ) (Fri, 26 Nov 2021 18:33:59 GMT)- 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
- 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。
- Towards Inter-class and Intra-class Imbalance in Class-imbalanced Learning [24.0]
不均衡学習(IL)は、データマイニングアプリケーションに広く存在する重要な問題である。 本稿では,多目的アンサンブル学習フレームワークである Duple-Balanced Ensemble について述べる。 一般的な手法とは異なり、DUBEは、重い距離ベースの計算に頼ることなく、クラス間およびクラス内バランスに直接対処する。
論文 参考訳(メタデータ) (Wed, 24 Nov 2021 20:50:54 GMT)
- PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (Thu, 25 Nov 2021 10:01:05 GMT)- パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
- Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。
- Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 [46.6]
Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。 参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。 データセットには世界最大のロシア語手書きデータセットを含む。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 03:46:52 GMT)- C2C(Code2code Translation)、HTR(Handwritten Text Recognition), zsOD(Zero-shot Object Detection) , VQA(Visual Question Answering)に対して有効なマルチモーダルなアーキテクチャを作れるか?のコンペティション。データセットが複数用意されており、そのデータも重要。
- Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。 近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。 本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 24 Nov 2021 06:18:32 GMT)- 近しいデータ(鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど)をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット(サブセット)を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
- 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。
- TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。 データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。 また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 14:13:51 GMT)
- PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (Wed, 24 Nov 2021 18:59:58 GMT)
- PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 18:57:11 GMT)