コンテンツへスキップ
- Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:54:59 GMT)- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。
- Video Question Answering: Datasets, Algorithms and Challenges [99.9]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 2 Mar 2022 16:34:09 GMT)- Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。
- Transformers in Medical Image Analysis: A Review [46.7]
本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。 具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。 第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 24 Feb 2022 16:04:03 GMT)- 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題(parallelization, interpretability, quantification and safetyが挙げられている)に焦点を当てたものは少ないとのこと。
- A Review of Affective Generation Models [8.0]
アフェクティブ・コンピューティング(Affective Computing)は、人間の感情状態を分析し、認識し、影響を及ぼす計算システムを開発する分野である。 一般に、感情認識と感情生成の2つのサブプロブレムに分けられる。感情認識は過去10年間に何回もレビューされてきた。 しかし、感情生成は批判的なレビューを欠いている。 この研究は、将来の感情発生の研究に役立つと考えられている。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 22 Feb 2022 09:32:11 GMT)- 感情生成に関するサーベイ。感情を伴うテキスト、音声、表情、動きの生成について扱っている。
- 分かったような分からないような・・・という感想だが、様々なトライがあり興味深い。
- A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 18 Feb 2022 13:50:44 GMT)- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
- ただ、MMDLという略称はあまり見ないような・・・
- Survey on Large Scale Neural Network Training [48.4]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。 この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 18:48:02 GMT)- 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。
- VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。 本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 02:58:34 GMT)- image-text、video-textに対するVLP(VisionLanguage Pre-training)に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。
- Seeing Like a Toolkit: How Toolkits Envision the Work of AI Ethics [27.0]
我々は27のAI倫理ツールキットの質的分析を行い、倫理の作業がどのように想像され、これらのツールキットによってどのように支援されるかを調べる。 AI倫理ツールキットは、AI倫理の作業が個々の技術実践者にとって技術的作業である、という枠組みがほとんどである。 倫理的な作業を行う上で,組織的な力のダイナミクスをナビゲートする方法に関するガイダンスの欠如を特定します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 17 Feb 2022 17:55:26 GMT)- AI Ethicsに関するツールが27個もあることに驚きつつ、技術的でない部分のサポートが不十分であるとの指摘は「そうだよね」という感想。
- AI倫理のツールキットは「技術的でない面をサポート」し「技術者でない人をサポートし」、「集団行動としてAI倫理活動をサポート」すべきという指摘は重要。この手の話題は視点が多岐にわたるため技術者が全てをカバーするのは無理で、様々なバックグラウンドを持つ人の協同が必須。
- Measuring “Why” in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation [87.8]
説明可能な推奨の根本的な問題は、説明を評価する方法である。 近年,様々な評価手法が提案されている。 しかし、それらは異なる論文に散在しており、体系的かつ詳細な比較が欠けている。 このギャップを埋めるために,本稿では,過去の研究を包括的にレビューし,評価の観点や評価方法によって異なる分類法を提供する。この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 14 Feb 2022 02:58:55 GMT)- 重要性が増しているレコメンデーションにおけるXAIでどのような評価がされされているかを整理した論文。9ページと短めのサーベイ。
- Towards a consistent interpretation of AIOps models [24.2]
内部整合性,外部整合性,時間整合性という,AIOpsモデルの解釈の整合性について検討する。 学習者からのランダム性、ハイパーパラメータチューニング、データサンプリングは、一貫した解釈を生成するために制御されるべきである。 我々の研究は、実践者が一貫したAIOpsモデルの解釈を引き出すための貴重なガイドラインを提供する。
論文 参考訳(メタデータ) (Fri, 4 Feb 2022 18:33:14 GMT)- AI Opsと解釈性に関する論文、興味深いサーベイ