コンテンツへスキップ
- DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 17:50:40 GMT)
- Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 13:59:46 GMT)
- COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization [84.7]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。 COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 06:11:21 GMT)
- A Comprehensive Survey on Trustworthy Recommender Systems [32.5]
本稿では,信頼に値するレコメンダシステム (TRec) の概要について概説する。 それぞれの側面について、最近の技術についてまとめ、信頼性の高いレコメンデータシステムの実現を支援する研究の方向性について論じる。
論文 参考訳(メタデータ) (Wed, 21 Sep 2022 04:34:17 GMT)
- IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective [10.4]
本稿では,AutoMLの領域におけるモデル選択,チューニング,手順の更新において,既存の手法の見直しを行う。 我々の発見を正当化し、産業ユーザや研究者がAutoMLアプローチをよりうまく実装するのを助けるために、AutoMLをIoT異常検出問題に適用するケーススタディが実施されている。
論文 参考訳(メタデータ) (Fri, 16 Sep 2022 16:02:56 GMT)
- DRAMA: Joint Risk Localization and Captioning in Driving [23.1]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。 標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。 我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文 参考訳(メタデータ) (Thu, 22 Sep 2022 03:53:56 GMT)
- A Generalist Neural Algorithmic Learner [18.4]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。 マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文 参考訳(メタデータ) (Thu, 22 Sep 2022 16:41:33 GMT)- 古典的なアルゴリズム( sorting, searching, dynamic programming, path-finding, geometry)を学習可能なgeneralist model(Triplet-GMPNN)を提案、CLRSベンチマーク(下記)の結果を改善している。
- The CLRS Algorithmic Reasoning Benchmark [28.8]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。 本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。 我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (Tue, 31 May 2022 09:56:44 GMT) - deepmind/clrs (github.com)
- TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文 参考訳(メタデータ) (Fri, 16 Sep 2022 16:54:46 GMT)
- Prompting for a conversation: How to control a dialog model? [9.3]
ダイアログモデルは大量のテキストでトレーニングされるが、その応答はダイアログエージェントの望ましいスコープとスタイルに制限される必要がある。 前者を達成するために使用されるデータセットには後者と互換性のない言語が含まれているため、事前訓練されたダイアログモデルは、より小さなキュレートされたデータセットで微調整される。 本稿では,上記のトレードオフを緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (Thu, 22 Sep 2022 14:59:55 GMT)- 会話モデルに対するfine tuningの副作用とその緩和の話題。ケンブリッジ大学とAppleの共著で著者へのリファレンスがかわいい。
- リファレンスはおいておいて、dyamic-promptingという名称でテキストの多様性を生み出す能力を壊さずに特定タスクへの適応をあげている。
- Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (Tue, 20 Sep 2022 07:04:24 GMT)- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
- プロジェクトサイトはScienceQA