コンテンツへスキップ
- Responsible AI Pattern Catalogue: A Multivocal Literature Review [13.2]
MLR(Multivocal Literature Review)の結果に基づく応答性AIパターンカタログを提案する。 原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 00:00:06 GMT)- Responsible AIに関するサーベイ、よくまとまっており外部資料へのリンクが多いのがありがたい。
- PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 17:24:07 GMT)
- CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。 提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 05:47:02 GMT)
- OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。 従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。 我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (Thu, 15 Sep 2022 17:59:59 GMT)- 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。
- Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.3]
ラベル付きデータを必要とせず,比較的迅速かつ容易に本番環境に実装できる抽出型要約手法に注目した。そこで本稿では,これらの手法を用いて要約を生成し,客観的に評価することにより,実験的な比較を行った。 TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (Tue, 6 Sep 2022 13:16:02 GMT)- 複数の抽出型要約手法の比較。LEAD-7が良いという衝撃の結果だが、基本となる統計値が無いので何とも言えない。。。
- (この論文のfugumt.com的スコアが高いのはとても謎(summarization系だからかな))
- A Survey on Large-Population Systems and Scalable Multi-Agent Reinforcement Learning [18.9]
我々は、大規模人口システムを理解し分析するための現在のアプローチに光を当てる。 我々は,大規模制御の応用の可能性を調査し,実践システムにおける学習アルゴリズムの有能な将来的応用について検討する。
論文 参考訳(メタデータ) (Thu, 8 Sep 2022 14:58:50 GMT)- 非常に多くの対象がいるMulti-Agent Reinforcement Learning (MARL)のように大規模な参加者がいるシステムに関するサーベイ。
- A Survey on Generative Diffusion Model [75.5]
拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。 本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。 拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
論文 参考訳(メタデータ) (Tue, 6 Sep 2022 16:56:21 GMT)- 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ
- Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。 近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (Fri, 2 Sep 2022 02:59:10 GMT)
- Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
本稿では,チャットボットの毒性を定量的に測定する。 一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。 そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (Wed, 7 Sep 2022 20:45:41 GMT)- チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度(数%程度)の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。
- Petals: Collaborative Inference and Fine-tuning of Large Models [78.4]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。 BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。 我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petalsを提案する。
論文 参考訳(メタデータ) (Fri, 2 Sep 2022 17:38:03 GMT)
- GaitFi: Robust Device-Free Human Identification via WiFi and Vision Multimodal Learning [33.9]
本稿では,WiFi信号とビデオを利用したマルチモーダル歩行認識手法GaitFiを提案する。 GaitFiでは、WiFiのマルチパス伝搬を反映したチャネル状態情報(CSI)が収集され、人間の視線を捉え、ビデオはカメラによってキャプチャされる。 本稿では,ロバストな歩行情報を学習するために,バックボーンネットワークとして軽量残差畳み込みネットワーク(LRCN)を提案し,さらに2ストリームのGaitFiを提案する。 GaitFiが最先端の歩行認識より優れていることを示す実験が実世界で実施されている
論文 参考訳(メタデータ) (Tue, 30 Aug 2022 15:07:43 GMT)- Wifiの電波干渉情報とカメラの情報を併用した人の識別。2つの情報を融合することによって性能が上がっているのに驚き。
- センシング方法によって見え方が違っているという事なんだろうが理由が気になる。