論文探索システム

  • Augmenting Scientific Creativity with Retrieval across Knowledge Domains [31.7]
    論文要約から,エンドユーザが関心のあるテキストコアの一部を選択できる探索検索システムを開発した。 研究者らによるケーススタディは、クロスドメイン探索とインスピレーションを促進することを目的としたシステムにおける機会と設計の意味を明らかにする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 22:55:51 GMT)

スポーツの映像行動認識のサーベイ

  • A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications [60.3]
    本稿では,スポーツ分析のための映像行動認識に関する調査を行う。 サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。 本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 13:19:36 GMT)
    • スポーツへのAI応用の面からも興味深いサーベイ。

映画での対話のバイアスデータセット

  • Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues [20.2]
    映画に登場する社会的偏見やステレオタイプは、リーチによって大きなダメージを与える可能性がある。 同一性バイアスに注釈を付けた映画脚本のデータセットを新たに導入する。 データセットには、(i) バイアスラベルに、性別、人種/民族、宗教、年齢、職業、LGBTQ、その他の7つのカテゴリのダイアログがアノテートされている。
    論文  参考訳(メタデータ)   (Wed, 1 Jun 2022 05:43:53 GMT)
    • 映画内の対話における偏見などバイアスをアノテーションしたデータセットの提案。35の映画における対話をアノテーションし、49117文のうちバイアスは1181文に存在したとのこと。
    • リポジトリはGitHub – sahoonihar/HIBD_LREC_2022

MentSum: Mental Health Summarization dataset

  • MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
    メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 03:08:34 GMT)
    • オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
    • データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

CogVideo: テキストからのビデオ生成

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
    大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 19:02:15 GMT)
    • テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
    • リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

より効率的なDataset Condensation

  • Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
    大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 05:45:02 GMT)

CoNT: Contrastive Neural Text Generation

  • CoNT: Contrastive Neural Text Generation [83.1]
    対照的なニューラルテキスト生成フレームワークであるCoNTが紹介される。 CoNTは、コントラスト学習が生成タスクで広く採用されるのを防ぐボトルネックに対処する。 我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5つの生成タスクで検証する。CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 15:18:37 GMT)

EfficientFormer

  • EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
    Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。 近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 17:51:03 GMT)
    • MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
    • EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機(iPhone 12)で計測されているのも重要だと思う。
      • 「We conclude that nonlinearity should be determined on a case-by-case basis given specific hardware and compiler at hand.」ですよねー

EDA for data summarization

  • Guided Exploration of Data Summaries [24.2]
    有用な要約は k 個の単体一様集合を含み、それらは集合的に多様であり、代表的である。 このような要約を見つけることは、データが非常に多様で大規模な場合、難しい作業である。 本研究では,データ要約への探索データ解析(EDA)の適用性について検討し,Eda4Sumを定式化する。
    論文  参考訳(メタデータ)   (Fri, 27 May 2022 13:06:27 GMT)

Text2Human: テキストからの人の画像生成