映画での対話のバイアスデータセット

  • Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues [20.2]
    映画に登場する社会的偏見やステレオタイプは、リーチによって大きなダメージを与える可能性がある。 同一性バイアスに注釈を付けた映画脚本のデータセットを新たに導入する。 データセットには、(i) バイアスラベルに、性別、人種/民族、宗教、年齢、職業、LGBTQ、その他の7つのカテゴリのダイアログがアノテートされている。
    論文  参考訳(メタデータ)   (Wed, 1 Jun 2022 05:43:53 GMT)
    • 映画内の対話における偏見などバイアスをアノテーションしたデータセットの提案。35の映画における対話をアノテーションし、49117文のうちバイアスは1181文に存在したとのこと。
    • リポジトリはGitHub – sahoonihar/HIBD_LREC_2022

MentSum: Mental Health Summarization dataset

  • MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
    メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 03:08:34 GMT)
    • オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
    • データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

CogVideo: テキストからのビデオ生成

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
    大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 19:02:15 GMT)
    • テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
    • リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

より効率的なDataset Condensation

  • Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
    大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 05:45:02 GMT)

CoNT: Contrastive Neural Text Generation

  • CoNT: Contrastive Neural Text Generation [83.1]
    対照的なニューラルテキスト生成フレームワークであるCoNTが紹介される。 CoNTは、コントラスト学習が生成タスクで広く採用されるのを防ぐボトルネックに対処する。 我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5つの生成タスクで検証する。CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 15:18:37 GMT)

EfficientFormer

  • EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
    Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。 近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 17:51:03 GMT)
    • MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
    • EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機(iPhone 12)で計測されているのも重要だと思う。
      • 「We conclude that nonlinearity should be determined on a case-by-case basis given specific hardware and compiler at hand.」ですよねー

EDA for data summarization

  • Guided Exploration of Data Summaries [24.2]
    有用な要約は k 個の単体一様集合を含み、それらは集合的に多様であり、代表的である。 このような要約を見つけることは、データが非常に多様で大規模な場合、難しい作業である。 本研究では,データ要約への探索データ解析(EDA)の適用性について検討し,Eda4Sumを定式化する。
    論文  参考訳(メタデータ)   (Fri, 27 May 2022 13:06:27 GMT)

Text2Human: テキストからの人の画像生成

TSTR: Too Short to Represent 細部を含んだ要約

  • TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
    科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。 本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 02:45:31 GMT)
    • 論文等のAbstractを併用(論文全体からAbstractに含まれる文を探索)することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP

  • Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
    キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。 我々は多言語キーフレーズ生成という新しい設定に注意を払っている。 非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
    論文  参考訳(メタデータ)   (Sat, 21 May 2022 00:45:21 GMT)
    • マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
    • 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
    • リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。