2022年8月24日 – arXiv最新論文の紹介

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (Sun, 14 Aug 2022 04:07:40 GMT)
- 調理手順のようなインストラクション用動画のテキスト要約に関する研究。ハンドラベリングが困難な状況を想定しており、疑似的なラベルを利用するなど面白いアプローチを取っている。
- リポジトリはTL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency (medhini.github.io)

Neural Embeddings for Text [14.1]
本稿では,意味的意味を深く表現する自然言語テキストの埋め込みについて提案する。この方法では、言語モデルにテキストから学習させ、文字通りその脳を選択して、モデルのニューロンの実際の重みを取り、ベクトルを生成する。ニューラルネットワークの埋め込みとGPT文の埋め込みを比較した。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 16:26:13 GMT)
- 新たなテキストの埋め込み手法提案。複数のレイヤーの重みを処理することが特徴のよう。通常の手法にはない側面を捉えられていそうな雰囲気はあるが、差が大きいかは微妙なところ。
- リポジトリはprimer-research/neural_embeddings at main · PrimerAI/primer-research (github.com)

日: 2022年8月24日