staka – ページ 228 – arXiv最新論文の紹介

（DeepLearningな）手話生成に関するサーベイ

All You Need In Sign Language Production [50.4]
手話の認識と生成のためには、いくつかの重要な課題に対処する必要があります。本稿ではSLP（ Sign Language Production）のバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。
論文参考訳（メタデータ） (Thu, 6 Jan 2022 18:10:58 GMT)
- 深層学習を中心とした手話に関するサーベイ。その中でもSign Language Productionに焦点を当てており、題名の通り包括的なサーベイの印象。Sign Language Recognition (SLR)とSign Language Production (SLP)の問題の違いなどが参考になった。

TableParser: PDFや画像からの表構造解析

TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets [5.5]
本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
論文参考訳（メタデータ） (Wed, 5 Jan 2022 15:21:06 GMT)
- テーブル構造を解析するためのフレームワークの提案。アノテーションツールの提供など実利用しやすそうな印象。
- リポジトリはGitHub – DS3Lab/TableParser: Repo for “TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets” at SDU@AAAI-22

EKG(Event Knowledge Graph)に関するサーベイ

What is Event Knowledge Graph: A Survey [46.6]
本稿では、歴史、オントロジー、例、アプリケーションビューからイベントナレッジグラフ(EKG)を包括的に調査する。 EKGは、インテリジェント検索、質問回答、レコメンデーション、テキスト生成など、多くの機械学習および人工知能アプリケーションにおいて、ますます重要な役割を担っている。
論文参考訳（メタデータ） (Fri, 31 Dec 2021 03:42:55 GMT)
- イベントの概念を追加されたナレッジグラフに関するサーベイ。「イベント」ノードの追加、「イベント-イベント」と「イベント-エンティティ」の関係（エッジ）の追加がされ表現力が強化、検索等で重要な概念になることがサーベイされている。色々な取り組みがあってとても参考になる。

SimTSC(Similarity-Aware Time-Series Classification): GNN利用の時系列分類

Towards Similarity-Aware Time-Series Classification [51.2]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文参考訳（メタデータ） (Wed, 5 Jan 2022 02:14:57 GMT)
- 時系列分類をグラフノードの予測問題として解く方針の提案。実験結果からはラベルの数によっては優れた性能を発揮できているように見える。この手の問題はよく見かけるので選択肢の一つとして有望な気はする。
- リポジトリはGitHub – daochenzha/SimTSC: [SDM 2022] Towards Similarity-Aware Time-Series Classification

Speech-to-SQL: 音声からSQLクエリの作成

Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question [18.4]
音声による入力は、スマートフォンやタブレットの人気により、大きな勢いを増している。本稿では,構造化データデータベースを問合せするための,より効率的な音声インタフェースの設計について検討する。我々は,人間の音声を直接クエリーに変換するために,SpeechNetという新しいエンドツーエンドニューラルアーキテクチャを提案する。
論文参考訳（メタデータ） (Tue, 4 Jan 2022 15:38:36 GMT)
- 音声からSQLクエリを作成するという研究。音声認識を経ないので有用な点はあるのかもしれない。（がSQL作成が有効かは謎ではある）

Automated Graph Machine Learningのサーベイ

Automated Graph Machine Learning: Approaches, Libraries and Directions [81.2]
我々は、グラフ機械学習のためのHPO(hyper-parameter optimization)とNAS(neural architecture search)をカバーする自動グラフマシンアプローチについて論じる。当社の専用かつ世界初のグラフ機械学習のためのオープンソースライブラリであるAutoGLを紹介します。本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。
論文参考訳（メタデータ） (Tue, 4 Jan 2022 18:31:31 GMT)
- グラフ構造の機械学習にもAutoMLの波がきているよう（KDD CUP2020もこのテーマ）
- リポジトリはGitHub – THUMNLab/awesome-auto-graph-learning: A paper collection about automated graph learning、AutoGLはGitHub – THUMNLab/AutoGL: An autoML framework & toolkit for machine learning on graphs.

FS2K: 顔のスケッチ合成(FSS)問題のデータセットとベースライン

Deep Facial Synthesis: A New Challenge [76.0]
まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。第3に、FSGANという単純なFSSのベースラインを提示する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 31 Dec 2021 13:19:21 GMT)
- 2100以上のデータからなる顔のスケッチデータセット（性別等の属性付き）の紹介と広範囲な調査、ベースラインの提示。顔合成に関するサーベイとしても興味深い内容。
- リポジトリはGitHub – DengPingFan/FSGAN
  - 現時点ではColabのデモは動かなさそう。

AI/機械学習の実用に関する調査

Machine Learning Application Development: Practitioners’ Insights [18.1]
MLアプリケーション開発の課題とベストプラクティスを理解することを目的とした調査について報告する。 80人の実践者から得られた結果を17の発見にまとめ、MLアプリケーション開発の課題とベストプラクティスを概説する。報告された課題が、MLベースのアプリケーションのエンジニアリングプロセスと品質を改善するために調査すべきトピックについて、研究コミュニティに知らせてくれることを期待しています。
論文参考訳（メタデータ） (Fri, 31 Dec 2021 03:38:37 GMT)
- AI/機械学習の実用を行っている人へのアンケート結果の報告。周りの人がどのようなことをやっているのかを知るために参考になる。
- Findingsも（全部同意というわけではないが）納得のいく内容が多い。Finding 12の「roughly one-third of the practitioners write code from scratch for model implementation」はやや驚き。どこからがscratchなんだろう？「Practitioners also mentioned using their own custom auto-ML system for ML model training.」も納得感があって、私もGitHub – s-taka/fugumlを作っている。報告ではクラスバランスが重視されている印象があるが、個人的には不均衡データの取り扱いはドメインに強く依存するなーと思う。

DeepLearingによる数学の問題生成と解決

A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.4]
質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
論文参考訳（メタデータ） (Fri, 31 Dec 2021 18:57:31 GMT)
- （深層学習で解くのは難しいとされていた）数学の問題が事前学習済みモデル（Transformer）＋プログラミングタスクとしてのfine tuningで解けるとの報告。

RLD Dataset: 会話応答（表情）のビデオデータセット

Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (Mon, 27 Dec 2021 07:18:50 GMT)
- 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く（難しいと思われる）タスク。
- プロジェクトサイトはRLD Dataset (mhzhou.com)

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31