OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

Affective Generation Modelのサーベイ

  • A Review of Affective Generation Models [8.0]
    アフェクティブ・コンピューティング(Affective Computing)は、人間の感情状態を分析し、認識し、影響を及ぼす計算システムを開発する分野である。 一般に、感情認識と感情生成の2つのサブプロブレムに分けられる。感情認識は過去10年間に何回もレビューされてきた。 しかし、感情生成は批判的なレビューを欠いている。 この研究は、将来の感情発生の研究に役立つと考えられている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Feb 2022 09:32:11 GMT)
    • 感情生成に関するサーベイ。感情を伴うテキスト、音声、表情、動きの生成について扱っている。
      • 分かったような分からないような・・・という感想だが、様々なトライがあり興味深い。

SLOGAN: GANを用いた手書き画像の合成

  • SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text [35.8]
    本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。 我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。 本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 23 Feb 2022 12:13:27 GMT)
    • 特定の手書きスタイルを表現するベクトルを抽出、未知語に対してもそれっぽいテキスト画像を合成できるという報告。
      • 面白い結果であると同時に偽造とかに使えそうで怖い。。。

Debugging Differential Privacy: 差分プライバシーアルゴリズム実装の監査

  • Debugging Differential Privacy: A Case Study for Privacy Auditing [60.9]
    監査は、差分プライベートなスキームの欠陥を見つけるためにも利用できることを示す。 このケーススタディでは、差分プライベートなディープラーニングアルゴリズムの最近のオープンソース実装を監査し、99.9999999999%の信頼を得て、この実装が要求される差分プライバシー保証を満たさないことを発見した。
    論文  参考訳(メタデータ)   (Thu, 24 Feb 2022 17:31:08 GMT)
    • オープンソースの差分プライバシー実装を監査し、(おそらく)問題があることを示した報告。
    • 「while producing correct proofs is a necessary prerequisite to training private machine learning models, it is important to also get all the subtleties right.」という指摘が重要で、セキュリティにとっては細部が重要。

JParaCrawl v3.0: 日英パラレルコーパス

  • JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
    本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
    論文  参考訳(メタデータ)   (Fri, 25 Feb 2022 10:52:00 GMT)
    • JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
      • 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
    • プロジェクトサイトはJParaCrawl (ntt.co.jp)

HiP (Hierarchical Perceiver)

  • Hierarchical Perceiver [99.3]
    Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。 これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Feb 2022 13:39:14 GMT)
    • DeepMindのPerceiverに関する論文。フラット化(一定レベルでの局所性の保存)+チャンク分割が重要のように読めるが、マルチモーダル・前処理不要で強力な性能を維持しながら画像系処理の性能を改善というのは本当だろうか。。。

UniPrompt: 多言語統一的なプロンプトモデル

  • Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt [98.3]
    我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。 統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。 提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
    論文  参考訳(メタデータ)   (Wed, 23 Feb 2022 11:57:52 GMT)
    • template towerとcontext towerを分けmultilingual PLMの下層レイヤーで初期化、それを融合するtowerは同上層レイヤーで初期化、label wordを言語に依存しない形で初期化するアプローチとのこと。
      • なぜこれでうまくいくのか納得しかねるが、結果は有望に見える。
    • コード、データともに公開予定の事だが、現状ではリンクが見つからなかった。

Multimodal Deep Learningのサーベイ

  • A Review on Methods and Applications in Multimodal Deep Learning [8.2]
    マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Feb 2022 13:50:44 GMT)
    • 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
      • ただ、MMDLという略称はあまり見ないような・・・

Sparse Expert Modelの効率的設計

  • Designing Effective Sparse Expert Models [45.2]
    MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
    論文  参考訳(メタデータ)   (Thu, 17 Feb 2022 21:39:10 GMT)