Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)

CREPE: CorREction of PrEsupposition

  • CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
    オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
    論文  参考訳(メタデータ)   (Wed, 30 Nov 2022 18:54:49 GMT)
  • 前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
  • 当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論(訂正)せねばならず面白い。
  • リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)

FLIP: Fast Language-Image Pre-trainingFLIP

  • Scaling Language-Image Pre-training via Masking [63.4]
    高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。 マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 18:59:57 GMT)
  • 学習時に画像パッチの一部をマスクすることで高速に学習ができるとの報告、CLIPより優れた結果だったのこと。
  • 50%、75%という高いマスク比で高速に学習ができるのはそんな気はするが、性能が落ちていなさそう(一部は勝っている)なのが凄い。

DiffusionBERT

X-Prompt: eXtensible Prompt

BARTSmiles

VectorFusion

  • VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
    画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。 近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。 実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 10:04:27 GMT)
  • Text-to-SVGの研究、Diffusion Modelは本当に強力。
  • プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)

On the Security Vulnerabilities of Text-to-SQL Models 

  • On the Security Vulnerabilities of Text-to-SQL Models [25.3]
    2つの商用ブラックボックスのText-to-sqlモジュールは悪意のあるコードを生成するために操作可能であることを示す。 これは、NLPモデルが野生における攻撃防御として利用される危険性の初めての実証である。
    論文  参考訳(メタデータ)   (Mon, 28 Nov 2022 14:38:45 GMT)
  • Text-to-SQLモデルに対する攻撃、一定の対策がなされた商用にシステムに対しても攻撃が成功できているのが興味深い。

Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement

  • Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.1]
    水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。 我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。 また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
    論文  参考訳(メタデータ)   (Sat, 19 Nov 2022 07:50:34 GMT)
  • 水中画像の画像処理
  • リポジトリはwdhudiekou/STSC: Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement (github.com)

Long-Document Cross-Lingual Summarization

  • Long-Document Cross-Lingual Summarization [15.8]
    言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 15:24:16 GMT)
  • 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
  • mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…