arXiv – ページ 118 – arXiv最新論文の紹介

Democratizing Machine Translation with OPUS-MT

Democratizing Machine Translation with OPUS-MT [56.2]
本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
論文参考訳（メタデータ） (Sun, 4 Dec 2022 22:16:27 GMT)
OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。（FuguMT 英語→日本語、日本語→英語、多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている）

CREPE: CorREction of PrEsupposition

CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文参考訳（メタデータ） (Wed, 30 Nov 2022 18:54:49 GMT)
前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論（訂正）せねばならず面白い。
リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)

FLIP: Fast Language-Image Pre-trainingFLIP

Scaling Language-Image Pre-training via Masking [63.4]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 18:59:57 GMT)
学習時に画像パッチの一部をマスクすることで高速に学習ができるとの報告、CLIPより優れた結果だったのこと。
50%、75%という高いマスク比で高速に学習ができるのはそんな気はするが、性能が落ちていなさそう（一部は勝っている）なのが凄い。

DiffusionBERT

DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.8]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (Wed, 30 Nov 2022 15:41:24 GMT)
NLPにもDiffusion Model
リポジトリはHzfinfdu/Diffusion-BERT: Implementation of DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models (github.com)

X-Prompt: eXtensible Prompt

Extensible Prompts for Language Models [88.2]
我々は、自然言語(NL)を超えた大規模言語モデル(LLM)を促進するためのX-Promptを提案する。 X-Prompt は、NL だけでなく、NL の言葉がほとんど説明できないものを表す架空の単語の記述語彙も LLM に指示する。 X-Promptの有望な結果は、コミュニケーションギャップを埋めるために人間とLLMの高度な相互作用に近づく可能性を示している。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 16:11:56 GMT)
自然言語で表現できないものを扱えるよう拡張したプロンプトの提案。
何かをシャープに表すことができるのは有効そう。引用されている通り、Fugu-MT 論文翻訳(概要): An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (fugumt.com)に近そう
プロジェクトサイトはmicrosoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)

BARTSmiles

BARTSmiles: Generative Masked Language Models for Molecular Representations [10.0]
BARTSmilesは、従来の自己制御分子表現よりも桁違いに計算量の多いBARTライクなモデルである。詳細な評価では、BARTSmilesは分類、回帰、生成タスクにまたがる他の自己監督的表現を一貫して上回っている。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 16:30:53 GMT)
化学分野におけるBARTの利用、言語モデルが有効なものが面白い。
リポジトリはYerevaNN/BARTSmiles: BARTSmiles, generative masked language model for molecular representations (github.com)

VectorFusion

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文参考訳（メタデータ） (Mon, 21 Nov 2022 10:04:27 GMT)
Text-to-SVGの研究、Diffusion Modelは本当に強力。
プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)

On the Security Vulnerabilities of Text-to-SQL Models

On the Security Vulnerabilities of Text-to-SQL Models [25.3]
2つの商用ブラックボックスのText-to-sqlモジュールは悪意のあるコードを生成するために操作可能であることを示す。これは、NLPモデルが野生における攻撃防御として利用される危険性の初めての実証である。
論文参考訳（メタデータ） (Mon, 28 Nov 2022 14:38:45 GMT)
Text-to-SQLモデルに対する攻撃、一定の対策がなされた商用にシステムに対しても攻撃が成功できているのが興味深い。

Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement

Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.1]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文参考訳（メタデータ） (Sat, 19 Nov 2022 07:50:34 GMT)
水中画像の画像処理
リポジトリはwdhudiekou/STSC: Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement (github.com)

Long-Document Cross-Lingual Summarization

Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 15:24:16 GMT)
長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
ｍBART＋LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31