- A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges [35.9]
マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
論文 参考訳(メタデータ) (Tue, 21 May 2024 10:34:47 GMT) - マルチモーダルな機械翻訳に関するサーベイ。研究が続いてきた分野ではあるがMLLMの影響を大きく受けそうな雰囲気(サーベイにも言及はある)
タグ: 機械翻訳
GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators
- GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.5]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。 我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文 参考訳(メタデータ) (Thu, 16 May 2024 13:17:05 GMT) - LLMを用いて複数の訳文候補を組み合わせることで高品質な翻訳をしようという論文。fine tuning用のデータセットHypoTranslate(PeacefulData/HypoTranslate · Datasets at Hugging Face)も公開している。
- リポジトリはGitHub – YUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators”
m3P: Multimodal Multilingual neural Machine Translation
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (Tue, 26 Mar 2024 10:04:24 GMT) - 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
- データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face
Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions
- Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [53.0]
LINGOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (Wed, 28 Feb 2024 03:44:01 GMT) - 形態素解析した結果と単語単位の辞書情報をLLMに入れることで未知の言語の翻訳ができたという論文。Geminiの事例を彷彿とさせ、LLMの指示理解力&高い言語能力が興味深い。
- リポジトリはLLiLab/llm4endangeredlang (github.com)
GenTranslate
- GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [47.8]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。 我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文 参考訳(メタデータ) (Sat, 10 Feb 2024 07:20:49 GMT) - LLMを用いたN-best翻訳結果の統合。なるほどという感じ。併せてLLM finetuningで利用可能なデータセットであるHypoTranslate もリリースしている。
- リポジトリはYUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators” (github.com)
ACES: Translation Accuracy ChallengE Set
- Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
ACESは146の言語ペアにまたがる対照的な課題セットです。 このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。 我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (Mon, 29 Jan 2024 17:17:42 GMT) - 機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
- リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)
Adapting Large Language Models for Document-Level Machine Translation
- Adapting Large Language Models for Document-Level Machine Translation [49.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 09:29:13 GMT) - LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
- 「We find that the PEFT approach yields superior overall performance compared to the FFT approach」(ただしFFTのほうがデータ効率は高いとのこと)がとても興味深い
Machine Translation Models are Zero-Shot Detectors of Translation Direction
- Machine Translation Models are Zero-Shot Detectors of Translation Direction [52.2]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。 本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,p(texttranslation|text Origin)>p(textgenic|texttranslation)という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 18:59:02 GMT) - ある言語の文とそこからある言語に翻訳されれた文があったとき、翻訳の方向を検出する手法の提案。とてもシンプルな仮定だがうまくいくよう。(言語的に遠い場合でも大丈夫なのかは興味がある)
- リポジトリはZurichNLP/translation-direction-detection: Unsupervised translation direction detection using NMT systems (github.com)
Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models
- Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models [47.4]
本稿では,多言語大言語モデル(LLM)の多言語多言語翻訳性能の向上に焦点をあてる。 言語間整合性正規化(XConST)を導入し、異なる言語間の表現ギャップを埋め、ゼロショット変換性能を向上させる。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 12:11:30 GMT) - 多対多の機械翻訳性能を上げる正規化の活用。zero shotでの性能が大きく上がっている。
- リポジトリはgpengzhi/CrossConST-LLM: Code for arXiv paper “Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models” (github.com)
SCALE: Specialized Translation Models (STMs) + general-purpose Large Language Models (LLMs)
- SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.9]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。 実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (Fri, 29 Sep 2023 08:46:38 GMT) - 特化型の翻訳モデルと汎用的なLLMを併用する機械翻訳
- STMからの翻訳草案をLLMでrefineするイメージ(?)、低リソースな言語に対して特に有効とのこと。