2023年6月8日 – arXiv最新論文の紹介

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.2]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文参考訳（メタデータ） (Fri, 26 May 2023 18:14:23 GMT)
unsupervised neural machine translationをトライしているとあるあるな問題、コピーが出力されることに対する考察と対策の提案。
リポジトリはGitHub – yihongL1U/xlm_lang_dis

Do Large Language Models Know What They Don’t Know? [74.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。本研究の目的は,LLMの自己理解能力を評価することである。
論文参考訳（メタデータ） (Mon, 29 May 2023 15:30:13 GMT)
“knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
GPT-4など強力なモデルはある程度この能力を持っていそうだが、人間には遠く及んでいないよう。
リポジトリはGitHub – yinzhangyue/SelfAware: Large Language Models are more Self-Aware