今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。
- Cross-Lingual Summarization via ChatGPT [46.0]
言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。 本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
論文 参考訳(メタデータ) (Tue, 28 Feb 2023 01:27:37 GMT) - クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than fine-tuned methods but higher human evaluation scores.」との注釈がある。
- Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。 我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
論文 参考訳(メタデータ) (Sun, 26 Feb 2023 18:40:38 GMT) - 文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か(およびユーザから見てどのような違いがあるのか)を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
- 使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)
- Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
論文 参考訳(メタデータ) (Tue, 28 Feb 2023 12:23:48 GMT) - LLMを用いた翻訳品質の評価方法GEMBA(GPT Estimation Metric Based Assessment)の提案。BLEUやCOMETより優れているとのこと。
- プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
- リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment
- ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。 我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
論文 参考訳(メタデータ) (Sat, 25 Feb 2023 06:58:16 GMT) - ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
- 様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot(or LLM + soft prompt)だとどの程度の性能になるのかは知りたいところ。