On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.2] unsupervised neural machine translation (UNMT)は多くの言語で成功している。 コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。 本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。 論文参考訳(メタデータ) (Fri, 26 May 2023 18:14:23 GMT)
Do Large Language Models Know What They Don’t Know? [74.7] 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。 膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。 本研究の目的は,LLMの自己理解能力を評価することである。 論文参考訳(メタデータ) (Mon, 29 May 2023 15:30:13 GMT)
“knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4] Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。 本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。 実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。 論文参考訳(メタデータ) (Wed, 24 May 2023 11:04:30 GMT)
Large Language Models as Tool Makers [53.8] 我々は,LLMが独自の再利用可能なツールを作成する,LLMs As Tool Makers (LATM) と呼ばれるクローズドループフレームワークを提案する。 1) ツール作成: LLMは与えられたタスクのためのツールを作成するツールメーカーとして機能し、そこでツールはPythonユーティリティ関数として実装されます。 我々は,Big-Benchタスクを含む様々な複雑な推論タスクに対するアプローチの有効性を検証する。 論文参考訳(メタデータ) (Fri, 26 May 2023 17:50:11 GMT)
MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting [23.6] 推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。 論文参考訳(メタデータ) (Fri, 26 May 2023 13:00:58 GMT)
PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0] マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。 我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。 複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。 論文参考訳(メタデータ) (Mon, 29 May 2023 18:58:38 GMT)
BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9] 我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。 論文参考訳(メタデータ) (Mon, 29 May 2023 14:07:52 GMT)
BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2] BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。 論文参考訳(メタデータ) (Thu, 25 May 2023 10:50:40 GMT)
BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。