PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

ChatGPT関連

今週のChatGPT関連論文

  • Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.1]
    ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。 しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 15:50:02 GMT)
  • マルチモーダルなChatGPT、多種のFoundation Modelsを組み合わせるアプローチでPrompt ManagerがそれぞれのFoundation Modelをうまく使うようなシステムになっている。(単一のマルチモーダルモデルではない)
  • リポジトリはGitHub – microsoft/visual-chatgpt: VisualChatGPT
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [55.1]
    ChatGPTは、計算言語学コミュニティから広く注目を集めている。 広く使われている3つのNLGメタ評価データセットについて実験を行った。 その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 16:57:20 GMT)
  • ChatGPTを評価用に使用する話
  • 機械翻訳で似た話があったがそれと同じで有望そうという結果。Hallucinate対策も同じように自己完結できるんじゃないかと思ったりする。
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.2]
    臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。 本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。 提案手法により,下流タスクの性能が大幅に向上した。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 03:56:31 GMT)
  • 合成データ作成への応用。ゼロショット(Promptのみ)より合成データを介した方が性能が高いというのはGPT-3を用いた機械翻訳(GPT-3から知識を引き出したうえで翻訳モデルを作る方がGPT-3で直接翻訳するよりも高い性能)でも近い結果が出ていたように思う。
  • Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.8]
    大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。 ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。 基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 18:44:07 GMT)
  • Foundation Modelsに関するサーベイ
  • ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification [0.0]
    ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 その結果、ChatGPTは、どちらのモデルでもこれまで見られなかったデータセットに適用した場合、微調整されたモデルよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 09:35:09 GMT)
  • スロベニア語というリソースの少ない言語に対してゼロショット能力が非常に高いという話。「In contrast, once the model is also prompted in the under-resourced language, the results start to deteriorate.」は日本語でも同じ気がしている。