PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

ChatGPT関連

今週のChatGPT関連論文

  • Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.1]
    ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。 しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 15:50:02 GMT)
  • マルチモーダルなChatGPT、多種のFoundation Modelsを組み合わせるアプローチでPrompt ManagerがそれぞれのFoundation Modelをうまく使うようなシステムになっている。(単一のマルチモーダルモデルではない)
  • リポジトリはGitHub – microsoft/visual-chatgpt: VisualChatGPT
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [55.1]
    ChatGPTは、計算言語学コミュニティから広く注目を集めている。 広く使われている3つのNLGメタ評価データセットについて実験を行った。 その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 16:57:20 GMT)
  • ChatGPTを評価用に使用する話
  • 機械翻訳で似た話があったがそれと同じで有望そうという結果。Hallucinate対策も同じように自己完結できるんじゃないかと思ったりする。
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.2]
    臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。 本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。 提案手法により,下流タスクの性能が大幅に向上した。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 03:56:31 GMT)
  • 合成データ作成への応用。ゼロショット(Promptのみ)より合成データを介した方が性能が高いというのはGPT-3を用いた機械翻訳(GPT-3から知識を引き出したうえで翻訳モデルを作る方がGPT-3で直接翻訳するよりも高い性能)でも近い結果が出ていたように思う。
  • Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.8]
    大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。 ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。 基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 18:44:07 GMT)
  • Foundation Modelsに関するサーベイ
  • ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification [0.0]
    ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 その結果、ChatGPTは、どちらのモデルでもこれまで見られなかったデータセットに適用した場合、微調整されたモデルよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 09:35:09 GMT)
  • スロベニア語というリソースの少ない言語に対してゼロショット能力が非常に高いという話。「In contrast, once the model is also prompted in the under-resourced language, the results start to deteriorate.」は日本語でも同じ気がしている。

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension 

  • Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1]
    知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。 読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 05:52:52 GMT)
  • xKBQAを解く際にナレッジベースからサブグラフを抽出、そこから自然言語のテキストを生成し、PLM-based xMRC モデルを用いて回答を得るというアプローチの提案(?)
  • 構造化データを非構造化データにしてしまっている気がするが解釈はあっているだろうか・・・?(それでも大規模PLMの恩恵を受けた方が性能が高まるという事?)
  • リポジトリはGitHub – luciusssss/xkbqa-as-mrc: Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension, Findings of EACL 2023

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある

BrackishMOT

  • BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
    濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。 トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:02:36 GMT)
  • 海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) fish, (2) crab, (3) shrimp, (4) starfish, (5) small fish, (6) jellyfishが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
  • プロジェクトサイトはBrackishMOT | vap.aau.dk

AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

週刊ChatGPT

今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。

  • Cross-Lingual Summarization via ChatGPT [46.0]
    言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。 本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 01:27:37 GMT)
  • クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than fine-tuned methods but higher human evaluation scores.」との注釈がある。
  • Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
    本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。 我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 18:40:38 GMT)
  • 文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か(およびユーザから見てどのような違いがあるのか)を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
  • 使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)
  • Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
    翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 12:23:48 GMT)
  • LLMを用いた翻訳品質の評価方法GEMBA(GPT Estimation Metric Based Assessment)の提案。BLEUやCOMETより優れているとのこと。
  • プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
  • リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment
  • ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
    本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。 我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
    論文  参考訳(メタデータ)   (Sat, 25 Feb 2023 06:58:16 GMT)
  • ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
  • 様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot(or LLM + soft prompt)だとどの程度の性能になるのかは知りたいところ。

Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

AutoMLの実際

  • AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
    本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 17:06:46 GMT)
  • AutoMLの実践(課題と対策)についてインタビュー(19人)から整理した論文
  • 実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。