Zero-shot Object Counting

  • Zero-shot Object Counting [31.2]
    クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。 テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 15:14:36 GMT)
  • ゼロショットでのオブジェクトカウンティング。カウンタがクラス名のみを使うことをもってゼロショットとしている。Generaterを用いるアプローチ。
  • プロジェクトサイトはGitHub – cvlab-stonybrook/zero-shot-counting: CVPR2023 Zero-shot Counting (現在はComing soon)

BLOOM関連情報

BLOOM関連の情報が多く出ていた。

  • Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.9]
    複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 13:23:42 GMT)
  • BLOOMの機械翻訳性能の評価。zero shotでは微妙だがfew shotでの翻訳能力はかなり優れているよう。M2Mを超えている言語ペアがあるのはすごい。
  • 一方でリソースが少ない言語では十分な性能となっていなさそう
  • The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [37.0]
    BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。 本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 14:25:44 GMT)
  • ROOTSコーパスを作成する際のデータキュレーションの方針などを解説した論文。
  • Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results [12.0]
    BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 16:53:19 GMT)
  • 中国語の能力を強化したBLOOMの構築方法、日本語版が欲しい…

Larger language models do in-context learning differently

  • Larger language models do in-context learning differently [93.9]
    言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。 ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 12:24:17 GMT)
  • モデルの大きさによってICLの効き方が異なるという論文 大きなモデルでは先行的に学んだ知識を上書きできるという事、小さなモデルではそれができないというのは非常に面白い。ICLが「ドメインを限定する」のか「内容を加味して判断している」のかがモデルの大きさによって違う?
  • 十分に大きなモデルでは任意のラベルマッピングを行う能力がある?というのは、本当に新たなことを学んでいけると解釈して良いのだろうか。
  • なんでこんなことができるんだろう・・・?

PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

ChatGPT関連

今週のChatGPT関連論文

  • Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.1]
    ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。 しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 15:50:02 GMT)
  • マルチモーダルなChatGPT、多種のFoundation Modelsを組み合わせるアプローチでPrompt ManagerがそれぞれのFoundation Modelをうまく使うようなシステムになっている。(単一のマルチモーダルモデルではない)
  • リポジトリはGitHub – microsoft/visual-chatgpt: VisualChatGPT
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [55.1]
    ChatGPTは、計算言語学コミュニティから広く注目を集めている。 広く使われている3つのNLGメタ評価データセットについて実験を行った。 その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 16:57:20 GMT)
  • ChatGPTを評価用に使用する話
  • 機械翻訳で似た話があったがそれと同じで有望そうという結果。Hallucinate対策も同じように自己完結できるんじゃないかと思ったりする。
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.2]
    臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。 本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。 提案手法により,下流タスクの性能が大幅に向上した。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 03:56:31 GMT)
  • 合成データ作成への応用。ゼロショット(Promptのみ)より合成データを介した方が性能が高いというのはGPT-3を用いた機械翻訳(GPT-3から知識を引き出したうえで翻訳モデルを作る方がGPT-3で直接翻訳するよりも高い性能)でも近い結果が出ていたように思う。
  • Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.8]
    大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。 ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。 基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 18:44:07 GMT)
  • Foundation Modelsに関するサーベイ
  • ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification [0.0]
    ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 その結果、ChatGPTは、どちらのモデルでもこれまで見られなかったデータセットに適用した場合、微調整されたモデルよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 09:35:09 GMT)
  • スロベニア語というリソースの少ない言語に対してゼロショット能力が非常に高いという話。「In contrast, once the model is also prompted in the under-resourced language, the results start to deteriorate.」は日本語でも同じ気がしている。

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension 

  • Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1]
    知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。 読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 05:52:52 GMT)
  • xKBQAを解く際にナレッジベースからサブグラフを抽出、そこから自然言語のテキストを生成し、PLM-based xMRC モデルを用いて回答を得るというアプローチの提案(?)
  • 構造化データを非構造化データにしてしまっている気がするが解釈はあっているだろうか・・・?(それでも大規模PLMの恩恵を受けた方が性能が高まるという事?)
  • リポジトリはGitHub – luciusssss/xkbqa-as-mrc: Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension, Findings of EACL 2023

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある

BrackishMOT

  • BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
    濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。 トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:02:36 GMT)
  • 海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) fish, (2) crab, (3) shrimp, (4) starfish, (5) small fish, (6) jellyfishが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
  • プロジェクトサイトはBrackishMOT | vap.aau.dk

AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data