Unlimiformer

Doc2SoarGraph

  • Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
    視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。 具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。 我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 10:02:39 GMT)
  • 報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

Huatuo-26M

A Cookbook of Self-Supervised Learning

  • A Cookbook of Self-Supervised Learning [85.2]
    我々は,調理書のスタイルに基礎と最新のSSLレシピを組み込むことで,SSL研究への参入障壁を低くすることを目指している。 興味のある研究者がメソッドの地形をナビゲートし、さまざまなノブの役割を理解し、SSLがいかに美味しいかを探求するために必要なノウハウを得ることを願っています。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 15:49:53 GMT)
  • Self-Supervised Learningの教科書と言ってもよい論文

NaturalSpeech 2

  • NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
    残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 17:08:20 GMT)
  • NaturalSpeech のバージョン2、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
  • プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

Img2Vec

  • Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.6]
    我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 03:01:37 GMT)
  • 2vec系、Img2Vec

Learning to Reason and Memorize with Self-Notes 

  • Learning to Reason and Memorize with Self-Notes [41.7]
    大規模言語モデルは、限られた文脈記憶と多段階推論に苦しむことが示されている。 本稿では,これらの問題を解決するための簡単な手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 1 May 2023 14:02:48 GMT)
  • Self-Noteというスクラッチパッドとして機能する部分をプロンプトに入れてモデル自体がそこをメモとして利用可能とする研究
  • LLMを使っていると長さ制限に苦しむことが多く非常に欲しい機能

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

  • Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
    このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。 実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 17:56:11 GMT)
  • 進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう(細かい点ではいろいろあるが)
  • 実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう!と思った。
  • Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
    大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。 我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 19:00:43 GMT)
  • 因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
  • GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。
  • Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
    OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。 記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 22:35:03 GMT)
  • 結構な書籍の内容がGPT-4の中に記憶されているのでは?という内容。membership inference系。
  • (当然だが)記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要(ということはわかりつつも具体的な対策は簡単ではない…)
  • リポジトリが公開されている GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”
  • Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
    我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。 人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 05:46:48 GMT)
  • ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
  • リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code
  • New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
    機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。 本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 03:27:27 GMT)
  • 機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
  • Personalized MTも今まではなかなか困難だったが、LLM+プロンプトでかなり有効に実現できそうな予感(機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している)
  • Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
    大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。 まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 05:21:09 GMT)
  • GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題
  • AutoML-GPT: Automatic Machine Learning with GPT [74.3]
    本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。 本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。 このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 02:09:43 GMT)
  • AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野

LLMの拡張、テーブルデータを併用した推論への応用

GPT-#で大規模言語モデルが話題になっているが、その拡張を行う研究も非常に盛ん。

  • mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [55.7]
    mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。 トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:27:01 GMT)
  • LLMのマルチモーダル化、まずVisual Encoder/Visual AbstractorをLLMを凍結して事前学習、その後LoRAを用いてLLMのInstruction tuning
  • リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality
  • Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning [45.0]
    大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。 巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。 我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:24:10 GMT)
  • Table データを併用した推論へのLLM適用、 Decompose evidence And questions for effective Table-basEd Reasoning (DATER)提案、優れた性能を達成。初めてTabFactで人間のパフォーマンスを超えたとのこと。
  • テーブルデータの分解、質問の分解、SQLクエリへの変換・実行、 in-context prompting とLLM関連のテクニックが高度に使われている印象で問題の解き方がとても参考になる

DataComp

  • DataComp: In search of the next generation of multimodal datasets [130.6]
    我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:37:18 GMT)
  • 良いマルチモーダルデータセットを作ることを目的としたベンチマーク(コンペティション?)データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
  • プロジェクトサイトはDataComp