MarioGPT

  • MarioGPT: Open-Ended Text2Level Generation through Large Language Models [9.9]
    タイルベースのゲームレベルを生成するために訓練された細調整GPT2モデルであるMarioGPTを紹介する。 我々は,MarioGPTが多様なレベルを生成できるだけでなく,制御可能なレベル生成のためにテキストをプロンプできることを示す。
    論文  参考訳(メタデータ)   (Sun, 12 Feb 2023 19:12:24 GMT)
  • Text2Level Generationという名称のテキストからのゲーム面の生成。これを生成してみようと思うのが面白い。
  • (割とどうでもよいが)内部的にはテキストを合成しているのでテキスト生成にカテゴライズするのが良いのか、プログラムのソースコード相当と考えてコード自動生成とするか悩ましい。

Transformer models: an introduction and catalog 

  • Transformer models: an introduction and catalog [1.4]
    本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 05:31:15 GMT)
  • Transformerのカタログ
  • モデルカード的な情報がありがたいのと、 Date (of first known publication)があるのが非常に助かる

Symbolic Discovery of Optimization Algorithms

  • Symbolic Discovery of Optimization Algorithms [132.6]
    本稿では,プログラム探索として定式化し,深層ニューラルネットワーク学習のための最適化アルゴリズムの発見に応用する。 効率的な探索手法を利用して、無限小のプログラム空間を探索する。 本手法は,単純な最適化アルゴリズムである$textbfLion$$textitEvo$textbfL$ved S$textbfi$gn Mtextbfo$metextbfn$tum$。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 20:27:30 GMT)
  • Adamよりも性能の高い最適化方法の提案
  • すでにたくさんの突っ込みが入れられているが、Lion (EvoLved Sign Momentum) は無理ありすぎな略称だと思う

The unreasonable effectiveness of few-shot learning for machine translation

  • The unreasonable effectiveness of few-shot learning for machine translation [45.5]
    我々は,高解像度と低解像度の両言語ペアに対して,未ペア言語データで訓練された少数ショット翻訳システムの可能性を実証する。 自己教師付き学習のみで訓練されたトランスフォーマーデコーダのみのモデルが、専門的な教師付き最先端モデルと一致することを示す。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 20:19:46 GMT)
  • Few-shotで特化型モデルを超えるというのはほんまかいな・・・という結果

FairPy

  • FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation in Large Language Models [7.3]
    大規模な事前訓練された言語モデルは、人種、性別等に基づく社会集団に対する偏見を示すことが研究で示されている。 様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。 本稿では,人種,性別,民族,年齢など,さまざまなバイアスの包括的定量的評価を行う。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 20:54:10 GMT)
  • バイアスの定量化、緩和のためのフレームワーク。様々な手法に対応。
  • リポジトリはGitHub – HrishikeshVish/Fairpy

ControlNet、MultiDiffusion

単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…

  • Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
    本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 23:12:37 GMT)
  • リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models

  • MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
    MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。 高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 06:28:29 GMT)
  • 制御可能な(マスクごとにテキストを設定することなどが可能な)画像生成モデルの提案
  • リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Long Text and Multi-Table Summarization: Dataset and Method

  • Long Text and Multi-Table Summarization: Dataset and Method [20.9]
    FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。 それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。 生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 00:46:55 GMT)
  • 年次レポートからの要約データセット。長文と表データの取り扱いが必要な構成になっている。年次報告書の特性からして結構当たるんじゃないかなと思わなくもない気がしていて(著者もやっているが)データ自体の分析を行ってみたいところ。
  • リポジトリはGitHub – StevenLau6/FINDSum: A Large-Scale Dataset for Long Text and Multi-Table Summarization

GPTScore

  • GPTScore: Evaluate as You Desire [40.1]
    本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 16:17:29 GMT)
  • 要約におけるBARTScoreのようにGPTシリーズを評価に使おうという試み。ROUGEのような単純な手法よりはるかに良く、BARTScoreのようなDeepベースの手法とも競合可能な結果。
  • このタスクだとGPT3-text-davinci-003よりもGPT3-text-davinci-001の方が性能が良いとのことで興味深い。
  • リポジトリはGitHub – jinlanfu/GPTScore: Source Code of Paper “GPTScore: Evaluate as You Desire”

Augmented Language Modelのサーベイ

  • Augmented Language Models: a Survey [56.0]
    この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。 私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。 トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:25:52 GMT)
  • CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか?という問いには「 reasoning is a way for LMs to combine different tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解?

今週のChatGPT

今週のChatGPT。

  • Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
    GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。 最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。 実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 04:41:30 GMT)
  • 要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores」とのこと。
  • この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through finetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。
  • Can GPT-3 Perform Statutory Reasoning? [37.7]
    我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。 我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 04:56:11 GMT)
  • StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
  • リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning
  • Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
    大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。 近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 17:46:20 GMT)
  • ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、fine-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」