LEXTREME

Toolformer

  • Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
    言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 16:49:57 GMT)
  • どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
  • GPT-Jをベースに実験がされていて、より大きなモデル(GPT-3)よりも優れた性能を発揮。
  • 昔はやったマッシュアップを思い出して非常に興味深い。

 text-to-protein generation

  • A Text-guided Protein Design Framework [79.0]
    ProteinDTは、タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークである。 筆者らは,(1)タンパク質特性予測ベンチマークの6つ中4つにおいて連続的に優れた性能を示すこと,(2)テキスト誘導タンパク質生成の90%以上の精度を示すこと,(3)ゼロショットテキスト誘導タンパク質編集の有望な結果を示すこと,の3つの側面から,ProteinDTの有効性を実証的に検証した。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 12:59:16 GMT)
  • テキストからのたんぱく質設定。珍しいText-to-○○○だと思うが、検索からの進化という意味では正統なのかもしれない。
  • UniProtからデータセットを構築しているとのこと。

Federated Analytics: A survey

  • Federated Analytics: A survey [21.8]
    Federated Analytics(FA)は、複数のリモートパーティでデータ分析を計算するための、プライバシ保護フレームワークである。 本稿では,フェデレーション分析の特徴と,フェデレーション学習との違いについて論じる。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 18:56:24 GMT)
  • プライバシー保護や資源の節約などの理由で限られたデータのみを集約して分析するFederated Analyticsのサーベイ。基本的な話から始まり、Taxonomy、Algorithm、Challenge & Open Oppotunityと整理されている。
  •  federated analyticsは federated learningよりより一般化されたもので、基本的な分析を含むとのこと。

ChatGPTの評価(NLPベンチマーク、失敗事例、エッセイ)

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題(Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp))かもしれない。にしても低すぎという感覚はある…

  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
    我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

  • A Categorical Archive of ChatGPT Failures [47.6]
    OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。 それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。 しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
    論文  参考訳(メタデータ)   (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

  • Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
    本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。 影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。 結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 10:04:18 GMT)

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models

  • What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models [12.9]
    類似性判定に基づいて,大規模言語モデルと古典的な心理物理学的手法を組み合わせる方法について述べる。 提案手法を6つの知覚領域で検証し,提案した判断が人間のデータと強く相関していることを示す。 我々の研究は、最先端のマシンモデルとよく知られた認知パラダイムを組み合わせることで、認識と言語研究の基本的な問題に新たな光を当てることができることを示す。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 18:32:46 GMT)
  • LLMを用いてPsychophysicalな情報を得ようとする試み。「We found that not only does the extracted data correlate highly with human judgments, but it also recovers well-known psychophysical structures from the literature such as the cyclical and helical organizations of color and pitch.」とあるのはすごく面白い結果ではありつつ、Discussionにも指摘があるように単にそういうことが書かれた記事を復元しているだけじゃないのか?という疑問もある。
  • 何はともあれLLMを色々な分野に応用するというのはとても興味深い。

Theory of Mind May Have Spontaneously Emerged in Large Language Models

  • Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
    心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。 これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
    論文  参考訳(メタデータ)   (Sat, 4 Feb 2023 03:50:01 GMT)
  • 人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
  • 近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。

FLAME: A small language model for spreadsheet formulas

  • FLAME: A small language model for spreadsheet formulas [12.4]
    本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。 スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 17:29:43 GMT)
  • Excelを対象にしたプログラム(?)用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分(6/10タスクで他を上回る)とのこと
  • 巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。(FLAME自体小規模というにはやや抵抗が無いわけではないが。。。)

A Survey on Efficient Training of Transformers 

  • A Survey on Efficient Training of Transformers [72.3]
    この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 13:58:18 GMT)
  • 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
  • GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

Crawling the Internal Knowledge-Base of Language Models 

  • Crawling the Internal Knowledge-Base of Language Models [54.0]
    本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。 我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
    論文  参考訳(メタデータ)   (Mon, 30 Jan 2023 12:03:36 GMT)
  • 巨大モデル内にある内部知識をクローリングする方法の提案。知識を活用する文脈でもつかえるが、巨大モデルの知識構造を明らかにしてその理解を進める(さらには修正する)方向での応用が議論されていた。
  • LMCRAWLという言葉にも面白さを感じる。