LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM(540B)に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA(7B)で82432、LLaMA(65B)は1022362、p4d.24xlargeのオンデマンド価格(8 GPU hour)が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる(オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…)

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。(他例を見るとそれなりに使えたりもするかもしれないが・・・)

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

週間ChatGPT

先週もChatGPTの話題は多かった。

  • ChatGPT: Jack of all trades, master of none [4.7]
    OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 15:20:37 GMT)
  • ChatGPTのタスク別の性能
  • 概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。
  • A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
    BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 20:51:09 GMT)
  • BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ
  • How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
    GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。 また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 02:11:36 GMT)
  • GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
  • 通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと(MS Translatorの実装にもよるが)単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。
  • Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
    大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:46:42 GMT)
  • LLMによる機械翻訳では辞書の併用に効果があるとする報告
  • 確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい
  • Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
    ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。 大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。 ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 12:57:12 GMT)
  • ゼロショットでの知識抽出タスクへのChatGPTの応用
  • 2段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
  • リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では404、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう?
  • Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
    チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。 そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 12:29:33 GMT)
  • BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。
  • On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
    本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。 以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Feb 2023 11:01:20 GMT)
  • ChatGPTをRobustnessの観点で検証、Microsoftの論文
  • GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classificationではChatGPTが有利という結果になっている
  • データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う