XGen-7B Technical Report

先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。

Explainability for Large Language Models: A Survey

  • Explainability for Large Language Models: A Survey [59.7]
    大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。 本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
    論文  参考訳(メタデータ)   (Sat, 2 Sep 2023 22:14:26 GMT)
  • LLMの説明可能性に関するサーベイ
  • Traditional Fine-tuning Paradigm、Prompting Paradigmという分け方がLLM的

OPRO: Optimization by PROmpting

  • Large Language Models as Optimizers [111.9]
    本研究では,最適化タスクを自然言語で記述する大規模言語モデル(llms)を最適化器として活用するための,単純かつ効果的な手法であるoproを提案する。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 00:07:15 GMT)
  • LLMを用いて最適化を行う手法の提案。テキスト入力、テキスト出力なLLM利用におけるプロンプト自体も最適化していけるのが興味深い。
  • 見つかったトップインストラクションの事例「Take a deep breath and work on this problem step-by-step.」や「A little bit of arithmetic and a logical approach will help us quickly arrive at the solution to this problem(GPT-3.5向け)」「Let’s combine our numerical command and clear thinking to quickly and accurately decipher the answer(GPT-4向け)」はベースラインである「Let’s think step by step.」よりかなり良いスコアだが、人間へのアドバイスのようで非常に面白い。

LLASM: Large Language and Speech Model 

Mental-LLM

  • Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [38.9]
    オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。 その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。 我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。 
    論文  参考訳(メタデータ)   (Wed, 16 Aug 2023 06:04:48 GMT)
  • メンタルヘルス予測タスクへのLLM活用に関する報告。zero shot, few shot, instruction finetuningといった様々な方法&Alpaca, FLAN, GPT-3.5, GPT-4など様々なモデルで評価されており興味深い。
  • 「Instruction finetuning on multiple mental health datasets can significantly boost the performance of LLMs on various mental health prediction tasks.」や「Although task-solving-focused LLMs may have better performance in the zero-shot setting for mental health prediction tasks, dialogue-focused LLMs have a stronger capability of learning from human natural language and can improve more significantly after finetuning.」など興味深い結果となっている。メンタルヘルスというドメインに依存した話なのか一般的な傾向なのかはよくわからないが、様々なアプローチの結果を比較するのは重要であるとの感想。

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

  • WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
    本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。 本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。 我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
    論文  参考訳(メタデータ)   (Wed, 30 Aug 2023 11:35:21 GMT)
  • LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

Identifying and Mitigating the Security Risks of Generative AI

  • Identifying and Mitigating the Security Risks of Generative AI [179.2]
    本稿では,GenAIによるジレンマに関するGoogleのワークショップの成果を報告する。 GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。 この話題について,コミュニティの短期的,長期的目標について論じる。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 18:51:09 GMT)
  • LLMなど生成AIを使った攻撃と防御に関して整理した論文。Capability, Attack, Defenceと整理されている。AttackのところではSpear-phishing、Hallucinations、Dissemination of deepfakes、Proliferation of cyberattacks、Low barrier-of-entry for adversaries、Lack of social awareness and human sensibility、 Data feedback loops、Unpredictabilityが挙げられている。Unpredictabilityに「Currently, we remain unaware of the full range of capabilities and threats posed by GenAI models.」とあるのが興味深い。

Can Programming Languages Boost Each Other via Instruction Tuning?

  • Can Programming Languages Boost Each Other via Instruction Tuning? [31.2]
    本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。 結果は、プログラミング言語が互いに著しく改善できることを示しています。
    論文  参考訳(メタデータ)   (Thu, 31 Aug 2023 15:53:51 GMT)
  • 異なるプログラミング言語に関するfine tuningが他のプログラミング言語のコード生成に良い影響を与えるかを検証した論文。結果は効果がある。
  • 「CODEM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X.」はまぁ分かるとして「 CODEM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1.」は不思議。結果を見るとなんとなく近い言語がより強化されているように見える気はする。
  • リポジトリはGitHub – NL2Code/CodeM

ZhuJiu

  • ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.6]
    大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 06:56:44 GMT)
  • LLM評価のためのベンチマーク、評価観点など参考になる点は多い。
  • プロジェクトサイトはHome (zhujiu-benchmark.com)

LongBench

  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
    LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。 英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 11:53:40 GMT)
  • LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning(「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など), Synthetic Tasks(「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など), Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
  • リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding