XGen-7B Technical Report

先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。

Explainability for Large Language Models: A Survey

  • Explainability for Large Language Models: A Survey [59.7]
    大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。 本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
    論文  参考訳(メタデータ)   (Sat, 2 Sep 2023 22:14:26 GMT)
  • LLMの説明可能性に関するサーベイ
  • Traditional Fine-tuning Paradigm、Prompting Paradigmという分け方がLLM的

OPRO: Optimization by PROmpting

  • Large Language Models as Optimizers [111.9]
    本研究では,最適化タスクを自然言語で記述する大規模言語モデル(llms)を最適化器として活用するための,単純かつ効果的な手法であるoproを提案する。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 00:07:15 GMT)
  • LLMを用いて最適化を行う手法の提案。テキスト入力、テキスト出力なLLM利用におけるプロンプト自体も最適化していけるのが興味深い。
  • 見つかったトップインストラクションの事例「Take a deep breath and work on this problem step-by-step.」や「A little bit of arithmetic and a logical approach will help us quickly arrive at the solution to this problem(GPT-3.5向け)」「Let’s combine our numerical command and clear thinking to quickly and accurately decipher the answer(GPT-4向け)」はベースラインである「Let’s think step by step.」よりかなり良いスコアだが、人間へのアドバイスのようで非常に面白い。

LLASM: Large Language and Speech Model 

Computation-efficient Deep Learning for Computer Vision: A Survey

  • Computation-efficient Deep Learning for Computer Vision: A Survey [121.8]
    ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。 ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。 新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
    論文  参考訳(メタデータ)   (Sun, 27 Aug 2023 03:55:28 GMT)
  • 効率的な画像処理モデルに関するサーベイ
  •  「Efficient Backbone Models / Dynamic Deep Networks」→「Task-specialized Efficient Models」→「Model Compression Techniques」→「Efficient Deployment on Hardware」と様々なレイヤで調査がされている。

Mental-LLM

  • Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [38.9]
    オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。 その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。 我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。 
    論文  参考訳(メタデータ)   (Wed, 16 Aug 2023 06:04:48 GMT)
  • メンタルヘルス予測タスクへのLLM活用に関する報告。zero shot, few shot, instruction finetuningといった様々な方法&Alpaca, FLAN, GPT-3.5, GPT-4など様々なモデルで評価されており興味深い。
  • 「Instruction finetuning on multiple mental health datasets can significantly boost the performance of LLMs on various mental health prediction tasks.」や「Although task-solving-focused LLMs may have better performance in the zero-shot setting for mental health prediction tasks, dialogue-focused LLMs have a stronger capability of learning from human natural language and can improve more significantly after finetuning.」など興味深い結果となっている。メンタルヘルスというドメインに依存した話なのか一般的な傾向なのかはよくわからないが、様々なアプローチの結果を比較するのは重要であるとの感想。

The Belebele Benchmark

  • The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [82.6]
    私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。 このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
    論文  参考訳(メタデータ)   (Thu, 31 Aug 2023 17:43:08 GMT)
  • 「multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants.」ということで非常に多言語のMRCデータセット。機械翻訳におけるFLORES-200のような立ち位置で非常に貴重なデータセット
  • 「GPT3.5-TURBO performs the best on the top 20 languages, but after 40-50, its performance falls far behind INFOXLM and XLM-V.」というベンチマーク結果が興味深い。商業システムはある程度ターゲットとなる言語を絞っているよう。
  • リポジトリはGitHub – facebookresearch/belebele: Repo for the Belebele dataset, a massively multilingual reading comprehension dataset.

A Survey for Federated Learning Evaluations: Goals and Measures

  • A Survey for Federated Learning Evaluations: Goals and Measures [26.1]
    フェデレートラーニング(Federated Learning, FL)は、プライバシ保護機械学習のための新しいパラダイムである。 FLの評価は、その学際的な性質と、実用性、効率性、セキュリティといった様々な目標のために難しい。 我々はFLアルゴリズムの標準化された総合的な評価フレームワークを提供するオープンソースプラットフォームであるFedEvalを紹介した。 
    論文  参考訳(メタデータ)   (Wed, 23 Aug 2023 00:17:51 GMT)
  • Federated Learning の評価指標に関するサーベイおよび総合的な評価システムに関する論文。前半はFLの典型的な目標とその評価指標についてまとめられており、後半で著者が開発したFedEvalが紹介されている。FedEvalはKDD2022のFedEval: A Holistic Evaluation Framework for Federated Learningで発表されているよう。
  • リポジトリはhttps://github.com/Di-Chai/FedEval

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

  • WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
    本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。 本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。 我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
    論文  参考訳(メタデータ)   (Wed, 30 Aug 2023 11:35:21 GMT)
  • LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

AI Deception: A Survey of Examples, Risks, and Potential Solutions 

  • AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.8]
    本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。 我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 17:59:35 GMT)
  • AIが「人を欺く」方法を学んだとして、リスクとその解決策を調査した論文。事例が多く紹介されておりとても興味深い。
  • 「Regulation」「Bot-or-not laws」「Detection」「Making AI systems less deceptive」の4つが解説策として挙げられている。開発側に何らかの制約をかけないと対応困難なのだろうか。