Language to Rewards for Robotic Skill Synthesis

  • Language to Rewards for Robotic Skill Synthesis [37.2]
    我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
    論文  参考訳(メタデータ)   (Wed, 14 Jun 2023 17:27:10 GMT)
  • LLMを人間とロボットの仲介役として使うため、人間の指示を報酬を示す関数(コード)に変換するアプローチを提案
  • リポジトリはLanguage to Rewards for Robotic Skill Synthesis (language-to-reward.github.io)

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon

  • 14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon [31.1]
    我々は化学、材料科学などにおける大規模言語モデル(LLM)の適用についてハッカソンを開催した。 この記事ではハッカソンの一部として構築されたプロジェクトを概説する。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
    論文  参考訳(メタデータ)   (Tue, 13 Jun 2023 07:44:32 GMT)
  • 化学分野におけるLLM利用ハッカソンの報告、いろいろなアイデアがあって興味深いのとデモがあるのが凄い。「The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields.」との記載が印象的。

Augmenting Language Models with Long-Term Memory

  • Augmenting Language Models with Long-Term Memory [142.0]
    既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。 本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 15:13:39 GMT)
  • LLMを凍結した状態でresidual side-network (SideNet)を使ってメモリ機構を実現する方式の提案。既存手法の性能を上回り、in context learningでも本手法を通したshot数の向上が性能向上に効果があったとのこと
  • リポジトリはGitHub – Victorwz/LongMem

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

  • KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
    我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。 能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。 データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 17:20:46 GMT)
  • Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
  • プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

CMMLU: Chinese Massive Multitask Language Understanding

  • CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
    本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 15:49:51 GMT)
  • 中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク(ランダム回答だと25%)、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
  • リポジトリはGitHub – haonan-li/CMMLU

BIG-bench: Beyond the Imitation Game benchmark (論文ver3)

  • Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
    言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 17:51:15 GMT)
  • BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
  • 元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs

  • Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9]
    大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
    論文  参考訳(メタデータ)   (Mon, 5 Jun 2023 13:35:01 GMT)
  • 公共の文書を分類するためにLLMを使うという報告。なのだが使われているのがRoBERTa系なので、これをLLMといってよいのかは謎。PromptやICLを使う戦略でもなくPLMを使ったという表現の方がしっくりくる。
  • 結論としてSVMの併用が有効としているのは実用的にはそうだよねーと思う

InstructZero

Do Large Language Models Know What They Don’t Know?

  • Do Large Language Models Know What They Don’t Know? [74.7]
    大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。 膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。 本研究の目的は,LLMの自己理解能力を評価することである。
    論文  参考訳(メタデータ)   (Mon, 29 May 2023 15:30:13 GMT)
  • “knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
  • GPT-4など強力なモデルはある程度この能力を持っていそうだが、人間には遠く及んでいないよう。
  • リポジトリはGitHub – yinzhangyue/SelfAware: Large Language Models are more Self-Aware