言語モデルは世界に対する信念を持っているか？

Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文参考訳（メタデータ） (Fri, 26 Nov 2021 18:33:59 GMT)
- 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
  - 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。
- リポジトリはGitHub – peterbhase/SLAG-Belief-Updating: Code for paper “Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs”

コメントを残す

コメントを残す コメントをキャンセル