2024年1月5日 – arXiv最新論文の紹介

Shai: A large language model for asset management [8.7]
「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 05:08:57 GMT)
資産管理特化型LLMの提案、14Bと小型ながら金融ドメインであればGPT-3.5以上、一部タスクではGPT-4を超えている。ドメイン特化型LLMの可能性を感じる内容。安全性についても評価されているのが興味深い（そして、Shaiのスコアは高い）。
また、「solely focusing on domain-specific training could result in catastrophic forgetting」「To mitigate this, we included a blend of generic content in our training data.」など参考になる。

How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation [49.2]
我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
論文参考訳（メタデータ） (Thu, 28 Dec 2023 16:51:11 GMT)
AIエージェントの一貫性（Consistency ）と頑健性（Robustness ）を計測するベンチマークの提案。一貫性、がん形成の定義は「Consistency measures whether the LLMs’ generated human behavior accurately depicts the identity information; Robustness measures whether the generated human behavior will be influenced by the perturbation in the profile.」とのこと
リポジトリはhttps://github.com/GAIR-NLP/GPTMan

日: 2024年1月5日