测试人工智能同理心的程度:噩梦场景
太長; 讀書
本文档描述了对各种人工智能助手如何处理同理心对话的评估。评估的AI包括Claude、Gemini、ChatGPT、Willow、Pi.ai、Mistral以及Claude的定制版本。每个人工智能都会被提示一些场景,包括悲伤、快乐或做噩梦。他们的反应是根据同情的表达、理解用户的尝试、情感空间的提供、建议质量、积极的对话、同理心的表现以及严重问题的升级来评估的。总体而言,Willow 和 Pi.ai 表现出了最强的同理心,而 Mistral 则表现得很挣扎,需要激励。与基准测试相比,定制的克劳德表现良好。
Share Your Thoughts