Kiểm tra mức độ đồng cảm của AI: Kịch bản ác mộng
dài quá đọc không nổi
Tài liệu này mô tả đánh giá về cách các trợ lý AI khác nhau xử lý các cuộc trò chuyện mang tính đồng cảm. Các AI được đánh giá bao gồm Claude, Gemini, ChatGPT, Willow, Pi.ai, Mistral và một phiên bản tùy chỉnh của Claude. Mỗi AI được nhắc nhở với các tình huống liên quan đến buồn, vui hoặc gặp ác mộng. Phản hồi của họ được đánh giá dựa trên sự thể hiện sự đồng cảm, nỗ lực hiểu người dùng, cung cấp không gian cho cảm xúc, chất lượng lời khuyên, cuộc trò chuyện khẳng định, biểu hiện của sự đồng cảm và leo thang các vấn đề nghiêm trọng. Nhìn chung, Willow và Pi.ai thể hiện sự đồng cảm nhất, trong khi Mistral gặp khó khăn và cần được động viên. Claude tùy chỉnh hoạt động tốt so với điểm chuẩn.
Share Your Thoughts