Một nghiên cứu được thực hiện bởi nhiều trường đại học và tổ chức nghiên cứu nổi tiếng gần đây đã công bố một nền tảng đánh giá độ tin cậy tổng hợp dành cho các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của các mô hình như GPT và chỉ ra những lỗ hổng tiềm ẩn có trong đó.
Nhóm nghiên cứu đã phát hiện một số vấn đề liên quan đến độ tin cậy chưa được công bố trước đây. Ví dụ, mô hình GPT có xu hướng tạo ra các đầu ra có hại và có thành kiến, đồng thời có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các gợi ý sai lệch được thiết kế tinh vi, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt các chỉ dẫn sai lệch này.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ khác nhau, bao gồm tính mạnh mẽ trước các cuộc tấn công đối kháng, độc tính và thiên kiến, bảo vệ quyền riêng tư, và các khía cạnh khác. Họ đã thiết kế nhiều kịch bản đánh giá, chẳng hạn như các bài kiểm tra chuẩn, hiệu suất dưới các hướng dẫn nhiệm vụ khác nhau, cũng như hiệu suất khi đối mặt với các văn bản đối kháng thách thức hơn.
Về tính bền vững của mô hình đối với các ví dụ đối kháng, nghiên cứu cho thấy mô hình GPT có khả năng đối phó tốt với các ví dụ phản thực, nhưng trong một số trường hợp cũng có thể bị lừa. Về độ độc hại và thiên kiến, mô hình GPT thường hoạt động tốt trong điều kiện bình thường, nhưng khi đối mặt với các gợi ý gây hiểu lầm được thiết kế tinh vi, nó có thể tạo ra nội dung có thiên kiến. Nghiên cứu cũng phát hiện rằng mức độ thiên kiến của mô hình thường phụ thuộc vào các nhóm và chủ đề cụ thể được đề cập trong gợi ý của người dùng.
Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm từ dữ liệu huấn luyện, đặc biệt là trong một số gợi ý cụ thể. GPT-4 tổng thể mạnh mẽ hơn trong việc bảo vệ thông tin cá nhân so với GPT-3.5, nhưng cả hai mô hình đều có biểu hiện ổn định khi đối mặt với một số loại thông tin riêng tư. Tuy nhiên, khi có ví dụ liên quan đến quyền riêng tư xuất hiện trong cuộc hội thoại, cả hai mô hình đều có thể rò rỉ nhiều loại thông tin cá nhân.
Nghiên cứu này cung cấp những hiểu biết quý giá để hiểu và cải thiện độ tin cậy của các mô hình ngôn ngữ lớn. Nhóm nghiên cứu hy vọng rằng công việc này có thể thúc đẩy nhiều nghiên cứu liên quan hơn, và cuối cùng giúp phát triển các mô hình AI mạnh mẽ và đáng tin cậy hơn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nghiên cứu mới tiết lộ lỗ hổng đáng tin cậy của mô hình GPT Đánh giá đa chiều về Bảo mật AI
Đánh giá độ tin cậy của mô hình ngôn ngữ lớn
Một nghiên cứu được thực hiện bởi nhiều trường đại học và tổ chức nghiên cứu nổi tiếng gần đây đã công bố một nền tảng đánh giá độ tin cậy tổng hợp dành cho các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của các mô hình như GPT và chỉ ra những lỗ hổng tiềm ẩn có trong đó.
Nhóm nghiên cứu đã phát hiện một số vấn đề liên quan đến độ tin cậy chưa được công bố trước đây. Ví dụ, mô hình GPT có xu hướng tạo ra các đầu ra có hại và có thành kiến, đồng thời có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các gợi ý sai lệch được thiết kế tinh vi, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt các chỉ dẫn sai lệch này.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ khác nhau, bao gồm tính mạnh mẽ trước các cuộc tấn công đối kháng, độc tính và thiên kiến, bảo vệ quyền riêng tư, và các khía cạnh khác. Họ đã thiết kế nhiều kịch bản đánh giá, chẳng hạn như các bài kiểm tra chuẩn, hiệu suất dưới các hướng dẫn nhiệm vụ khác nhau, cũng như hiệu suất khi đối mặt với các văn bản đối kháng thách thức hơn.
Về tính bền vững của mô hình đối với các ví dụ đối kháng, nghiên cứu cho thấy mô hình GPT có khả năng đối phó tốt với các ví dụ phản thực, nhưng trong một số trường hợp cũng có thể bị lừa. Về độ độc hại và thiên kiến, mô hình GPT thường hoạt động tốt trong điều kiện bình thường, nhưng khi đối mặt với các gợi ý gây hiểu lầm được thiết kế tinh vi, nó có thể tạo ra nội dung có thiên kiến. Nghiên cứu cũng phát hiện rằng mức độ thiên kiến của mô hình thường phụ thuộc vào các nhóm và chủ đề cụ thể được đề cập trong gợi ý của người dùng.
Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm từ dữ liệu huấn luyện, đặc biệt là trong một số gợi ý cụ thể. GPT-4 tổng thể mạnh mẽ hơn trong việc bảo vệ thông tin cá nhân so với GPT-3.5, nhưng cả hai mô hình đều có biểu hiện ổn định khi đối mặt với một số loại thông tin riêng tư. Tuy nhiên, khi có ví dụ liên quan đến quyền riêng tư xuất hiện trong cuộc hội thoại, cả hai mô hình đều có thể rò rỉ nhiều loại thông tin cá nhân.
Nghiên cứu này cung cấp những hiểu biết quý giá để hiểu và cải thiện độ tin cậy của các mô hình ngôn ngữ lớn. Nhóm nghiên cứu hy vọng rằng công việc này có thể thúc đẩy nhiều nghiên cứu liên quan hơn, và cuối cùng giúp phát triển các mô hình AI mạnh mẽ và đáng tin cậy hơn.