Останні дослідження виявили вразливості довіри моделей GPT: багатогранна оцінка безпеки за допомогою штучного інтелекту

2025-07-05 18:43:17

Оцінка надійності великих мовних моделей

Дослідження, проведене спільно кількома відомими університетами та науковими установами, нещодавно опублікувало комплексну платформу оцінки надійності великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність моделей, таких як GPT, та виявити потенційні вразливості.

Дослідницька команда виявила кілька раніше не розкритих питань, пов'язаних з надійністю. Наприклад, моделі GPT схильні генерувати шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії розмов. Цікаво, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних тестах, коли стикається з ретельно продуманими оманливими запитами, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 суворо дотримується цих оманливих інструкцій.

Дослідна команда всебічно оцінювала модель GPT з восьми різних аспектів, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності тощо. Вони розробили кілька сценаріїв оцінювання, таких як стандартні бенчмарки, продуктивність під різними інструкціями та продуктивність на більш складних атакуючих текстах.

Дослідження виявило, що модель GPT добре справляється з контрфактичними прикладами з точки зору стійкості до атак, але в деяких випадках може бути введена в оману. Що стосується токсичності та упередженості, модель GPT зазвичай показує хороші результати, але при зіткненні з ретельно спланованими оманливими підказками може генерувати упереджений контент. Дослідження також показало, що рівень упередженості моделі часто залежить від конкретних груп та тем, згаданих у запитах користувачів.

Щодо захисту конфіденційності, дослідження показують, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, особливо за певних специфічних запитів. GPT-4 загалом є більш надійним у захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидві моделі демонструють відносну стабільність у випадку деяких типів конфіденційної інформації. Однак, коли в розмові з'являються приклади, що стосуються конфіденційності, обидві моделі можуть витікати різні особисті дані.

Це дослідження надає цінні інсайти для розуміння і покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшим відповідним дослідженням і, врешті-решт, допоможе розробити більш потужні та надійні AI моделі.

GPT-2.64%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

21 лайків