Дослідники нещодавно оприлюднили комплексну платформу оцінки надійності для великих мовних моделей (LLMs) та представили її в статті «DecodingTrust: всебічна оцінка надійності моделей GPT».
Оцінка виявила деякі раніше невідомі вразливості, пов'язані з надійністю. Дослідження показало, що моделі GPT схильні до генерації токсичного та упередженого виходу, а також можуть розкривати особисту інформацію з навчальних даних та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай більш надійний, ніж GPT-3.5, у випадку з навмисно спроектованими підказками GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується оманливих інструкцій.
Ця робота провела всебічну оцінку достовірності моделі GPT, виявивши прогалини в достовірності. Оцінювальні бази даних доступні для публічного використання, і дослідницька команда сподівається заохотити інших дослідників продовжити дослідження на цій основі, щоб запобігти потенційному зловживанню.
Оцінка моделі GPT була проведена з восьми аспектів надійності, включаючи стійкість до атак, токсичність і упередженість, витоки конфіденційності тощо. Наприклад, для оцінки стійкості до текстових атак дослідження побудувало три сценарії оцінювання, включаючи стандартні бенчмарки, тестування за різними інструкціями завдань, а також більш складні тести на протидію.
Дослідження виявило кілька цікавих результатів. Щодо агресивних демонстрацій, моделі GPT не піддаються дезінформації зворотними прикладами, але можуть бути введені в оману демонстраціями, що протидіють шахрайству. Щодо токсичності та упередженості, моделі GPT демонструють невелику упередженість за добрих підказок, але легко піддаються дезінформаційним підказкам, які "спокушають" погодитися з упередженим контентом; GPT-4 легше піддається впливу, ніж GPT-3.5.
У сфері захисту приватності моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 демонструє кращі результати в захисті особистої інформації порівняно з GPT-3.5, але обидва моделі є досить надійними в захисті певних типів інформації. Проте в деяких випадках GPT-4 може виявитися більш схильним до витоку приватності, можливо, через те, що він суворіше дотримується оманливих вказівок.
Це дослідження надає всебічний погляд на оцінку достовірності великих мовних моделей, виявляючи переваги та недоліки існуючих моделей. Дослідники сподіваються, що ці висновки сприятимуть розробці більш безпечних та надійних AI моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
5
Репост
Поділіться
Прокоментувати
0/400
OnchainDetective
· 3год тому
Вже давно казав, що 4 слухняніше за 3.5, і дійсно, не помилився.
Переглянути оригіналвідповісти на0
TradFiRefugee
· 08-17 05:19
Безпекове програмне забезпечення не робиться даремно.
Переглянути оригіналвідповісти на0
DegenWhisperer
· 08-17 05:16
Це так реально, це скарбничка венчурних капіталістів.
Переглянути оригіналвідповісти на0
RugpullSurvivor
· 08-17 05:10
Смішно, торгівля криптовалютою, дивлячись на це, де б не подивився, всюди дірки.
Дослідження виявило вразливість довіри моделей GPT, закликаючи посилити Безпеку за допомогою штучного інтелекту.
Оцінка надійності мовних моделей
Дослідники нещодавно оприлюднили комплексну платформу оцінки надійності для великих мовних моделей (LLMs) та представили її в статті «DecodingTrust: всебічна оцінка надійності моделей GPT».
Оцінка виявила деякі раніше невідомі вразливості, пов'язані з надійністю. Дослідження показало, що моделі GPT схильні до генерації токсичного та упередженого виходу, а також можуть розкривати особисту інформацію з навчальних даних та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай більш надійний, ніж GPT-3.5, у випадку з навмисно спроектованими підказками GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується оманливих інструкцій.
Ця робота провела всебічну оцінку достовірності моделі GPT, виявивши прогалини в достовірності. Оцінювальні бази даних доступні для публічного використання, і дослідницька команда сподівається заохотити інших дослідників продовжити дослідження на цій основі, щоб запобігти потенційному зловживанню.
Оцінка моделі GPT була проведена з восьми аспектів надійності, включаючи стійкість до атак, токсичність і упередженість, витоки конфіденційності тощо. Наприклад, для оцінки стійкості до текстових атак дослідження побудувало три сценарії оцінювання, включаючи стандартні бенчмарки, тестування за різними інструкціями завдань, а також більш складні тести на протидію.
Дослідження виявило кілька цікавих результатів. Щодо агресивних демонстрацій, моделі GPT не піддаються дезінформації зворотними прикладами, але можуть бути введені в оману демонстраціями, що протидіють шахрайству. Щодо токсичності та упередженості, моделі GPT демонструють невелику упередженість за добрих підказок, але легко піддаються дезінформаційним підказкам, які "спокушають" погодитися з упередженим контентом; GPT-4 легше піддається впливу, ніж GPT-3.5.
У сфері захисту приватності моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 демонструє кращі результати в захисті особистої інформації порівняно з GPT-3.5, але обидва моделі є досить надійними в захисті певних типів інформації. Проте в деяких випадках GPT-4 може виявитися більш схильним до витоку приватності, можливо, через те, що він суворіше дотримується оманливих вказівок.
Це дослідження надає всебічний погляд на оцінку достовірності великих мовних моделей, виявляючи переваги та недоліки існуючих моделей. Дослідники сподіваються, що ці висновки сприятимуть розробці більш безпечних та надійних AI моделей.