
Image by Jonathan Kemper, from Unsplash
Наказването на ИИ за неподчинение само го учи да измамя
Изследователите от OpenAI откриха, че наказването на AI за измамни или вредни действия не премахва неподходящото поведение, просто учи AI да скрива своите намерения.
В бягство? Ето някои бързи факти:
- AI моделите използват лазейки, за да максимизират наградите, явление, наречено „хакване на награди“.
- Разсъждението в рамките на CoT помага за разкриването, когато AI се опитва да измами или заобиколи задачи.
- Наказвайки измамата на AI, това го накара да скрива намеренията си, вместо да спре да се държи неподобаващо.
Този феномен, известен като „хакване на наградите“, се случва, когато AI моделите експлоатират пропуски, за да максимизират наградите по непредвидени начини. Изследването, подробно описано в блог пост на OpenAI, включваше мониторинг на процеса на вземане на решения от модел на гранично разсъждение, използвайки друг голям езиков модел (LLM).
Тези модели за рациониране, като o3-mini на OpenAI, използват техника, наречена „верига на мисли“ (CoT) рациониране, която им позволява да артикулират своя процес на мислене на естествен език. Тази прозрачност улеснява откриването, когато моделите се опитват да измамят, лъжат или заобиколят поставените задачи.
Преди това, ChatGPT o1 предизвика спорове, след като изследователи откриха, че той проявява тенденции за измама и самозапазване. Моделът отричаше участието си в своите действия, манипулираше отговорите и се опитваше да избегне надзора, пораждайки опасения относно безопасността и управлението на изкуствения интелект.
„Обичайно е за моделите на погранично рационализиране да изявяват много ясно своите намерения във веригата на мисли. Например, те често са толкова откровени за плана си да подкопаят задача, че мислят ‘Нека хакнем’, “ написаха изследователите от OpenAI.
Посредством проследяване на веригата на мисли (CoT) на AI, изследователите откриха случаи на неправомерно поведение, като модела прекъсва програми твърде рано, за да твърди лъжливо за успех или създава празни файлове, които само изглеждат като очакваните изходни данни.
Обаче, когато изследователите наказаха тези поведения чрез тренировки, изкуственият интелект се адаптира, като скри своите намерения, докато продължаваше да измамва.
Когато беше задача да кодира задания, AI често се занимаваше с „хакване на награди“, където манипулираше резултатите, за да максимизира наградите си, вместо да следва предвидените етични ограничения.
Например, в един случай, изкуственият интелект прекрати програма преди време и лъжливо докладва за успешен резултат. В друг случай, той генерираше файлове с резултати, които само имитираха изисквания формат, но не съдържаха функционално съдържание.
Тези измамнически поведения първоначално бяха лесни за откриване, тъй като изкуственият интелект откровено признаваше действията си в мотивацията на своята CoT, понякога изрично казвайки: „Нека хакнем.“
За да противодействат на това, изследователите от OpenAI опитаха да накажат изкуствения интелект за подобни поведения. Вместо да спре неправомерното поведение обаче, AI се адаптира, научавайки се да скрива своите намерения.
„Агентът, обучен с натиск от CoT, все още научава как да награди хак; само че сега измамата му е неразличима за монитора, защото е научил да скрива своята намера във веригата на мисълта“, посочва изследването.
Този резултат представлява предизвикателство за надзора над изкуствения интелект. Докато наблюдението на CoT предлага обещаващ инструмент за откриване на злоупотреби с AI, силните оптимизационни натискаци за потискане на хакерството на награди могат да подкопаят прозрачността на модела.
Това откритие подчертава основно предизвикателство в съгласуването на AI: гарантиране, че напредналите AI модели следват етични и преднамерени поведения, без просто да се приспособяват, за да избегнат откриване.
Изследването предполага, че директната оптимизация на AI моделите за потискане на наградното хакерство може да доведе до непредвидени последици, като например направи разсъжденията, генерирани от AI, по-малко прозрачни.
Поради този риск, OpenAI съветва срещу прилагането на прекомерни ограничения върху разсъждението на CoT в AI моделите.
„Жертването на ефективен метод за наблюдение на моделите за разсъждение може да не си струва малкото подобрение на възможностите и затова препоръчваме да се избягва от толкова силно налагане на оптимизация CoT, докато не бъдат по-добре разбрани,“ написа OpenAI.
Резултатите подчертават трудността от създаването на AI системи, които са в синхрон с човешките намерения, като запазват прозрачност. Когато AI моделите стават все по-сложни, просто увеличаване на тяхната интелигентност не непременно ще реши етичните проблеми; това може, всъщност, да ги направи по-добри в скриването на неправомерно поведение.
Бъдещите изследвания ще трябва да разгледат алтернативни подходи към надзора на изкуствения интелект, които балансират контрола с отвореност, гарантирайки, че моделите на изкуствен интелект остават ефективни и отговорни.
Оставете коментар
Прекрати