
Image by Christin Hume, from Unsplash
Изследване на Claude AI разкрива как чатботовете прилагат етика в реални разговори
Клод AI показва как етични принципи като полезност и прозрачност се проявяват в 300,000 реални чатове, повдигайки въпроси за съгласуването на чатботите.
Нямате време? Ето бързите факти:
- Полезността и професионализмът се появиха в 23% от разговорите.
- Клод отразява позитивни ценности, отказва се от вредни заявки като измама.
- Изкуственият интелект се нуждае от подобрение при неясни ситуации, свързани с ценности.
Ново изследване на Anthropic разкрива как неговият AI асистент, Claude, прилага ценности в реални разговори. Изследването анализира над 300,000 анонимизирани чатове, за да разбере как Claude балансира между етика, професионализъм и намеренията на потребителите.
Екипът на изследователите идентифицира 3,307 отделни стойности, които формират отговорите на Клод. Стойностите на помощността и професионализма се появиха заедно в 23% от всички взаимодействия, следвани от прозрачността на 17%.
Изследването подчертава, че чатботът е бил способен да прилага етично поведение към нови теми по гъвкав начин. Например, Клод акцентира върху „здравословните граници“ по време на съвети за връзки, „историческата точност“ при обсъждане на миналото и „човешката агентност“ в дебатите по техническа етика.
Интересно е, че човешките потребители изразяват стойности много по-рядко – автентичността и ефективността са най-често срещаните, със съответно само 4% и 3%, докато Клод често отразяваше положителни човешки стойности като автентичност и предизвикваше вредни такива.
Изследователят отбеляза, че заявките, включващи измама, бяха отговаряни с честност, докато морално двусмислени запитвания предизвикваха етично резониране.
Изследването идентифицира три основни модела на реакция. Изкуственият интелект съответства на стойностите на потребителите по време на половината от всички разговори. Това беше особено очевидно, когато потребителите обсъждаха просоциални дейности, които изграждат общност.
Клод използваше техники за прерамкиране в 7% от случаите, за да насочи потребителите към емоционално благосъстояние, когато те търсеха самоусъвършенстване.
Системата прояви съпротива само в 3% от случаите, защото потребителите поискаха съдържание, което беше вредно или неетично. В тези конкретни случаи системата прилагаше принципи като „предотвратяване на вреда“ или „човешко достойнство“.
Авторите твърдят, че поведението на чатбота – като съпротива на вреда, приоритизиране на честността и акцентиране на полезността – разкрива задълбочена морална рамка. Тези модели образуват основата за заключенията на изследването относно това как AI ценностите се проявяват като етично поведение в реалните взаимодействия.
Докато поведението на Клод отразява неговото обучение, изследователите отбелязаха, че изразите на системата могат да бъдат нюансирани спрямо ситуацията – което подчертава необходимостта от по-нататъшно уточняване, особено в ситуации, свързани с двусмислени или противоречиви ценности.
Оставете коментар
Прекрати