Слепите петна на Facebook, които могат да разпалят опасни военни конфликти
Социалната мрежа няма как да овладее речта на омразата на някои места, защото не познава езика им
Години наред главният изпълнителен директор на Facebook Марк Зукърбърг обясняваше, че мисията на социалната мрежа е да свърже целия свят. С около 3 млрд. потребители, неговата компания се доближи повече от всяка друга до изпълнението на тази амбициозна цел. Зашеметяващата глобална експанзия обаче си има цена.
Собствените изследвания на Facebook многократно предупреждават за лошата подготовка за справянето с проблеми като речта на омразата и дезинформацията на езици, различни от английския. Това потенциално прави потребителите в някои от най-нестабилните от политическа гледна точка държави по-уязвими към насилие в реалния свят, сочат вътрешни документи, видени от CNN.
Файловете са част от сведенията, направени пред Комисията по ценните книжа и борсите и предоставени на Конгреса в редактирана форма от правния съветник Франсис Хауген. Консорциум от 17 американски новинарски организации получи достъп до т.н. Facebook Papers, на базата на които публикува поредица от материали, разкриващи компрометираната корпоративна среда.
В страните, които самата Facebook определя като „рискови“ – вътрешно обозначение, показващо текущата нестабилност – се говорят множество езици и диалекти, включително в Индия, Пакистан, Етиопия и Ирак. Модераторските екипи на социалната мрежа често са оборудвани да се справят само с някои от тези наречия, поради което голямо количество реч на омразата и дезинформация все още си намират път до платформата.
Приложенията на Facebook поддържат повече от 100 различни езика в световен мащаб, но не и глобалните екипи за модериране на съдържание. По информация на самата компания с тази дейност са заети 15 000 души, които преглеждат публикации на повече от 70 езика. Недостатъците обаче са налице, става ясно от вътрешните документи.
Има и проблеми с превода за потребители, които може да искат да докладват за проблеми. Една изследователска бележка, например, показа, че само няколко „категории злоупотреби“ за докладване на реч на омразата в Афганистан са били преведени на местния език пущу. Документът е с дата 13 януари 2021 г., месеци преди талибанската екстремистка групировка да превземе страната.
„Освен това, пущунският превод на речта на омразата изглежда не е точен“, пише авторът на документа, като посочва, че повечето от подкатегориите на речта на омразата, за които потребителят трябва да докладва, все още са на английски. Инструкциите на другите афганистански наречия също не са изрядни.
Facebook Papers, които отразяват собствените изследвания на компанията, разкриват пропуските в способността ѝ да предотвратява речта на омразата и дезинформацията в редица страни извън Съединените щати, където е централата ѝ. Това само подклажда нарастващите опасения относно възможностите на компанията да контролира своята огромна платформа и да предотвратява щети в реалния свят.
Най-крехки са езиково разнообразните места, където се говорят диалекти, които не се говорят от много хора“, каза пред консорциума Хауген, която бе част от етичния екип на Facebook, занимаващ се с въпроси като дезинформация и реч на омразата.
Тя обясни, че Facebook обикновено добавя нов език към алгоритмите си след случай на кризисни моменти. Това означава, че новите езикови модели се обучават в реално време в страни, които вече може да са изложени на риск от етническо насилие или дори геноцид. Подобен е случаят с разширяването на автоматизираните системи през първата половина на тази година, отчасти въз основа на „риска от офлайн насилие“. Така са включени амхарски и оромо, два от най-разпространените езици в Етиопия, която е подложена на жестока гражданска война от близо година.
Инвестициите на Facebook в подобряването на защитата са глътнали 13 млрд. долара от 2016 г. насам.
Езикови слепи петна по света
С повече от 800 милиона интернет потребители Индия отдавна е в центъра на усилията на Facebook за бъдещ растеж на нововъзникващите пазари. Компанията опита през 2016 г. да предостави безплатен интернет в страната чрез своята програма Free Basics, по-късно инвестира 5.7 милиарда долара, за да си партнира с компания за цифрови технологии, собственост на най-богатия човек в Индия.
Сега азиатската държава е най-големият пазар на Facebook по размер на аудиторията, с повече от 400 милиона потребители в различните ѝ платформи. Но в документите изследователите отбелязват, че системите на компанията се провалят в усилията си да се справят с речта на омразата в страната.
Facebook разчита на комбинация от изкуствен интелект и рецензенти (както служители на пълен работен ден, така и независими изпълнители), за да премахне вредното съдържание. Но моделите на AI трябва да бъдат обучени да откриват и премахват реч на омразата, като се използват примерни думи или фрази, известни като „класификатори“. Това изисква разбиране на местните езици.
„Липсата ни на хинди и бенгалски класификатори означава, че голяма част от това съдържание никога не се маркира или не се предприемат действия“, пишат изследователи от Facebook във вътрешна презентация за антимюсюлманската реч на омразата в страната.
Тези два езика са сред най-популярните в Индия, говорени колективно от повече от 600 милиона души, според последното преброяване на населението в страната през 2011 г. Говорителят на Facebook каза, че компанията е добавила класификатори на реч на омразата за хинди през 2018 г. и за бенгалски през 2020 г.
„Разработването на AI наистина отнема време. Отнема време, за да се преведат стандартите на общността и подобни неща“, каза Евелин Дюк, старши научен сътрудник в Knight First Amendment Institute на Колумбийския университет, който се фокусира върху глобалното регулиране на онлайн речта и проблемното съдържание.
Но вместо да правят това преди да влязат на пазара, те са склонни да го правят след това, след като проблемите се появят.“
Борбите на Facebook с вредното съдържание в определени региони извън Съединените щати имат невероятно високи залози поради големия си размер и обхват. Но също така е симптоматично за по-големите недостатъци на начина, по който американските технологични фирми работят в чужбина на пазари, които може да са по-малко доходоносни и по-малко проверявани от Съединените щати, отбелязва Дюк.
Макар че като цяло е трудно да се идентифицира какви ресурси технологичните платформи отделят за задграничните пазари, тъй като те са склонни да не правят по-голямата част от тези данни публични, „знаем, че всички те са доста лоши“, споделя още тя.
Всички те инвестират значително по-малко в задграничните пазари.“
Проблемите на Facebook с чуждите езици, за някои от които по-рано писа Wall Street Journal, се простират до някои невероятно нестабилни страни като Етиопия и Афганистан.
В Афганистан изследователите, изучавали откриването на реч на омразата в страната, установиха, че системите за прилагане на Facebook все още са силно ориентирани към английски език, дори в региони, където по-голямата част от населението не го говори. „В страна като Афганистан, където сегментът от населението, което разбира английски език, е изключително малък, правенето на тази система безупречна по отношение на превода, е от първостепенно значение“, казаха те.
От Facebook изтъкват, че са наели повече хора за тези цели в страни като Мианмар и Етиопия през последните две години. Тази година са привлекли модератори на съдържание на 12 нови езика. „Добавянето на повече езикови познания беше ключова област на фокус за нас“, пише в блог публикация.
Всъщност езиковият дефицит на Facebook може да е най-сериозен в един от най-нестабилните региони в света: Близкия изток.
Вътрешно проучване на системите за модериране на съдържанието на арабски език на Facebook изтъкна недостатъците в способността на компанията да се справя с различни диалекти, говорени в Близкия изток и Северна Африка.
„Арабският не е един език... по-добре е да го считаме за семейство езици – много от които са взаимно неразбираеми“, пише авторът на документа, добавяйки, че социалните и политическите контексти във всяка страна правят още по-трудно идентифицирането и премахване на речта на омразата и дезинформацията.
Например, говорещ марокански арабски език не би могъл непременно да предприеме подходящи действия срещу съдържание от други страни като Алжир, Тунис или Либия, се казва в документа. Той идентифицира йеменските и либийските диалекти, както и тези от „наистина всички държави от Персийския залив“ като „или липсващи, или [с] много ниско представителство“ сред рецензентите на Facebook.
Според документа офисите, фокусирани върху подкрепата на арабскоговорящата общност, са предимно в мароканския град Казабланка и германския Есен. В европейската локация са наети изпълнителите, които Facebook използва, за да управляват екипите, наети на местно ниво поради проблеми с визи. Авторът на документа оспорва твърдението на служителите в офиса в Казабланка, според което наетите там са в състояние да обработват съдържание на всеки арабски диалект.
Това не може да бъде така, въпреки че разбираме натиска да направим това твърдение“, пише авторът на документа.
Арабският е особена уязвима точка за Facebook, подчертава документът – поради критични проблеми в страните и регионите, които го говорят.
Авторът отбеляза, че „всяка арабска нация“, различна от региона на Западна Сахара, е определена като „Изложена на риск“ от Facebook и „се занимава с такива тежки проблеми като тероризма и сексуалния трафик“.
„Със сигурност е от най-голямо значение да се вложат повече ресурси за задачата за подобряване на арабските системи“, пише авторът. Авторът на документа също изглежда е съгласен с критиците на Facebook поне по една точка: необходимостта компанията да предприеме стъпки за ограничаване на потенциалните кризи, преди те да се случат.
Препоръките в документа, пише авторът, „трябва да подобрят способността ни да изпреварваме опасни събития, PR пожари и проблеми с почтеността в страните с висок приоритет, изложени на риск, вместо да си играем на наваксване“.