IT индустрията има сериозен проблем, а Ману Чопра – решение
Тазгодишната лудост около генеративния изкуствен интелект извади на показ недостатъците с данните и незападните езици
В едностайния си дом на тиха уличка в Агара, малко селце на три часа югозападно от Бангалор, оградено от оризови и фъстъчени полета, Прети П. седи на табуретка до шевна машина. Обикновено тя прекарва часове в кърпене или шиене на дрехи, като получава средно по-малко от 1 долар на ден за работата си. Сега обаче вместо да шие – чете.
Застанала с телефон в ръка, тя изчита едно изречение на родния си език каннада. Прави кратка пауза, след което прочита друго. Прети е сред 70-те служители, наети в Агара и съседните села от стартъп, наречен Karya и занимаващ се със събиране на текстови, гласови и графични данни на местните езици в Индия.
Прети е част от огромна, невидима глобална работна сила – работеща в страни като Индия, Кения и Филипините – която събира и маркира данните, на които чатботовете и виртуалните асистенти с изкуствен интелект разчитат, за да генерират подходящи отговори на потребителските запитвания. За разлика от много други на сходни позиции обаче, Прети получава добро заплащане за усилията си, поне по местните стандарти.
След три дни работа с Karya тя е спечелила 4500 рупии (54 долара), което надхвърля поне четирикратно сумата, която 22-годишната Прети обикновено изкарва като шивачка за цял месец. По думите ѝ парите ще ѝ стигнат, за покрие вноската по заема си за този месец.
Всичко, от което се нуждая, е телефон и интернет."
Karya е основана през 2021 г., преди възхода на ChatGPT. Тазгодишната лудост около генеративния изкуствен интелект обаче увеличи ненаситното търсене на данни от страна на технологичните компании. Само в Индия се очаква до 2030 г. да има близо един милион служители, занимаващи се с анотиране на данни, според Nasscom, търговската организация на технологичната индустрия в страната.
Karya се отличава от другите доставчици на данни, като предлага на своите служители – предимно жени и предимно в селските общности – 20 пъти по-висока заплата от преобладаващото минимално възнаграждение, с обещанието да произвеждат по-качествени данни на индийски език, за които технологичните компании ще плащат повече.
„Всяка година големите технологични компании харчат милиарди долари за събиране на данни за обучение на своите модели за изкуствен интелект и машинно обучение“, казва в интервю за Bloomberg Ману Чопра, 27-годишният компютърен инженер, завършил в Станфорд, който стои зад стартъпа.
Ниското заплащане на тази работа е провал на индустрията.“
Ако ниските заплати са недостатък на индустрията, то Силициевата долина носи известна отговорност за това. От години технологичните компании възлагат задачи като етикетиране на данни и модериране на съдържание на по-ниско платени изпълнители в чужбина. Но сега някои от най-известните имена в Силициевата долина се обръщат към Karya, за да се справят с едно от най-големите предизвикателства пред AI продуктите си – намирането на висококачествени данни за създаване на инструменти, които могат да обслужват по-добре милиарди потенциални потребители, които не говорят английски език. Тези партньорства могат да представляват мощна промяна в икономиката на индустрията за данни и отношенията на Силициевата долина с доставчиците на данни.
Microsoft Corp. използва Karya, за да набавя данни на местната реч за своите продукти за изкуствен интелект. Фондация „Бил и Мелинда Гейтс“ работи с Karya за намаляване на половите отклонения в данните, които се използват в големи езикови модели – технологията, на която се основават чатботовете с изкуствен интелект. Google пък се опира на Karya и други местни партньори, за да събере данни за речта в 85 индийски района. Гигантът, собственост на Alphabet, планира да разшири обхвата си до всеки район, за да включи езика или диалекта, на който се говори сред по-голямата част от населението, и да изгради генеративен модел на AI за 125 индийски наречия.
Много услуги за изкуствен интелект са разработени непропорционално с англоезични интернет данни, като статии, книги и публикации в социалните медии. В резултат на това тези модели на AI отразяват в много малка степен иначе голямото разнообразие от езици за интернет потребителите в други държави, които имат достъп до смартфони и приложения, задвижвани от AI. Близо един милиард такива потенциални потребители живеят само в Индия, тъй като правителството настоява за внедряване на инструменти с изкуствен интелект във всяка сфера – от здравеопазването до образованието и финансовите услуги.
Как AI помага в борбата с бедността в Индия
„Индия е първата незападна страна, в която правим това и реално тестваме Bard на девет индийски езика“, каза Маниш Гупта, ръководител на Google Research в Индия, визирайки AI чатбота на компанията. По думите му над 70 индийски езика/наречия, използвани от над един милион души, досега не са били застъпени изобщо дигитално. И това е сериозен проблем.
Гупта изброява списък с проблеми, които компаниите за изкуствен интелект трябва да решат, за да могат да обслужват интернет потребителите в Индия:
- Неанглоезичните набори от данни са с отчайващо ниско качество;
- почти не съществуват данни за разговори на хинди и други индийски езици;
- а цифровизираното съдържание от книги и вестници на индийски езици е твърде ограничено.
Когато се използват за южноазиатски езици, някои големи езикови модели се оказва, че измислят думи и се затрудняват с основната граматика. Съществуват и опасения, че тези услуги с изкуствен интелект могат да отразяват по-изкривена представа за други култури. От решаващо значение е да има широко представителство на данни за обучение, включително данни, които не са на английски език, така че системите за изкуствен интелект „да не затвърждават вредни стереотипи, да не създават реч на омразата, нито да дават дезинформация“, казва Мехран Сахами, професор в катедрата по компютърни науки в Станфордския университет.
В този контекст стартъпът Karya има своето социално въздействие, като успява да разшири кръга на представените езици отчасти чрез целенасочено наемане на хора в селските райони, които иначе не биха могли да бъдат наети за такива задачи. Приложението Ману Чопра може да работи без достъп до интернет и осигурява гласова поддръжка за хора с ограничена грамотност. В Индия над 32 000 души са влезли в приложението, като са изпълнили 40 милиона платени цифрови задачи, като например разпознаване на изображения, подравняване на контури, анотиране на видео и анотиране на реч.
За Чопра целта е не само да подобри предлагането на данни, но и да се бори с бедността. Основателят на Karya е израснал в беден квартал, наречен Шакур Басти в Западен Делхи. Той печели стипендия за обучение в елитно училище, където е тормозен от съучениците си с подмятания, че „мирише на беден“. Чопра постъпва в Станфорд, за да учи компютърни науки, но осъзнава, че мрази начина на мислене „как се правят милиарди долари“, с който се сблъсква там.
След като се дипломира през 2017 г., той започва да захваща с отдавнашната си мечта: да използва технологиите за справяне с бедността. „Необходими са само 1500 долара спестявания, за да може един индиец да влезе в средната класа“, казва Чопра.
Но на изпадналите в бедност може да им отнеме 200 години, за да достигнат това ниво на спестявания.“
Той научава, че Microsoft е плащала голяма сума за събирането на речеви данни, макар и с лошо качество, за да захранва своите системи и изследвания в областта на изкуствения интелект. През 2017 г. например, въпреки че са били налични 1 милион часа дигитализирани данни за маратхи – език, който се говори в Мумбай и региона в Западна Индия, само 165 часа са били достъпни за закупуване. Оттогава стартъпът на Чопра е събрал 10 000 часа речеви данни на маратхи за услугите за изкуствен интелект на Microsoft, прочетени от мъже и жени от пет различни региона.
„Технологичните компании искат данните, с акцент и всичко останало“, казва Чопра. „Те искат това да е в речта – защото така изглежда естественият език.“
Саикат Гуха, изследовател в Microsoft Research India, който се занимава с етиката на събирането на данни, каза, че е използвал съдържанието на Karya за проект, който помага на хората със зрителни увреждания да си намерят работа. „Качеството на данните е много по-добро от всеки друг източник, който съм използвал“, посочва той.
Ако плащате справедливо на служителите, те са по-ангажирани с работата си и крайният резултат е по-добри данни.“
Междувременно повече от 30 000 млади жени с училищно образование работят с Karya, за да помогнат за събирането на „полово ориентирани“ набори от данни. Сред задачите им например е да помогнат на моделите, които ще ползват обработените от тях данни, да разберат, че лекарят или шефът невинаги е „той“. Това е най-голямото подобно усилие на индийски езици и ще послужи като основа за създаване на набори от данни за намаляване на свързаните с пола предразсъдъци.
Karya не спира с Индия. Компанията заяви, че води преговори за продажба на платформата си като услуга на организации в Африка и Южна Америка, които ще извършват подобна работа.
Засега жените в Йеландур, друго село югозападно от Бангалор, с нетърпение очакват следващия проект на Karya: транскрибиране на аудиозапис от каннада. Сред тях е 25-годишната Шамбхави С., която е спечелила няколко хиляди рупии от предишна задача, докато е работила в дома си вечер, след като е сложила децата си да спят.
Не знам какво е изкуствен интелект, не съм чувала за него“, казва Шамбхави. „Искам да печеля и да образовам децата си, за да могат да се научат да го използват.“