„Колосално неразбиране“: Какъв всъщност е замисълът на BgGPT?
Езиковият модел на INSAIT надхвърля пределите на публичния чатбот
Той не звучи много „умно“, халюцинира, лесно се подхлъзва по манипулации и дори се отрече от създателите си и българските си корени. Определян е като „гаф“, „катастрофа“ и продукт, който подкопава иначе позитивния имидж на Института за компютърни науки, изкуствен интелект и технологии (INSAIT). Стана повод и за поредна доза остри критики срещу държавата за това, че е хвърлила „милиони левове“ (колко точно не се знае) в подкрепа на създаването му.
Той е BgGPT, дългоочакваният голям езиков модел на български език, който заработи официално навръх 3 март. Броени часове след пускането му социалните мрежи бяха залети от подигравателни мемета и коментари по негов адрес.
„Това е начален модел, след няколко седмици ще е още по-добър и ще се изчиства“, заяви в негова защита основателят на INSAIT Мартин Вечев в интервю пред bTV.
На фона на крайните коментари срещу BgGPT експерти в областта на информационните технологии и науката за данните отбелязаха, че големият езиков модел на INSAIT надхвърля пределите на публичния чатбот и не бива само на база интеракцията с него – и то на толкова начален етап в развитието му – да се правят генерални изводи.
Подигравките по адрес на BgGPT са признак на колосално неразбиране какво прави този модел и защо всъщност е голямата работа“, коментира пред Economic.bg Доброслав Димитров, председател на Българската асоциация на софтуерните компании (БАСКОМ).
Важен е контекстът
Платформата, до която масовият български потребител получи достъп навръх 3 март, е нещо като демо или просто един вариант на модела, който INSAIT са създали. Тази версия е пригодена да изпълнява всякакъв вид задачи, за да може да се тества от всеки. И тъкмо тук е скрит един от ключовете към (не)разбирането на BgGPT – хората го сравняват с чатботове, които вече съществуват, но това не е достатъчно само по себе си.
„Това, че не се справя много добре на едно такова всеобхватно поле на действие, е напълно логично“, коментира пред Economic.bg лингвистът и експерт по данни в „Отнотекст“ д-р Никола Тулечки.
Това не е крайният продукт, а само едно демо, което INSAIT са пуснали. То не е това, което се очаква българският бизнес да ползва.“
Според Никола Тулечки е много важно да се има предвид контекста около създаването и целта на BgGPT. „Той се справя по-зле в сравнение с моделите на OpenAI и това е абсолютно очаквано“, коментира експертът и обяснява причината – „Моделът на INSAIT е много по-малък и е такъв по дизайн“.
С други думи, той изобщо не е създаден да се конкурира с ChatGPT на база всеобхватни познания.
Да, със сигурност ще допуска грешки, ще халюцинира и т.н., но това е част от същността на тези модели. Те затова могат да правят нещата, които правят, защото не са линейни, могат да допускат грешки и да се учат“, добавя Доброслав Димитров, председател на БАСКОМ.
Припомняйки как само преди около година хората се подиграваха на ChatGPT, че не знае как се прави таратор, той казва, че сегашното осмиване на неточностите на BgGPT е пръскане на енергия в грешната посока. Вместо това, по-показателна за възможностите му е например бързината му на работа.
В тази връзка Никола Тулечки допълва, че част от постижението на INSAIT се състои именно в избора на архитектура, която най-добре да пасне на целите на приложение.
Размерът има значение
Големината на един езиков модел най-общо казано се определя от броя на параметрите, по които работи той. Когато през януари INSAIT лансира BgGPT за първи път, съобщи, че той разполага със 7 милиарда такива. За сравнение, моделите GPT3 и GPT4 на OpenAI могат да се похвалят съответно с 200 милиарда и 1.3 трилиона. Разликата е огромна, но:
Това, че един модел е голям, не е задължително хубаво“, изтъква Никола Тулечки и посочва една от основните причини – „колкото по-голям е един модел, той става много по-скъп не само за трениране и създаване, а за ползване“.
Никола Тулечки обяснява, че за да може да работи ефикасно един модел, всички негови параметри трябва да могат да се заредят в паметта на използваната инфраструктура. За сравнение, една графична карта поема модели с между 7 и 14 млрд. параметъра. Над тази граница ще трябва втора, което оскъпява процеса.
INSAIT искат да направят малък модел, за да може той да се ползва достъпно от българския бизнес“, посочва Никола Тулечки.
Той дава пример с GPT4, който – за да отговори на едно запитване – вкарва в действие няколко графични карти. „Зад това седи една инфраструктура, която струва около милион долара.“
В този ред на мисли това, че BgGPT не е с размерите на моделите на OpenAI например, е съвсем съзнателно решение и е свързано с идеята българският модел да бъде лесно и бюджетно достъпен.
Моделите на OpenAI могат да се ползват само от много, много мащабна инфраструктура. Докато INSAIT са направили модел, който може да се ползва от всеки – на собствена инфраструктура и на относително ниска цена“, посочва Никола Тулечки.
Той добавя, че не е задължително фирмите да инвестират в закупуването на собствени графични карти, а могат да наемат облачна инфраструктура, върху която да свалят и обучат своя модел.
Отворен, за да бъде адаптиран
Малките му размери и отвореният му характер позволяват българският езиков модел да бъде свален на собствена инфраструктура и пригоден към специфичните нужди на дадена фирма или институция.
Няколко примера за възможни интеграции:
- моделът може да бъде използван за разработването на интерфейс между дадена институция и гражданите, така че да се замени човека на гише. „Когато например искате си платите местния данък, инструментът може ви обясни много ясно защо, колко и къде трябва да го направите, като ще ви спести досадно ровене из страниците на общината“, дава пример Доброслав Димитров.
- може също така да се закачи към някакъв вътрешен източник на данни и да служи отново като интерфейс, който да помага на работещите в тази институция да си говорят по по-продуктивно с данните, които са събрали. „Представете си някакво например много, много добре работеща търсачка върху вътрешните огромни масиви от данни, която да може да ги осмисли, като намира текстови документи, но и връща смислени, аналитични отговори на база на информацията, която се съдържа в тях“, дава пример Никола Тулечки.
- компанията, която се занимава със законодателна материя, може да изгради собствен модел, който да е изключително полезен на юристите в нея, така че да могат да си подготвят договори, да сравняват законодателства между на различните държави, където оперират и пр.
- в сферата на образованието може да се обучи собствен модел върху специфични данни от учебниците на конкретно издателство например, с помощта на който да се дават допълнителни разяснения върху материала.
На въпрос готови ли са българските институции и бизнес да припознаят необходимостта от инвестиции в такива модели, Доброслав Димитров казва, че специално IT фирмите вече го правят. А що се отнася до администрацията, има някои проактивни общини, като бургаската например, които според него също са отворени да яхнат вълната. Специалисти, които да разбират от последващото обучаване на модела за собствените нужди на бизнеса, също има, казва той.
Това е инструмент – много, много мощен инструмент – който може да бъде използван от доста широк кръг от IT специалисти, които пък да подпомогнат живота на такива като мен и вас. Това е голямата новина. И тежката задача е решена от INSAIT“, коментира Доброслав Димитров.
Науката и българският език
Част от тази „тежка задача“ е тренирането на езиковия модел конкретно с български данни. Мнозина се опитаха да парират този ход с коментара, че модели като ChatGPT вече се справят много добре на нашия език. Според Никола Тулечки и Доброслав Димитров обаче това, че BgGPT е изначално обучен на местния език, му дава предимства, които ще са полезни тъкмо при последващите му приложения.
ChatGPT например е обучен предимно с данни на английски език и предимно в контекста на американското законодателство. Това означава, че той е много по-полезен за техните казуси и проблематики, отколкото на един българин. Защото чисто и просто данните, с които е обучен, не са наши“, обяснява Доброслав Димитров.
Никола Тулечки отново обръща внимание, че не фактологията е силната страна на модела, а това, че е научен „да разбира българския език в неговите нюанси“.
„Оттам нататък се изисква допълнителна работа върху отворения модел, така че да се научи да решава някаква конкретна задача.“
Необходимостта от наш собствен модел е абсолютно задължителна, тъй като без собствена суверенна наука в тази посока нямаме кой знае какъв шанс и за нас би останало онова, което по случайност големите са се сетили да ни обърнат внимание“, добавя Доброслав Димитров.