Губим дигиталната си история. Може ли интернет архивът да я спаси?
Историците от бъдещето може да се затруднят да разберат живота в началото на XXI век
Проучвания показват, че 25% от уеб страниците, създадени в периода 2013 – 2023 г., са изчезнали. Няколко организации се състезават да спасят миналото на уеб пространството, но нови рискове заплашват неговото съществуване, пише BBC.
Възможно е, благодарение на останали части от папирус, мозайки и восъчни табли, да разберем с какво са се хранили жителите на Помпей преди 2000 години. Ако разбирате достатъчно средновековен латински, може да научите и колко добитък е бил отглеждан във фермите в Нортъмбърланд през XI век в Англия – благодарение на Книгата на Страшния съд, най-старият документ, съхраняван в Националния архив на Обединеното кралство. Социалният живот през Викторианския период също излиза наяве чрез писмата и романите, останали от онова време.
Но историците от бъдещето може да се затруднят да разберат живота в началото на XXI век. Това се дължи на потенциално истороизтриващата комбинация от това как живеем животите си дигитално и от липсата на усилия да се архивира световната информация такава, каквато се формира в наши дни.
Въпреки това група от организации се противопоставят на силите на дигиталния хаос – много от тях, управлявани от доброволци с малко институционална подкрепа. Нищо не се свързва повече със „защита“ от мрежата Internet Archive (букв. „Интернет Архив“), американско НПО, базирано в Сан Франциско, чието начало датира от 1996 г. като проект на интернет пионера Брустър Кал.
Организацията е започнала може би най-амбициозния проект за дигитално архивиране на всички времена, събирайки 866 млрд. уеб страници, 44 млн. книги, 10,6 млн. видеоклипове на филми и телевизионни програми и др. Събрани в шепа центрове за данни, разпръснати по целия свят, колекциите на Архива и няколко подобни групи са единствените неща, които пречат на пълната цифрова забрава да настъпи.
„Рисковете са много. Не само, че технологиите може да се провалят, това определено се случва. По-важното е, ако институциите се провалят или компаниите рухнат“, казва Марк Грейъм, директор на машината на Архива Wayback machine - инструмент, който събира и пази копия за следващите поколения.
„Има многобройни стимули за пускане на съдържание онлайн, но малко натиск към компаниите да го поддържат в дългосрочен план“, казва Грейъм.
Въпреки постиженията на Интернет архива до момента, други подобни организации са изправени пред финансови заплахи, технически предизвикателства, кибератаки и правни битки от фирми, които не харесват идеята за свободно достъпни копия на тяхната интелектуална собственост. И както показват последните съдебни загуби, проектът за спасяване на интернет може да бъде също толкова мимолетен, колкото и съдържанието, което се опитва да защити.
Все повече и повече от нашите интелектуални начинания, от нашето забавление, новини и разговори съществуват единствено в цифрова среда“, казва Грейъм. „Тази среда по своята същност е крехка"
Да спасяваш историята
Една четвърт от всички уеб страници, които са съществували в някакъв момент между 2013 и 2023 г. сега… вече ги няма, сочи скорошно проучване на Pew Research Center, мозъчен тръст, базиран във Вашингтон. Изследователите откриват, че колкото по-стара е една уеб страница, толкова по-голям е проблемът: 38% от уеб страниците, които Pew се е опитал да отвори и които са съществували през 2013 г., вече не функционират. Същото важи и за по-нови публикации. Около 8% от уеб страниците, публикувани в даден момент от 2023 г., са изчезнали до октомври същата година.
Това не е проблем само за любителите на историята и интернет маниаците. Според проучването един на всеки пет правителствени уебсайта съдържа поне една повредена връзка.
Pew установява още, че повече от половината статии в Wikipedia имат неработеща връзка в раздела за препратки, което означава, че доказателствата, подкрепящи информацията в онлайн енциклопедията, бавно изчезват.
Благодарение на работата на Интернет архива, не всички тези мъртви връзки са напълно недостъпни. Десетилетия наред проектът Wayback Machine на Archive изпраща армии от роботи да пълзят из интернет лабиринтите. Тези системи изтеглят функционални копия на уебсайтовете – често заснемайки едни и същи страници няколко пъти в рамките на един ден – и ги правят публично достъпни безплатно.
Няколко други организации, големи и малки, работят по подобни проекти. Библиотеката на Конгреса на САЩ, например, съхранява правителствени уебсайтове, сайтове на членове на Конгреса и колекция от американски новинарски сайтове. Библиотеката също така запази копие от всеки един туит, изпратен от основаването на Twitter (сега известна като X), докато проектът не бе закрит през 2017 г.
Други правителства имат свои собствени инициативи. Уеб архивът на Обединеното кралство провежда ежегодно обхождане на уебсайтове с домейни .UK, създавайки моментна снимка на британския интернет поне веднъж годишно.
Но обхватът на тези проекти не е голям, докато Интернет архивът се стреми към цялостен подход. Като се имат предвид наличните ресурси, би било невъзможно да се събере целият интернет. В зависимост от това, което търсите, колекцията на Интернет архива е толкова подробна, че понякога може да се усети като пълен запис на мрежата.
Успехът поражда самодоволство
Обществено достъпните документи на Архива спомагат за съхраняването на записи за живота ни в настоящата епоха. Стана стандартна практика в Wikipedia да се цитират копия на уебсайтове от Wayback Machine, а не самите оригинални уебстраници.
Организацията, също така, съхранява огромна колекция от съдържание, предхождащо дигиталната ера. Любимият комедиен сериал от 1977 г. "Fernwood 2 Night" не е достъпен в нито една услуга за стрийминг, но може да се гледа безплатно в Интернет архива. Книги, списания и уебсайтове цитират сканирани онлайн копия на книги в Архива, които не са налични във физическите библиотеки.
Сред големите колекции, които Wayback Machine спаси от дигиталното сметище, са и записи на уебсайтове, изградени на GeoCities, вече несъществуваща услуга за персонален уеб хостинг. Много преди социалните медии, GeoCities бе сред първите платформи, които направиха лесно създаването на собствен уебсайт.
Миналата година сайтът за технологични новини CNET бе обект на критики, след като изтри десетки хиляди статии. Тогава от сайта коментираха, че изтритото е запазено в Wayback Machine. Много критици обаче бяха на мнение, че компанията приема Интернет архива за даденост, прехвърляйки собствените си отговорности.
Важно е да си припомним какво представлява Интернет Архивът - НПО, финансирано от дарения от благотворителни фондации. Това е безкраен проект с експоненциално нарастващи разходи. Интернет архивът доброволно пое мантията да бъде водеща световна библиотека за нашия дигитален живот. Докато мрежата наближава своето четвърто десетилетие, този напълно неофициален проект се превърна в основен стълб на интернет.
Но с нарастването на зависимостта ни от Интернет архива, нарастват и заплахите, които „изяждат“ усилията му.
Слабите места на системата
Миналата седмица организацията обяви голямо партньорство с Google, в което технологичният гигант ще включва връзки към Wayback Machine в резултатите от търсенето – въпреки че нито една от двете страни не публикува финансови подробности за сделката.
Но други скорошни новини показват, че проектът е с деликатен характер.
Възможните слабости се проявяват в съдебно дело срещу Архива от четирима големи книгоиздатели, които твърдяха, че практиката на сканиране на физически книги и на заемане на цифровите им копия нарушава Закона за авторското право на САЩ. Преди пандемията Интернет архивът даваше назаем само по едно цифрово копие наведнъж за всяка физическа книга в своята колекция. Но по време на затварянето заради коронавируса, организацията премахна това ограничение, позволявайки на покровителите да заемат неограничени цифрови копия на книги.
През 2023 г. американски съд постанови, че практиката е незаконна, а в началото на септември жалбата на НПО-то срещу това решение бе отхвърлена.
Интернет архивът води и още едно съдебно дело срещу музикални лейбъли за дигитализирането на записи, което може да му струва 400 млн. долара, ако загуби. Това е сума, която може да застраши оцеляването на НПО-то.
Директорът по библиотечните услуги на Интернет архива Крис Фрийланд смята, че организацията преразглежда становището на съдилищата относно решението.
Правните битки в съда не са единствените опасности, застрашаващи света на цифровото съхранение.
Уеб архивът на Британската библиотека в Обединеното кралство се сблъска с някои сериозни технически предизвикателства, когато кибератака свали дигиталните ѝ системи от онлайн пространството през октомври 2023 г. Почти година по-късно британският Уеб архив все още се бори с последствията - достъпът до голяма част от колекцията му все още е недостъпен.
През май 2024 г. Интернет архивът обяви, че е в разгара на голяма DDoS атака. При DDoS атаките злонамерени участници създават автоматизирани системи, за да бомбардират сайтове с посещения, опитвайки се да ги изтласкат офлайн, като претоварват сървърите им. В случая на Архива, неговият инструмент Wayback Machine спира да работи вследствие на атаката. Това означава, че редовният барабанен ритъм на архивиране е бил нарушен за известно време и са възможни постоянни пропуски в историческите записи.
Ако работата на Интернет архива спре и „тази празнина не бъде незабавно запълнена, тогава голяма част от това, което в момента е достъпно,, ще бъде изложено на риск“, казва Грейъм. Той е категоричен, че Интернет архивът няма да се откаже от своите отговорности скоро време, но за проекта е добре дошла външна помощ. „Има възможности за много други да допринесат по различни начини“, казва той.
Споделени отговорности, разделени приоритети
Без официални усилия за организация на усилията за запазване на интернет страниците, проектът е оставен в ръцете на любители, доброволци и няколко групи неофициални организации, които обикновено работят независимо.
„Има логика архивният отговор да е децентрализиран“, казва Мар Хикс, историк на технологиите в Университета на Вирджиния. „Но един от проблемите са разнообразните приоритети.“
Хикс посочва, че едно от първите неща, които всеки архивист ще вземе предвид, когато създава архив, е на какво да даде приоритет. „И когато е толкова децентрализирано, приоритетите ще бъдат много различни“, казва Хикс. „Ще има групи, които дават приоритет на опитите да грабнат всичко – колкото е възможно повече“, коментира експертът пред BBC, добавяйки, че други биха се фокусирали само върху определени области.
Опасенията в такъв случай са, че с децентрализиран подход е възможно да има припокриване, което означава, че ценните ресурси за архивиране се губят за получаване на дублирани сайтове или дори на създаването на три техни копия – докато някои области, които може да имат историческо значение, се пренебрегват.
„Архивистите ще ви кажат, че тези проблеми съществуват от много дълго време“, казва Хикс. Но те се влошават от нивото на нещата, които се произвеждат в нашия дигитален свят. Близо милиард имейли се изпращат всеки ден. YouTube съобщава, че всяка минута на платформата се публикува видео съдържание с продължителност над 500 часа.
Интернет е „по същество пожарен маркуч от информация и материали“, казва Хикс. „Няма смисъл да се опитваме да хванем всичко, което излиза от пожарния маркуч. Това няма да има смисъл от гледна точка на ресурсите.“
„Ние, като историци, имаме същите проблеми“, казва Хикс. „Имаме изобилие от документи от миналото. Но имаме само определени документи и гласове на определени хора и много от тези гласове, които липсват, са невероятно важни и са изтрити.“
Според Хикс трябва да има някакъв приоритет за това какво се спасява от цифровите отпечатъци на нашето поколение. В противен случай рискуваме бързо растящите разходи да вземат превес над усилията за спасяване на историята на мрежата – да не говорим за океаните от цифрови файлове, които живеят офлайн.
"Има вакуум, който малко хора, освен шепа вманиачени архивисти, запълват. Не е ясно чия е отговорността да архивира [интернет] или в чии интереси би служил“, казва Хикс.
Едно нещо е ясно обаче, смята историкът, всички трябва да платим, за да подкрепим борбата за опазване. „От много прагматична гледна точка, ако не платите на тези хора и не се уверите, че тези архиви са финансирани, те няма да съществуват в бъдеще, те ще се развалят и тогава смисълът от събирането им ще изхвърчи през прозореца. Целият смисъл на архива не е, че той просто се събира, а че продължава да съществува за неопределено време в бъдещето".