Hrvatski prostor weba - što smo naučili o hrvatskom webu u 15 godina mjerenja

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina.

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina, a poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA". Cilj nam je bio „izmjeriti hrvatski web“, odnosno prikupiti informacije o veličini i sadržaju hrvatskoga prostora weba.

Odlučili smo kako će mjerenjem biti obuhvaćeni resursi dostupni HTTP odnosno HTTPS protokolom s poslužitelja u .hr vršnoj internetskoj domeni. Time je precizno definiran mjereni informacijski prostor.

Mjerenjem se prije svega željelo ustanoviti:

  • veličinu prostora weba,
  • korištene formate datoteka prema MIME standardu,
  • omjer teksta, slike, audio i video zapisa,
  • obim i sadržaj meta podataka.

„Složenost i dinamičnost informacijskoga prostora weba predstavljala je na samom početku prije 15 godina, izazov kao i danas. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl. surface web) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web)“, naglasio je mr. sc. Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu.

Prvo je mjerenje izvedeno korištenjem programske podrške razvijene u Srcu. Započelo je 29. ožujka i trajalo sve do 7. svibnja 2002. godine. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Prikupljeni podaci prvog mjerenja prostora weba predstavljali su neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe.

Nakon prvog, nastavili smo unapređivati i provoditi mjerenja sve do 2008. godine kada smo u proljeće dovršili posljednje mjerenje weba, čiji su rezultati predstavljeni pod oznakom projekta MWP6. Kroz ukupno provedenih šest mjerenja stručni je tim prikupio znanja i iskustva koja su omogućila uspješnu suradnju s NSK na projektu izgradnje Hrvatskog arhiva weba (http://haw.nsk.hr) i s Hrvatskom informacijsko-dokumentacijskom referalnom agencijom (HIDRA, danas Središnji državni ured za razvoj digitalnog društva) na projektu arhiva DAMIR.

Oba su arhiva u produkcijskom radu više od 10 godina. Izgrađeni su korištenjem programske podrške DAMP (Digitalni arhiv mrežnih publikacija) koja je razvijena u Srcu. HAW je arhiv čija je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine te je po tome jedinstven u Hrvatskoj i svijetu. Nema drugog internetskog servisa koji bi jednakim obuhvatom, sustavno arhivirao sadržaje s hrvatskog weba i nudio im otvoreni pristup. Arhiv DAMIR prikuplja i čuva sadržaje koji su javnosti dostupni kroz internetske usluge Središnjeg državnog ureda za razvoj digitalnog društva (http://www.digured.hr). Oba su arhiva danas udomljena na računalnoj opremi Srca pri čemu stručni tim Srca u suradnji s njihovim vlasnicima skrbi o njihovom radu i razvoju.

Mjerenje postaje harvestiranje

Mjerenje weba, od 2011. godine, zamijenjeno je harvestiranjem. Naime, od te se godine, u okviru HAW-a, pomoću programske podrške Heritrix modificirane u Srcu, provode redovita godišnja harvestiranja - prikupljanja i arhiviranja javno dostupnih sadržaja s hrvatskog prostora weba. Harvestiraju se aktivna sjedišta weba na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine. Harvestiranje je aktivnost komplementarna selektivnom pobiranju sadržaja koje se u okviru HAW neprekidno provodi od samog početka 2004. godine.

U proteklih smo 15 godina, kao izazove u procesu prikupljanja sadržaja, upoznali različite prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija. Naučili smo puno i o samom informacijskom prostoru hrvatskoga weba koji je narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja po svemu su sudeći aktualna i nakon 15 godina.

„Primjerice uzorak izmjeren 2002. godine obuhvatio je 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka. Najveći broj resursa, čak 67%, otpadao je na HTML dok je na slikovne formate otpadalo je 23% resursa. Netom dovršenim harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja su tekst u HTML formatu (51.3%) i slike u JPEG formatu (33.8%)“, zaključio je Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate.

 

Konferencija za novinare o 15 godina mjerenja hrvatskog prostora weba - mr. sc. Miroslav Milinović, pomoćnik ravnatelja Srca i Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate

 

Nataša Dobrenić

Ured za odnose s javnošću