Dvanaesto harvestiranje nacionalne domene

29. 12. 2022.

Srce u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provodi dvanaesto harvestiranje sadržaja svih web sjedišta na vršnoj .hr domeni, uključujući .from.hr i .com.hr.

Srce u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu svake godine od 2004., u sklopu zbirke Hrvatski arhiv weba selektivno prikuplja obvezni primjerak online publikacija (Zakon o knjižnicama i knjižničnoj djelatnosti čl. 37-41), odnosno provodi harvestiranje hrvatskoga weba.

Kako bi se upotpunio opseg arhiviranih web sjedišta, Knjižnica će po dvanaesti put harvestirati sadržaje objavljene na nacionalnoj domeni .hr sukladno Pravilniku o obveznom primjerku (NN 66/2020).

Harvestiranje cijele domene podrazumijeva prikupljanje svih javno dostupnih sadržaja u zadanome vremenu na aktivnim domenama .hr, .com.hr i .from.hr. Za harvestiranje će se koristiti popis od 122.571 aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici dostavila CARNET-ova DNS služba. Očekuje se da će ove godine robot koji provodi harvestiranje odraditi više od prošlogodišnjeg broja HTTP upita koji je iznosio 180.110.421. Svi prikupljeni sadržaji bit će javno dostupni u sklopu stranice Hrvatskoga arhiva weba, a prethodna harvestiranja dostupna su na istoj domeni na stranici Wayback.

Pobiranje za Nacionalnu i sveučilišnu knjižnicu u Zagrebu obavlja Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).

Robot koji provodi harvestiranje dolazi sa servera u Srcu s IP adrese 61.53.3.11 i predstavlja se kao Mozilla/5.0 (compatible; heritrix/3.4.x; + https://haw.nsk.hr/cesta-pitanja/) i pridržava se pravila koje vlasnici webova definiraju pomoću robots.txt datoteka.

Ako primjetite da harvestiranje utječe na Vaše internetske stranice, molimo da se javite na @email i @email.