Trinaesto harvestiranje nacionalne domene

18. 12. 2023.

Srce u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provodi trinaesto harvestiranje sadržaja svih web sjedišta na vršnoj .hr domeni.

Srce u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu u sklopu zbirke Hrvatski arhiv weba od 2004. selektivno prikuplja obvezni primjerak online publikacija prema Zakonu o knjižnicama i knjižničnoj djelatnosti (čl. 37-41). Kako bi se upotpunio opseg arhiviranih online publikacija, trinaesti put će biti provedeno pobiranje (harvestiranje) sadržaja objavljene na nacionalnoj domeni .hr u skladu s Pravilnikom o obveznom primjerku (NN 66/2020).

Harvestiranje cijele domene podrazumijeva prikupljanje svih javno dostupnih sadržaja u zadanome vremenu na aktivnim domenama .hr, .com.hr i .from.hr. Za harvestiranje će se koristiti popis od 128.941 aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici dostavila CARNET-ova DNS služba. Očekuje se da će ove godine robot koji provodi harvestiranje prikupiti više od 24.7 TB koliko je preuzeto s weba tijekom harvestiranja 2022. godine. Svi prikupljeni sadržaji bit će javno dostupni u sklopu stranice Hrvatskoga arhiva weba, a prethodna harvestiranja dostupna su na na stranici Wayback.

Pobiranje za Nacionalnu i sveučilišnu knjižnicu u Zagrebu obavlja Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).

Robot koji provodi harvestiranje dolazi sa servera u Srcu s IP adrese 61.53.3.11 i predstavlja se kao Mozilla/5.0 (compatible; heritrix/3.4.x; + https://haw.nsk.hr/cesta-pitanja/) i pridržava se pravila koje vlasnici webova definiraju pomoću robots.txt datoteka.

Ako primijetite da harvestiranje utječe na Vaše internetske stranice, molimo da se javite na @email i @email.