Provedeno deseto harvestiranje nacionalne domene

27. 1. 2021.

Srce je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu u razdoblju od 22. prosinca 2020. do 7. siječnja 2021. provelo deseto harvestiranje hrvatskog weba. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i .com.hr. 

Uspješno je odrađeno 180.379.532 upita i harvestiranjem preuzeto 19 TB sadržaja spremljenog u format WARC. WARC datoteke komprimirane su te zauzimaju 11 TB diskovnoga prostora.

Korišten je popis od 111.357 aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNet-ova DNS služba, a pobiranje je provedeno pomoću alata otvorenoga koda Heritrix. Robot koji je provodio harvestiranje dolazio je sa servera u Srcu s adresom 161.53.3.11 i predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.x; + https://haw.nsk.hr/cesta-pitanja/).

Sadržaj desetog harvestiranja .hr domene dostupan je na stranici Hrvatskoga arhiva weba, gdje se mogu pregledavati sadržaji pohranjeni u prethodnih devet harvestiranja, tematska harvestiranja, kao i sadržaji prikupljeni selektivnim pobiranjima.

Hrvatski arhiv weba