Priprema podataka u R-u

Šifra tečaja:

S770

Termini održavanja:

Raspored tečajeva

O tečaju:

U tečaju Priprema podataka u R-u (S770) obrađuju se metode i tehnologije ključnih koraka kod svake podatkovne analize – učitavanje podataka, njihova prilagodba i osnovna eksploratorna analiza. Polazniku se pruža uvid u sučelja i pakete jezika R koji su posebno dizajnirani s ciljem da proces prilagodbe učine što bržim, jednostavnijim i učinkovitijim. Na tečaju se strukturirano prolazi cijeli proces pripreme podataka od učitavanja, transformacije u oblik koji odgovara principima “urednih” podataka, upravljanja specifičnim tipovima podataka kao što su datumi, vremenske oznake i nizovi znakova, preko detaljnog pregleda standardnih operacija obrade tabličnih podataka do osnova stvaranja atraktivnih vizualizacija. Sve navedeno provodi se uz pomoć najnovijih paketa jezika R koji omogućuju pisanje čistog, intuitivnog i preglednoga programskog kôda.
Tečaj je namijenjen studentima, djelatnicima visokih učilišta i javnih instituta, zaposlenicima tvrtki i institucija te ostalim zainteresiranima.

Sadržaj:

1.    Uvod    
1.1.    Osnovne informacije    
1.2.    Priprema podataka i proces podatkovne analize
1.2.1.    Struktura procesa podatkovne analize
1.2.2.    Programski alati za pripremu podataka – R i RStudio
1.2.3.    Kolekcija paketa tidyverse 

2.    Učitavanje podataka
2.1.    Oblici ulaznih podataka
2.1.1.    Vrste izvora podataka
2.1.2.    Podatkovni okvir kao osnovna podatkovna struktura
2.1.3.    Pregled učitanih podataka
2.1.4.    Klasa tibble
2.1.5.    Operator cjevovoda
2.2.    Standardne tekstualne datoteke
2.2.1.    Osnovno o tekstualnim izvorima
2.2.2.    CSV – standardna ulazna datoteka
2.2.3.    Funkcije read.csv i read.table
2.2.4.    Paket readr
2.2.5.    Spremanje tabličnih podataka
2.3.    Excel datoteke  
2.3.1.    Paket readxl
2.4.    Web–izvori
2.5.    Osnovno o web–izvorima 
2.5.1.    Funkcija url
2.5.2.    Struganje web–stranica i paket rvest
2.6.    Ostali oblici ulaznih podataka
2.6.1.    Označne datoteke – XML, JSON
2.6.2.    Relacijske baze podataka i skladišta
2.6.3.    Izvori “velikih podataka” – Hadoop/Spark

3.    Uredni podaci
3.1.    Što su uredni podaci?
3.2.    Osnovni principi urednih podataka
3.3.    Paket tidyr
3.3.1.    Funkcije gather i spread
3.3.2.    Funkcije separate i unite
3.4.    Projektni zadatak 1

4.    Organizacija procesa podatkovne analize
4.1.    Organizacija procesa podatkovne analize uz R i RStudio
4.1.1.    Poželjne karakteristike procesa analize podataka
4.1.2.    Organizacija mapa za potrebe procesa analize
4.1.3.    Pojam projekta u RStudio sučelju
4.1.4.    Paket ProjectTemplate

5.    Rad s datumima i vremenskim oznakama
5.1.    Reprezentacija datuma i vremenskih oznaka u jeziku R
5.1.1.    POSIX standard 
5.1.2.    Klasa Date i pripadne funkcije
5.1.3.    Klase POSIXct i POSIXlt i pripadne funkcije
5.2.    Paket lubridate
5.2.1.    Parsiranje datuma i vremenskih oznaka
5.2.2.    Izvlačenje elemenata vremenskih oznaka
5.2.3.    Funkcije today i now 
5.2.4.    Reprezentacije vremenskih intervala 

6.    Rad sa znakovnim nizovima
6.1.    Analiza teksta i regularni izrazi
6.1.1.    Kratko ponavljanje regularnih izraza
6.1.2.    Regularni izrazi i jezik R
6.2.    Paket stringr
6.2.1.    Osnovne funkcije za rad sa znakovnim nizovima
6.2.2.    Funkcije paketa stringr pogonjene regularnim izrazima
6.2.3.    Jednostavna analiza teksta
6.3.    Projektni zadatak 2

7.    Upravljanje podatkovnim okvirima
7.1.    Paket dplyr i podatkovni skup Titanic
7.1.1.    Osnovne informacije o paketu dplyr
7.2.    Ogledni podatkovni skup Titanic – učitavanje i prilagodba
7.3.    Programska prilagodba podatkovnih okvira uz paket dplyr
7.3.1.    Filtriranje opservacija
7.3.2.    Odabir podskupa stupaca
7.3.3.    Stvaranje novih stupaca uz funkciju mutate
7.3.4.    Grupiranje i agregacija
7.4.    Spajanje podatkovnih okvira
7.4.1.    Prirodna i vanjska spajanja uz join funkcije

8.    Vizualizacija podataka i jezik R
8.1.    Uloga vizualizacija u eksploratornoj analizi i izvještavanju
8.1.1.    Karakteristike grafova u eksploratornoj analizi i izvještavanju
8.2.    Grafička gramatika i paket ggplot2
8.2.1.    Grafička gramatika
8.2.2.    Osnovna sintaksa paketa ggplot2
8.2.3.    Točkasti graf
8.2.4.    Stupčasti graf 
8.2.5.    Histogram / funkcija gustoće
8.2.6.    Boxplot graf (dijagram pravokutnika)
8.2.7.    Spremanje grafova 

9.    Zaključak 
9.1.    Projektni zadatak 3
 

Trajanje tečaja:

12 školskih sati (3 dana po 4 školska sata)

Cijena pohađanja tečaja:

Cjenik

Koje predznanje je potrebno?

Prijavite se!

http://abc.srce.hr

Pitanja?

e-mail: edu [at] srce.hr, telefon: +385 1 616 5165