Blog

CROZ-ova Data praksa: Vrijedilo je provesti ljeto istražujući o Zagrebu

By February 28, 2021 No Comments

2020. Baš godina za pamćenje. Dok se sve otkazivalo i odgađalo, CROZ-ov Ljetni akcelerator i dalje se (o)držao. Online ili offline, šou se morao nastaviti, a kako je taj šou izgledao na CROZ-ovom Ljetnom akceleratoru, pročitajte iz prve ruke.

Na čemu smo radili?

Naš se projekt sastojao od izrade izvještaja koji sadržava što je više moguće podataka o gradu Zagrebu. Kako bismo to postigli, koristili smo open-source podatke i podijelili smo ih u tri kategorije: točke od interesa, stanovi i statistički podaci. Te smo tri kategorije spojili s ciljem da pomognemo ljudima naći stan koji ima najviše odgovara.

Na primjer, na donjoj slici odabrane su tri najvažnije točke od interesa, a program pokazuje sve stanove koji sadržavaju sve tri točke u blizini. Iako je većina nas iz projektnog tima provela svoj život u Zagrebu, saznali smo razne zanimljive stvari i preispitali predrasude o pojedinim kvartovima.

Kako nam je to uspjelo?

Priprema…

Praksu smo započeli dvotjednom školicom kako bismo svi imali jednako, osnovno znanje o data inženjeringu. Prošli smo početni i napredni SQL s naglaskom na razlikama u podatkovnim bazama kao što su Oracle, PostgreSQL i MySQL. Nakon što smo naučili kako se nositi s podacima, upoznali smo se s osnovama BI-a i DWH-a.

Školice su bile koncipirane kao kratak, ali učinkovit tečaj s puno korisnih savjeta i trikova koje su naši mentori skupili tijekom godina iskustva rada u industriji. Osim što smo stekli vještine potrebne za rad na projektu, sudjelovali smo u Git školicama i školicama agilnog razvoja aplikacija. Uz sve to, svaki smo se tjedan mogli uključiti u petnaestominutne edukacije o najrazličitijim temama – od soft vještina do developmenta.

Pozor…

A onda smo se bacili na podatke. Radili smo s podacima iz različitih izvora: Open Street Map, data.zagreb.hr, Airbnb i Hrvatski zavod za statistiku. Analiza tih podataka bila je zajednički timski pothvat, a pomogao nam je i IBM Cognos Analytics softver koji, uz pomoć AI-a daje ne toliko očite uvide u podatke. Kad smo se upoznali s podacima, krenuli smo pisati use caseove.

S obzirom na to da je naš tim bio šarolik – dolazili smo s različitih fakulteta i imali smo različito predznanje – osmislili smo raznolike use caseove, što je naš projekt dovelo na novu razinu. Na temelju definiranih use caseova, počeli smo s modeliranjem našeg DWH dimenzijskog modela koji nam je omogućio lakši način za prikupljanje informacija i generiranje reportova.

Sad!

Sada je došlo vrijeme da zasučemo rukave i zaprljamo svoje ruke čišćenjem podataka. Time smo se bavili većinu svog vremena provedenog na praksi, a proces je uključivao i transformaciju podataka (pretvaranje vrsta podataka, brisanje podataka, analizu kvalitete podataka…). Za to smo koristili IBM DataStage – ETL alat koji probrane .xlsx i .csv podatke pretvara i učitava u DWH model. To je grafički alat koji premješta podatke iz izvora u ciljni sustav i olakšao nam je život.

Ipak, nije sve teklo tako glatko: za neke su nam točke nedostajali podaci. Odnosno, za neke smo točke u gradu imali informacije o geolokaciji, dok smo za druge imali samo adrese. Informacije o geolokaciji bile su nam važne jer su one najbolji način za prikazivanje geografskih podataka. No, uz zajednički trud uspjeli smo naći rješenje – napravili smo skriptu u Pythonu koja je popunila vrijednosti koje su nam nedostajale. Nakon što smo se uz IBM Cognos Analytics pobrinuli za vizualizaciju podataka, svoju data-driven priču o Zagrebu prezentirali smo u obliku interaktivnih mapa i reportova na Student Show Offu.

Šestero veličanstvenih

Sve ovo ne bi bilo moguće bez sjajnog tima. Iako smo na svakom dijelu projekta radili zajedno i međusobno si pomagali, svatko od nas izbrusio je svoje vještine i unaprijedio svoje znanje. Kiki je bio naš salesman koji oduvijek zna da se poslovi najuspješnije sklapaju na golfu, a uz to je i stručnjak za brojeve. A gdje je salesman, tu je i marketingaš, pa je tako Bruno, svjetski putnik i Photoshop majstor, od našeg projekta stvorio prepoznatljivi brand – ako ne u svijetu, onda bar u CROZ-u (što je daleko važnije). Ipak, i salesmanu i marketingašu je lako kada imaju odličan proizvod za koji se pobrinula Paula. Kaže da najviše voli životinje, ali primijetili smo da jako voli i tražiti bugove i pobrinuti se da sve bude savršeno. A tu je i Juraj, majstor za Python koji nam je nekoliko puta spasio život. Ili ga bar olakšao. Šećer na kraju – naš Davidovski, dobro poznat CROZ-ovcima jer je čak dva puta odradio data praksu (da, toliko mu se svidjelo prvi put), koji je doktorirao na stolnom nogometu i pronalaženju inovativnih rješenja. Ja sam imala nešto iskustva s data svijetom pa sam bila upoznata s dobrim i lošim praksama (većinom lošim), što nam je pomoglo da brže odrađujemo zadatke.

Kao što možete vidjeti, naši su mentori odabrali pravi dream team ljudi s različitim osobnostima i znanjem. Ali bez obzira na naše razlike, brzo smo naučili kako udružiti svoje snage. Sve to rezultiralo je odličnim projektom, ponosnim mentorima i oduševljenim CROZ-ovcima kojima smo bez problema pronalazili stanove s najviše kafića u blizini.

Štefanija Janković,
bivša CROZ-ova data praktikantica, danas zaposlena kao studentica