Blog

CROZ Data praksa: Vrijedilo je provesti ljeto istražujući o Zagrebu

By February 28, 2021 February 24th, 2023 No Comments

2020. Baš godina za pamćenje. Dok se sve otkazivalo i odgađalo, CROZ Ljetni akcelerator i dalje se (o)držao. Online ili offline, šou se morao nastaviti, a kako je taj šou izgledao na CROZ Ljetnom akceleratoru, pročitajte iz prve ruke.

Na čemu smo radili?

Naš se projekt sastojao od izrade izvještaja koji sadržava što je više moguće podataka o gradu Zagrebu. Kako bismo to postigli, koristili smo open-source podatke i podijelili smo ih u tri kategorije: točke od interesa, stanovi i statistički podaci. Te smo tri kategorije spojili s ciljem da pomognemo ljudima naći stan koji ima najviše odgovara.

Na primjer, na donjoj slici odabrane su tri najvažnije točke od interesa, a program pokazuje sve stanove koji sadržavaju sve tri točke u blizini. Iako je većina nas iz projektnog tima provela svoj život u Zagrebu, saznali smo razne zanimljive stvari i preispitali predrasude o pojedinim kvartovima.

Kako nam je to uspjelo?

Priprema…

Praksu smo započeli dvotjednom školicom kako bismo svi imali jednako, osnovno znanje o data inženjeringu. Prošli smo početni i napredni SQL s naglaskom na razlikama u podatkovnim bazama kao što su Oracle, PostgreSQL i MySQL. Nakon što smo naučili kako se nositi s podacima, upoznali smo se s osnovama BI-a i DWH-a.

Školice su bile koncipirane kao kratak, ali učinkovit tečaj s puno korisnih savjeta i trikova koje su naši mentori skupili tijekom godina iskustva rada u industriji. Osim što smo stekli vještine potrebne za rad na projektu, sudjelovali smo u Git školicama i školicama agilnog razvoja aplikacija. Uz sve to, svaki smo se tjedan mogli uključiti u petnaestominutne edukacije o najrazličitijim temama – od soft vještina do developmenta.

Pozor…

A onda smo se bacili na podatke. Radili smo s podacima iz različitih izvora: Open Street Map, data.zagreb.hr, Airbnb i Hrvatski zavod za statistiku. Analiza tih podataka bila je zajednički timski pothvat, a pomogao nam je i IBM Cognos Analytics softver koji, uz pomoć AI-a daje ne toliko očite uvide u podatke. Kad smo se upoznali s podacima, krenuli smo pisati use caseove.

S obzirom na to da je naš tim bio šarolik – dolazili smo s različitih fakulteta i imali smo različito predznanje – osmislili smo raznolike use caseove, što je naš projekt dovelo na novu razinu. Na temelju definiranih use caseova, počeli smo s modeliranjem našeg DWH dimenzijskog modela koji nam je omogućio lakši način za prikupljanje informacija i generiranje reportova.

Sad!

Sada je došlo vrijeme da zasučemo rukave i zaprljamo svoje ruke čišćenjem podataka. Time smo se bavili većinu svog vremena provedenog na praksi, a proces je uključivao i transformaciju podataka (pretvaranje vrsta podataka, brisanje podataka, analizu kvalitete podataka…). Za to smo koristili IBM DataStage – ETL alat koji probrane .xlsx i .csv podatke pretvara i učitava u DWH model. To je grafički alat koji premješta podatke iz izvora u ciljni sustav i olakšao nam je život.

Ipak, nije sve teklo tako glatko: za neke su nam točke nedostajali podaci. Odnosno, za neke smo točke u gradu imali informacije o geolokaciji, dok smo za druge imali samo adrese. Informacije o geolokaciji bile su nam važne jer su one najbolji način za prikazivanje geografskih podataka. No, uz zajednički trud uspjeli smo naći rješenje – napravili smo skriptu u Pythonu koja je popunila vrijednosti koje su nam nedostajale. Nakon što smo se uz IBM Cognos Analytics pobrinuli za vizualizaciju podataka, svoju data-driven priču o Zagrebu prezentirali smo u obliku interaktivnih mapa i reportova na Student Show Offu.

Šestero veličanstvenih

Sve ovo ne bi bilo moguće bez sjajnog tima. Iako smo na svakom dijelu projekta radili zajedno i međusobno si pomagali, svatko od nas izbrusio je svoje vještine i unaprijedio svoje znanje. Kiki je bio naš salesman koji oduvijek zna da se poslovi najuspješnije sklapaju na golfu, a uz to je i stručnjak za brojeve. A gdje je salesman, tu je i marketingaš, pa je tako Bruno, svjetski putnik i Photoshop majstor, od našeg projekta stvorio prepoznatljivi brand – ako ne u svijetu, onda bar u CROZ-u (što je daleko važnije). Ipak, i salesmanu i marketingašu je lako kada imaju odličan proizvod za koji se pobrinula Paula. Kaže da najviše voli životinje, ali primijetili smo da jako voli i tražiti bugove i pobrinuti se da sve bude savršeno. A tu je i Juraj, majstor za Python koji nam je nekoliko puta spasio život. Ili ga bar olakšao. Šećer na kraju – naš Davidovski, dobro poznat CROZ-ovcima jer je čak dva puta odradio data praksu (da, toliko mu se svidjelo prvi put), koji je doktorirao na stolnom nogometu i pronalaženju inovativnih rješenja. Ja sam imala nešto iskustva s data svijetom pa sam bila upoznata s dobrim i lošim praksama (većinom lošim), što nam je pomoglo da brže odrađujemo zadatke.

Kao što možete vidjeti, naši su mentori odabrali pravi dream team ljudi s različitim osobnostima i znanjem. Ali bez obzira na naše razlike, brzo smo naučili kako udružiti svoje snage. Sve to rezultiralo je odličnim projektom, ponosnim mentorima i oduševljenim CROZ-ovcima kojima smo bez problema pronalazili stanove s najviše kafića u blizini.

Štefanija Janković,
CROZ-ova data praktikantica na Ljetnom akceleratoru 2020.