Aplikacija za uvoz podataka iz vanjskih izvora u skladište podataka Krešo Matejčić*, Zrinko Mršo** *IN2 d.o.o., Zagreb, Croatia, [email protected] d.o.o., Zagreb, Croatia, [email protected] **IN2 Sažetak - Aplikacija za uvoz podataka iz vanjskih izvora u skladište podataka (DWH) omogućuje korisniku da samostalno unosi vanjske podatke u sustav za potporu poslovnom odlučivanju (BI sustav). Korisnici BI sustava često imaju potrebu za podacima koji nisu obuhvaćeni redovitom ekstrakcijom podataka iz standardnih izvora (transakcijske baze podataka, ERP sustavi i sl.). Ti podaci nisu obuhvaćeni ekstrakcijom iz raznih razloga: dolaze sporadično, dolaze svaki put u drugačijem obliku, potječu iz izvora koji nisu povezani s centralnim informacijskim sustavom poduzeća. Pomoću aplikacije za uvoz podataka korisnik ima mogućnost da sam preslikava podatke iz excela (obične ili pivot tablice) na vrijednosti mjera ili dimenzija u skladištu podataka. Aplikacija se brine za konzistentnost skladišta podataka, tj. ne dozvoljava unos na nepoznate dimenzijske vrijednosti, te traži od korisnika da dimenzijske vrijednosti koje nisu u sustavu preslikava na neku dimenzijsku vrijednost. Podržana je verifikacija podataka, u smislu da uneseni podaci neće biti vidljivi korisnicima (iako su unijeti u sustav) dok verifikator ne označi podatke vidljivima. Aplikacija je bazirana na Oracle tehnologiji i integrirana je sa OBIEE izvještajnim alatom. Slika 1. MIPRO 2014/miproBIS I. UVOD Glavni izvori za skladište podataka (DWH) su obično razne baze podataka koje postoje u poduzećima. No, vrlo često postoji potreba za uvozom podataka iz različitih vanjskih izvora. Tipičan vanjski izvor su Microsoft Excel datoteke, a može se raditi i o drugim izvorima poput raznih internih aplikacija na starijim platformama, koje nisu integrirane u novije sustave, ali se i dalje koriste za određene svrhe. Uobičajeno je da podatke iz vanjskih izvora uvozi IT poduzeća ili implementator skladišta podataka. Samim tim je više ljudi uključeno u proces, a poslovni korisnici su ovisni o IT-ju. Posljedica te ovisnosti je vrlo često i zakašnjela dostupnost podataka iz vanjskih izvora u sustavu za podršku poslovnom odlučivanju. IN2 aplikacija za uvoz podataka iz vanjskih izvora omogućava poslovnim korisnicima da samostalno uvoze podatke, ocjenjuju njihovu ispravnost, odnosno kontroliraju cijeli proces. Ne postoji ovisnost o IT sektoru ili implementatoru. Arhitektura sustava 1677 Sama aplikacija za uvoz podataka implementirana je Oracle APEX tehnologijom [4]. Pomoću aplikacije podaci se pune u DWH, tj. aplikacija unutar sebe ima implementiran jednostavni ELT proces. III. OPIS MOGUĆNOSTI APLIKACIJE Svrha aplikacije je da korisniku omogući samostalan unos vanjskih podataka direktno u skladište podataka. Podaci se uvoze u tablicu mjera skladišta podataka. To znači da se barem jedan stupac iz vanjskog izvora treba moći preslikati na neku mjeru iz skladišta podataka, a ostali stupci na dimenzije koje opisuju tu mjeru. Naravno, vanjski izvor može sadržavati i više mjera, raspoređenih u više stupaca. Slika 2. II. Podaci za unos ARHITEKTURA SUSTAVA Arhitektura sustava prikazana je na slici 1. Radi se o sustavu za podršku poslovnom odlučivanju (BI) u potpunosti baziranom na Oracle tehnologiji. Front-end dio je Oracle Business Intelligence Enterprise Edition (OBIEE), koji služi kao BI server [3]. Izvor podataka za OBIEE je skladište podataka implementirano u Oracle 11gR2 bazi. Skladište podataka puni se ELT (extract-loadtransform) procesom [2], što znači da se svi podaci prvo dovedu u pripremno područje u bazi te se potom transformiraju i pune u skladišno područje (DWH), u zvjezdastu strukturu mjera i dimenzija [1]. Slika 4. 1678 Slika 3. Preslikavanje dimenzija i mjera Tipična je situacija da se dodatni korisnički podaci nalaze u excelu. Korisnik učitava excel kroz aplikaciju te označava stupce koji predstavljaju mjere i koje vrijednosti mjera uvozi (ne mora uvesti kompletan vanjski izvor, Excel). Zatim određuje koji stupci predstavljaju pojedine dimenzije i preslikava vrijednosti iz dimenzijskih stupaca excela na vrijednosti iz dimenzija skladišta podataka. Odabir podataka za unos MIPRO 2014/miproBIS Slika 5. Preslikavanje vrijednosti na dimenzijske vrijednosti Za potrebe ponovnog učitavanja excel datoteke iste strukture, aplikacija podržava spremanje definiranih preslikavanja putem predložaka. Predlošci omogućavaju znatno brži uvoz svaki sljedeći put. predložaka omogućava znatno ubrzavanje uvoza u slučaju repetitivnih dostava u istoj strukturi. IV. PROCES UNOSA PODATAKA Podaci koje korisnik učitava nalaze se u excel datoteci (Slika 2. ), u obliku pivot ili obične tablice. Izvorišni podaci mogu biti dostavljeni kao jednostavna tablica s vrijednostima po stupcima ili kao zaokretna (pivot) tablica. Prvi korak procesa uvoza podataka je učitavanje excel datoteke (ili drugog vanjskog izvora) u aplikaciju. Aplikacija datoteku sprema u bazu, kako bi original datoteke bio spremljen za naknadnu analizu, kontrolu ili za izvanredne okolnosti. U aplikaciji se odabiru stupci i redovi excel tablice koji će se uvesti u skladište podataka. Ako je potrebno isključiti neke stupce ili redove iz odabranog područja, treba ih samo označiti – ne treba ih brisati iz dostavljene datoteke. Aplikacija će prepoznati da ti redovi i/ili stupci nisu za prijenos u skladište podataka. Slika 4. prikazuje proces odabira podataka za prijenos. Slika 6. Model podataka Ono što je dodatna vrijednost ove aplikacije je da omogućava uvoz excela bilo kakve strukture. To znači da stupci mogu svaki put biti dostavljeni u drugačijem rasporedu, pa čak i s drugim mjerama i dimenzijama. Korisnik putem aplikacije gore opisanim postupkom ponovno preslikava stupce excela na model skladišta podataka i cijeli proces se ponavlja. Dakle, aplikacija ne uvjetuje striktnu strukturu dostavljenih podataka iz vanjskog izvora. Upotreba MIPRO 2014/miproBIS Nakon toga potrebno je preslikati stupce iz excela na stupce dimenzija i/ili mjera (Slika 3. ). Korisnik prvo odabire tablicu mjera na koju će se preslikavati vanjski izvor ili datoteka. Sljedeći korak je preslikavanje stupaca mjera iz datoteke na stupce (mjere) iz DWH tablice. Budući da aplikacija radi unos u zvjezdastu strukturu skladišta podataka, odabirom tablice mjere korisniku se na odabir za preslikavanje nude samo one dimenzije koje su povezane s tom tablicom mjera (Slika 6. ). Na osnovu preslikanih stupaca excel datoteke na određene dimenzijske stupce, aplikacija vrši provjeru da 1679 li vrijednosti sadržane u tim stupcima iz excela, postoje u skladištu podataka. Ako ne postoje, aplikacija neće dozvoliti unos takvih podataka, jer bi se oni vezali na nepoznatu dimenzijsku vrijednost, već od korisnika traži da vrijednost dimenzijskog stupca preslika na neku vrijednost tog stupca iz skladišta podataka. Ako željena vrijednost ne postoji u bazi, aplikacija nudi korisniku mogućnost da unese novu vrijednost u dimenziju skladišta podataka. U praksi se pokazalo da se unos dimenzijskih vrijednosti na takav način iznimno rijetko koristi. Slika 5. prikazuje preslikavanje vrijednosti. Korak preslikavanja vrijednosti ključan je korak u cijeloj aplikaciji. Budući da je upravo to najkompleksniji korak prilikom unosa podataka u skladište podataka mimo ELT (ili ETL) procesa. U skladištu podataka, na svakoj mjeri, postoji servisna dimenzija koja sadrži podatak od kuda je podatak stigao. Na taj način može se identificirati gdje su završili podaci iz pojedine excel datoteke ili drugog vanjskog izvora Slika 8. Verifikacija podataka Podaci učitani iz excela, neće biti vidljivi korisnicima izvještaja dok se ne verificiraju, ali će biti vidljivi verifikatoru. Na taj način verifikator ima mogućnost pregleda kompletnog sustava sa učitanim podacima, a da ih ostali korisnici ne vide (Slika 8. ). Kada ih verifikator označi kao ispravne, tj. verificirane, oni će postati vidljivi svima. Aplikacija je u potpunosti integrirana sa OBI (Oracle Business Intelligence) alatom i proces verifikacije odvija se kroz OBI (Slika 9. ). Slika 7. Rad s predlošcima Preslikane vrijednosti pamte se u repozitoriju aplikacije tako da je dovoljno da korisnik preslikava vrijednost samo prvi kad se ona pojavi. Prilikom naknadnih uvoza, ta vrijednost će biti prepoznata kao preslikana. Sva preslikavanja stupaca excela na stupce dimenzija i mjera bilježe se u aplikaciji u obliku predloška. Na taj način, idući puta kada korisnik želi učitati excel datoteku iste strukture može jednostavno preskočiti sva preslikavanja stupaca i aplicirati već napravljeni predložak na datoteku (Slika 7. ). Ove dvije funkcionalnosti, spremanje preslikanih vrijednosti u repozitorij i automatsko preslikavanje pri naknadnim uvozima te spremanje predložaka, značajno olakšavaju upotrebu aplikacije i ubrzavaju proces naknadnih uvoza. Jednom kad su sve vrijednosti preslikane, korisnici mogu u vrlo kratkom vremenu osvježiti skladište podataka, a sve to bez potrebe za IT stručnjacima i poznavanjem strukture baze skladišta podataka. V. KONTROLA I POTVRDA UVOZA Sve učitane datoteke spremaju se u repozitorij aplikacije koji se nalazi u Oracle bazi. Na taj način uvijek je moguća kontrola i uvid u originalnu datoteku. 1680 Slika 9. VI. Pregled za verifikaciju ZAKLJUČAK Uvođenjem aplikacije za uvoz vanjskih podataka u skladište podataka korisnicima je otvorena mogućnost da sami imaju kontrolu nad uvozom takvih podataka. Povećana je učinkovitost jer više nije potrebna osoba iz informatičke podrške za taj posao. Smanjena je mogućnost greške, jer korisnik sam uvozi podatke i u načelu ih bolje razumije te prije može uočiti grešku pri unosu, ako se dogodi. Upotrebom predložaka omogućen je jednostavan i brz periodički unos datoteka iste ili slične strukture. Verifikacija podataka osigurava ispravnost izvještaja. Aplikacija je dobro prihvaćena od strane korisnika BI sustava i koristi se u praksi. MIPRO 2014/miproBIS LITERATURA [1] [2] [3] [4] Ralph Kimball, Margy Ross, „The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling”, Wiley, 2013 Ralph Kimball, Joe Caserta, „The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data”, Wiley, 2004 Oracle Business Intelligence Enterprise Edition 11g documentation is part of Oracle® Fusion Middleware Online Documentation Library 11g Release 1 (11.1.1.7.0), Oracle, 2014 Oracle Application Express 4.2 Documentation, Oracle, 2014 MIPRO 2014/miproBIS 1681 1682 MIPRO 2014/miproBIS
© Copyright 2024 Paperzz