Aplikacija za uvoz podataka iz vanjskih izvora u

Aplikacija za uvoz podataka iz vanjskih izvora u
skladište podataka
Krešo Matejčić*, Zrinko Mršo**
*IN2
d.o.o., Zagreb, Croatia, [email protected]
d.o.o., Zagreb, Croatia, [email protected]
**IN2
Sažetak - Aplikacija za uvoz podataka iz vanjskih izvora u
skladište podataka (DWH) omogućuje korisniku da
samostalno unosi vanjske podatke u sustav za potporu
poslovnom odlučivanju (BI sustav). Korisnici BI sustava
često imaju potrebu za podacima koji nisu obuhvaćeni
redovitom ekstrakcijom podataka iz standardnih izvora
(transakcijske baze podataka, ERP sustavi i sl.). Ti podaci
nisu obuhvaćeni ekstrakcijom iz raznih razloga: dolaze
sporadično, dolaze svaki put u drugačijem obliku, potječu iz
izvora koji nisu povezani s centralnim informacijskim
sustavom poduzeća. Pomoću aplikacije za uvoz podataka
korisnik ima mogućnost da sam preslikava podatke iz excela
(obične ili pivot tablice) na vrijednosti mjera ili dimenzija u
skladištu podataka. Aplikacija se brine za konzistentnost
skladišta podataka, tj. ne dozvoljava unos na nepoznate
dimenzijske vrijednosti, te traži od korisnika da dimenzijske
vrijednosti koje nisu u sustavu preslikava na neku
dimenzijsku vrijednost. Podržana je verifikacija podataka,
u smislu da uneseni podaci neće biti vidljivi korisnicima
(iako su unijeti u sustav) dok verifikator ne označi podatke
vidljivima. Aplikacija je bazirana na Oracle tehnologiji i
integrirana je sa OBIEE izvještajnim alatom.
Slika 1.
MIPRO 2014/miproBIS
I.
UVOD
Glavni izvori za skladište podataka (DWH) su obično
razne baze podataka koje postoje u poduzećima. No, vrlo
često postoji potreba za uvozom podataka iz različitih
vanjskih izvora. Tipičan vanjski izvor su Microsoft Excel
datoteke, a može se raditi i o drugim izvorima poput
raznih internih aplikacija na starijim platformama, koje
nisu integrirane u novije sustave, ali se i dalje koriste za
određene svrhe.
Uobičajeno je da podatke iz vanjskih izvora uvozi IT
poduzeća ili implementator skladišta podataka. Samim tim
je više ljudi uključeno u proces, a poslovni korisnici su
ovisni o IT-ju. Posljedica te ovisnosti je vrlo često i
zakašnjela dostupnost podataka iz vanjskih izvora u
sustavu za podršku poslovnom odlučivanju.
IN2 aplikacija za uvoz podataka iz vanjskih izvora
omogućava poslovnim korisnicima da samostalno uvoze
podatke, ocjenjuju njihovu ispravnost, odnosno
kontroliraju cijeli proces. Ne postoji ovisnost o IT sektoru
ili implementatoru.
Arhitektura sustava
1677
Sama aplikacija za uvoz podataka implementirana je
Oracle APEX tehnologijom [4]. Pomoću aplikacije podaci
se pune u DWH, tj. aplikacija unutar sebe ima
implementiran jednostavni ELT proces.
III.
OPIS MOGUĆNOSTI APLIKACIJE
Svrha aplikacije je da korisniku omogući samostalan unos
vanjskih podataka direktno u skladište podataka. Podaci
se uvoze u tablicu mjera skladišta podataka. To znači da
se barem jedan stupac iz vanjskog izvora treba moći
preslikati na neku mjeru iz skladišta podataka, a ostali
stupci na dimenzije koje opisuju tu mjeru. Naravno,
vanjski izvor može sadržavati i više mjera, raspoređenih u
više stupaca.
Slika 2.
II.
Podaci za unos
ARHITEKTURA SUSTAVA
Arhitektura sustava prikazana je na slici 1. Radi se o
sustavu za podršku poslovnom odlučivanju (BI) u
potpunosti baziranom na Oracle tehnologiji. Front-end dio
je Oracle Business Intelligence Enterprise Edition
(OBIEE), koji služi kao BI server [3]. Izvor podataka za
OBIEE je skladište podataka implementirano u Oracle
11gR2 bazi.
Skladište podataka puni se ELT (extract-loadtransform) procesom [2], što znači da se svi podaci prvo
dovedu u pripremno područje u bazi te se potom
transformiraju i pune u skladišno područje (DWH), u
zvjezdastu strukturu mjera i dimenzija [1].
Slika 4.
1678
Slika 3.
Preslikavanje dimenzija i mjera
Tipična je situacija da se dodatni korisnički podaci
nalaze u excelu. Korisnik učitava excel kroz aplikaciju te
označava stupce koji predstavljaju mjere i koje
vrijednosti mjera uvozi (ne mora uvesti kompletan
vanjski izvor, Excel). Zatim određuje koji stupci
predstavljaju pojedine dimenzije i preslikava vrijednosti
iz dimenzijskih stupaca excela na vrijednosti iz dimenzija
skladišta podataka.
Odabir podataka za unos
MIPRO 2014/miproBIS
Slika 5.
Preslikavanje vrijednosti na dimenzijske vrijednosti
Za potrebe ponovnog učitavanja excel datoteke iste
strukture, aplikacija podržava spremanje definiranih
preslikavanja putem predložaka. Predlošci omogućavaju
znatno brži uvoz svaki sljedeći put.
predložaka omogućava znatno ubrzavanje uvoza u
slučaju repetitivnih dostava u istoj strukturi.
IV.
PROCES UNOSA PODATAKA
Podaci koje korisnik učitava nalaze se u excel datoteci
(Slika 2. ), u obliku pivot ili obične tablice.
Izvorišni podaci mogu biti dostavljeni kao jednostavna
tablica s vrijednostima po stupcima ili kao zaokretna
(pivot) tablica. Prvi korak procesa uvoza podataka je
učitavanje excel datoteke (ili drugog vanjskog izvora) u
aplikaciju. Aplikacija datoteku sprema u bazu, kako bi
original datoteke bio spremljen za naknadnu analizu,
kontrolu ili za izvanredne okolnosti. U aplikaciji se
odabiru stupci i redovi excel tablice koji će se uvesti u
skladište podataka. Ako je potrebno isključiti neke stupce
ili redove iz odabranog područja, treba ih samo označiti –
ne treba ih brisati iz dostavljene datoteke. Aplikacija će
prepoznati da ti redovi i/ili stupci nisu za prijenos u
skladište podataka.
Slika 4. prikazuje proces odabira podataka za prijenos.
Slika 6.
Model podataka
Ono što je dodatna vrijednost ove aplikacije je da
omogućava uvoz excela bilo kakve strukture. To znači da
stupci mogu svaki put biti dostavljeni u drugačijem
rasporedu, pa čak i s drugim mjerama i dimenzijama.
Korisnik putem aplikacije gore opisanim postupkom
ponovno preslikava stupce excela na model skladišta
podataka i cijeli proces se ponavlja.
Dakle, aplikacija ne uvjetuje striktnu strukturu
dostavljenih podataka iz vanjskog izvora. Upotreba
MIPRO 2014/miproBIS
Nakon toga potrebno je preslikati stupce iz excela na
stupce dimenzija i/ili mjera (Slika 3. ).
Korisnik prvo odabire tablicu mjera na koju će se
preslikavati vanjski izvor ili datoteka. Sljedeći korak je
preslikavanje stupaca mjera iz datoteke na stupce (mjere)
iz DWH tablice. Budući da aplikacija radi unos u
zvjezdastu strukturu skladišta podataka, odabirom tablice
mjere korisniku se na odabir za preslikavanje nude samo
one dimenzije koje su povezane s tom tablicom mjera
(Slika 6. ).
Na osnovu preslikanih stupaca excel datoteke na
određene dimenzijske stupce, aplikacija vrši provjeru da
1679
li vrijednosti sadržane u tim stupcima iz excela, postoje u
skladištu podataka. Ako ne postoje, aplikacija neće
dozvoliti unos takvih podataka, jer bi se oni vezali na
nepoznatu dimenzijsku vrijednost, već od korisnika traži
da vrijednost dimenzijskog stupca preslika na neku
vrijednost tog stupca iz skladišta podataka. Ako željena
vrijednost ne postoji u bazi, aplikacija nudi korisniku
mogućnost da unese novu vrijednost u dimenziju
skladišta podataka. U praksi se pokazalo da se unos
dimenzijskih vrijednosti na takav način iznimno rijetko
koristi.
Slika 5. prikazuje preslikavanje vrijednosti.
Korak preslikavanja vrijednosti ključan je korak u cijeloj
aplikaciji. Budući da je upravo to najkompleksniji korak
prilikom unosa podataka u skladište podataka mimo ELT
(ili ETL) procesa.
U skladištu podataka, na svakoj mjeri, postoji servisna
dimenzija koja sadrži podatak od kuda je podatak stigao.
Na taj način može se identificirati gdje su završili podaci
iz pojedine excel datoteke ili drugog vanjskog izvora
Slika 8.
Verifikacija podataka
Podaci učitani iz excela, neće biti vidljivi korisnicima
izvještaja dok se ne verificiraju, ali će biti vidljivi
verifikatoru. Na taj način verifikator ima mogućnost
pregleda kompletnog sustava sa učitanim podacima, a da
ih ostali korisnici ne vide (Slika 8. ). Kada ih verifikator
označi kao ispravne, tj. verificirane, oni će postati vidljivi
svima. Aplikacija je u potpunosti integrirana sa OBI
(Oracle Business Intelligence) alatom i proces
verifikacije odvija se kroz OBI (Slika 9. ).
Slika 7.
Rad s predlošcima
Preslikane vrijednosti pamte se u repozitoriju aplikacije
tako da je dovoljno da korisnik preslikava vrijednost
samo prvi kad se ona pojavi. Prilikom naknadnih uvoza,
ta vrijednost će biti prepoznata kao preslikana.
Sva preslikavanja stupaca excela na stupce dimenzija i
mjera bilježe se u aplikaciji u obliku predloška. Na taj
način, idući puta kada korisnik želi učitati excel datoteku
iste strukture može jednostavno preskočiti sva
preslikavanja stupaca i aplicirati već napravljeni
predložak na datoteku (Slika 7. ).
Ove dvije funkcionalnosti, spremanje preslikanih
vrijednosti u repozitorij i automatsko preslikavanje pri
naknadnim uvozima te spremanje predložaka, značajno
olakšavaju upotrebu aplikacije i ubrzavaju proces
naknadnih uvoza. Jednom kad su sve vrijednosti
preslikane, korisnici mogu u vrlo kratkom vremenu
osvježiti skladište podataka, a sve to bez potrebe za IT
stručnjacima i poznavanjem strukture baze skladišta
podataka.
V.
KONTROLA I POTVRDA UVOZA
Sve učitane datoteke spremaju se u repozitorij aplikacije
koji se nalazi u Oracle bazi. Na taj način uvijek je
moguća kontrola i uvid u originalnu datoteku.
1680
Slika 9.
VI.
Pregled za verifikaciju
ZAKLJUČAK
Uvođenjem aplikacije za uvoz vanjskih podataka u
skladište podataka korisnicima je otvorena mogućnost da
sami imaju kontrolu nad uvozom takvih podataka.
Povećana je učinkovitost jer više nije potrebna osoba iz
informatičke podrške za taj posao. Smanjena je
mogućnost greške, jer korisnik sam uvozi podatke i u
načelu ih bolje razumije te prije može uočiti grešku pri
unosu, ako se dogodi. Upotrebom predložaka omogućen
je jednostavan i brz periodički unos datoteka iste ili slične
strukture. Verifikacija podataka osigurava ispravnost
izvještaja.
Aplikacija je dobro prihvaćena od strane korisnika BI
sustava i koristi se u praksi.
MIPRO 2014/miproBIS
LITERATURA
[1]
[2]
[3]
[4]
Ralph Kimball, Margy Ross, „The Data Warehouse Toolkit: The
Definitive Guide to Dimensional Modeling”, Wiley, 2013
Ralph Kimball, Joe Caserta, „The Data Warehouse ETL Toolkit:
Practical Techniques for Extracting, Cleaning, Conforming, and
Delivering Data”, Wiley, 2004
Oracle
Business
Intelligence
Enterprise
Edition
11g documentation is part of Oracle® Fusion Middleware Online
Documentation Library 11g Release 1 (11.1.1.7.0), Oracle, 2014
Oracle Application Express 4.2 Documentation, Oracle, 2014
MIPRO 2014/miproBIS
1681
1682
MIPRO 2014/miproBIS