Istraživački rad Hrvoja Gabelice i Živka Krstića

Sveučilište u Splitu
Ekonomski fakultet
Primjena Big Data podataka i rudarenja
teksta u suvremenom poslovanju
Istraživački rad
Mentor: dr.sc. Maja Ćukušić
Studenti: Hrvoje Gabelica 2120704
Živko Krstić, 2120542
Split, 01.09.2013
Sadržaj
Sažetak..................................................................................................................................................... 2
Uvod u Big Data i 4V ................................................................................................................................ 2
Uvod .................................................................................................................................................... 3
Volume................................................................................................................................................. 3
Variety ................................................................................................................................................. 4
Velocity ................................................................................................................................................ 4
Veracity ................................................................................................................................................ 5
Podaci ...................................................................................................................................................... 5
Skladišta podataka i veliki podaci ............................................................................................................. 6
Hadoop okruženje.................................................................................................................................... 7
HDFS i MapReduce .............................................................................................................................. 7
Projekti povezani s Hadoopom ............................................................................................................ 9
Pig .................................................................................................................................................... 9
Hive .................................................................................................................................................. 9
ZooKeeper...................................................................................................................................... 10
Hbase ............................................................................................................................................. 10
Oozie .............................................................................................................................................. 10
Lucene ........................................................................................................................................... 10
Avro ............................................................................................................................................... 10
Korporacijski model velikih podataka .................................................................................................... 11
Big Data i računarstvo u oblaku ............................................................................................................. 12
Prepreke u Big Data analitici .................................................................................................................. 13
Big Data i studije slučaja ........................................................................................................................ 14
Informacijske tehnologije (IT)............................................................................................................ 14
Otkrivanja prijevare ........................................................................................................................... 14
Društvene mreže ............................................................................................................................... 16
Energetski sektor i Big Data ............................................................................................................... 16
Upravljanje podacima............................................................................................................................ 17
Konkurentsko natjecanje u informacijama i analitici ............................................................................ 18
Big Data analitika u suvremenom poslovanju ....................................................................................... 20
Napredna analitika ................................................................................................................................ 22
Rudarenje podataka (data mining) u suvremenom poslovanju ............................................................ 23
1
Rudarenje teskta u suvremenom poslovanju......................................................................................... 25
Proces rudarenja teskta..................................................................................................................... 27
Rudarenje web-a ............................................................................................................................... 32
Primjeri korištenja rudarenja teksta (teksutalne analitike) nad Big Data ............................................. 33
Kreiranje upotrebljivog Customer Intelligence sustava od podataka s društvenih medija. ............. 33
Semantička analiza u evaluaciji proizvoda ........................................................................................ 34
Zaključak ................................................................................................................................................ 36
Reference .............................................................................................................................................. 37
Popis slika .............................................................................................................................................. 38
Tablice ................................................................................................................................................... 39
Sažetak
Big data postaje jedan od najvažnijih tehnoloških trendova koji ima potencijal za dramatičnu
promjenu u načinu u kojoj organizacija koristi informacije kako bi poboljšali iskustvo potrošača
i transformirali vlastiti poslovni model. Big data kao pojam je nov u tehnološkom svijetu stoga
zahtjeva istraživanje u tehnološkom i poslovnom smislu. Upravljanje i analiza velike količine
podataka pruža najveće i koristi i najveće izazove za sve organizacije bez obzira na veličinu i
industriju. Cilj našeg istraživanja je otkriti što stoji iza pojma Big data i kako možemo primjeniti
rudarenje teksta i semantičku analizu nad velikim količinama podataka.
Uvod u Big Data i 4V
Cijeli ovaj naš rad se bavi pojmom Big data ili velikim podacima te ćemo na početku našeg rada
objasniti sam pojam kako bi mogli dalje prikazati sve njegove implikacije. Sam pojam nas može
zavarati na samom početku te navesti da su ostali podaci mali ili da su određeni podaci veliki,
kad govorimo o količini. To može biti točno, ali i ne mora. S toga se sam pojam objašnjava
pomoću 4 V-a : Volume, Variety, Velocity i Veracity . Broj V opet ovisi od autora do autora te ih
može biti i više no mi smo se odlužili za podjelu autora paul C. Zikopoulos et al. koja je
spomenuta u njihovom djelu „Harness the power of Big Data“ [1]. No, prije 4V objasnit ćemo
zašto su nam veliki podaci uopće potrebni.
2
Uvod
Kad govorimo o Big Data ili velikim podacima nužno je na početku istaknuti nekoliko točaka koji ga
opisuju :

Big Data rješenja su idealna za analizu ne samo strukturiranih podataka, koje smo navikli
analizirati, već i nestrukturiranih i polustrukturiranih podataka koji često dolaze iz
različitih izvora. Više o ovome u dijelu gdje govorimo o jednom od V i to Variety.

Smatra se da su veliki podaci idealni kada je potrebno analizirati sve podatke ili gotovo
sve u zamjenu za uzimanje uzorka. Uzorak u tom slučaju nije ni blizu efikasan.

Veliki podaci su idealni za iterativne i eksplorativne analize.

Omogućava nam sinergiju s tradicionalnim načinima analize (skladišta podataka...) te
upotpunjuje sliku i dovodi do smanjenja troškova. Više o ovome u narednim dijelovima
rada.

Pomaže nam u trenutcima kad nam tradicionalne relacijske baze podataka ne mogu
pomoći..
Volume
Volume je definitivno prvi kojeg ćemo obraditi, jer je i najočitiji. Sam pojam veličine se mijenja
iz godine u godinu, pa smo tako ove godine već prešli na riječi zettabajti. Osim rasta u veličini,
dolazi i do pada cijene same memorije tj. diskova. Autori spominju i konkretne podatke kretanja
veličina pa tako: 2009. godine smo imali 0.8 ZB podataka u svijetu, 2010. godine brojka je prešla
1 ZB, a u 2011. godini govorimo o 1.8 ZB. Također, očekuje se rast ovih brojeva i do 35 ZB do
2017. godine. Ovim podacima stječemo dojam da se radi o uistinu ogromnim količinama
podataka, koje će netko trebati analizirati. Sve ovo ne znači da se znanstvenici ili analitičari bave
s cjelokupnom tom količinom podataka, već ukazuje na mogući problem prilikom analize tih
podataka, gdje nam upravo tehnologija Big data može pomoći. Ono što nam trenutni podaci
govore je činjenica da se većina tzv. data scientista ne bavi s velikim podacima, ali očekujemo
da će se te brojke promijeniti u budućnosti. Na slici ispod se nalazi prikaz 5 vještina koji su bitni
za jednog znanstvenika podataka i na njima možmo vidjeti da se oni veoma rijetko bave
količinama koje se mjere u PB, pa čak i u TB. [2]
3
Slika 1. Prikaz pet vještina znanstvenika podataka
Variety
Ovdje se ukazuje na raznolikost podataka koji se analiziraju. Tako imamo strukturirane podatke
koji se nalaze u bazama podataka itd. i polustrukturirane te nestrukturirane podatke koji čine
većinu. Ovo ne upućuje na to da nestrukturirani podaci nemaju strukturu već da njihove
subkomponente nemaju strukturu (komentari, slike ...). Bitno je usredotočiti se na sve podatke
te ih kombinirati kako bi povećali njihovu vrijednost. Primjer bi bile telekomunikacije tvrtke koje
u svojim pozivnim centrima svakodnevno zaprimaju pozive koji predstavljaju nestrukturirane
podatke koji se mogu kombinirati s strukturiranim podacima (povijest transakcija, ...) i tako
dobijemo veoma personalizirani model našeg kupca pomoću kombinacije strukturiranih i
nestrukturiranih podataka.
Velocity
Ovdje govorimo o brzini. Dakle, radi se o brzini pristizanja podataka u poduzeće i njihovou
obradu i razumijevanje. Najbitniji dio je upravo trenutak kad su podaci pristigli, te zatim slijedi
put do poduzimanja određenih radnji na temelju tih podataka. Što je taj put kraći to imamo
veću moć. Upravo se ovo V smatra često zapostavljenim, a veoma je bitno za cjelokupni uspjeh.
Cilj je što više skratiti taj put analizirajući tzv. data at rest tj. podatke u mirovanju u kombinaciji
s podacima u pokretu (data in motion). Ovaj pristup mijenja dosadašnji pristup i čini analitiku
prilagodljivijom, koja iz dana u dan postaje sve „inteligentnija“.
4
Veracity
Većina autora ostaje na prethodna tri pojma, no mi smo uključili i ovaj, jer se odnosi na kvalitetu
i relevantnost samih podataka. Na slici možemo vidjeti da je količina podataka koje poduzeće
želi razumijeti zasićeno korisnim signalima i sa mnogo nečistoća (tim se podacima ne može
vjerovati ili nisu korisni za poslovni problem koji želimo analizirati). Autori su iznijeli i činjenicu
da trećina ljudi u poslovanju koji donose odluke ne vjeruju svojim informacijama. To nam govori
da se ovome problemu treba malo više posvetiti.
Slika 2. Prikaz dostupnih podataka i onih koje tvrtka može obraditi
Podaci
Vjerojatno ste nebrojeno puta pročitali da živimo u informacijskom dobu ili u dobu podataka.
Mnogi smatraju da je većina tih podataka zatvorena i da se do njih ne može doći tj. da male
tvrtke po pitanju velikih podataka nemaju šanse. Naravno, ovo nije istina. Dokaz ovome mogu
biti i stranice poput Infochimps.org, theinfo.org ili Amazon Web Services gdje se podaci mogu
preuzeti besplatno ili po određenoj cijeni. Prije su se pokušavali izvesti složeni algoritmi koji su
trebali biti izuzetno dobri kako bi se došlo do rezultata, a danas se u tu svrhu koriste podaci koji
mogu biti znatno bolji. Ogromne količine podataka mogu i obični algoritam pretvoriti i u
izuzetno koristan algoritam, jer velika količina podataka ujedno znači i da se bolji „uči“.
5
Veliki podaci i tehnologija za njihovu analizu su definitivno tu, no bit je znati kako ih pohraniti i
kako analizirati te podatke. Naglasak je na efikasnom iskorištavanju tehnologije koja se trenutno
nudi, a koja prije nije bila dostupna. Kad se spominje pohrana nužno je uočiti razliku između
tradicionalnih relacijskih baza podataka i MapReduce o kojima ćemo malo podrobnije u
daljnjem nastavku teksta. U tablici vidimo da se veličina podataka u tradicionalnim RDBMS mjeri
u gigabajtima, a u slučaju velikih podataka tj. MapReduce u petabajtima. U nastavku se ističe
batch pristup, gdje se u tradicionalnih RDBMS još i dodaje interakcija. Također, kod
tradicionalnih RDBMS se podaci i čitaju i pišu više puta, a kod velikih podataka pišu samo
jednom, a čitaju više puta. Struktura kod tradicionalinh RDBMS je statična, a kod MapReduce je
dinamična. Integritet u tradicionalnih RDBMS je visok, a kod velikih podataka malen.
Skalabilnost kao zadnja nam pokazuje da se tradicionalni RDBMS koriste nelinearnom, a
MapReduce linernom skalabilnošću. MapReduce koristi dvije funkcije Map i Reduce (više u
nastavku teksta) te s toga ukoliko dođe do povećanja veličine klastera za 2 puta neće doći do
usporavanja izvršenja funkcija, dok bi SQL upiti bili znatno sporiji.
Tradicionalne RDBMS
MapReduce
Veličina podataka
Gigabajt
Petabajt
Pristup
Interaktivan i batch
Batch
Ažuriranje
Čitanje i pisanje više puta
Piše se samo jednom, a čita
mnogo puta
Struktura
Statična
Dinamična
Integritet
Visok
Nizak
Skalabilnost
Nelinearna
Linearna
Tablica 1. Usporedba relacijskih baza podataka i MapReduce
Skladišta podataka i veliki podaci
Većina ljudi je smatrala da će se pojavom Big Data tehnologije dogoditi „smrt“ tradicionalnih
skladišta podataka, ali takva razmišljanja su se dakako pokazala netočnima. Naime, tzv. NoSQL
tehnologije doista imaju svoje čari i možda mogu upućivati na takav ishod, ali u nastavku teksta
ćemo vidjeti zašto to nije tako. Naime, tradicionalna skladišta uzimaju dosta vremena i dosta
truda koji se ulaže u čišćenje podataka, obogaćivanje, metapodatke, master data management
6
itd. To automatski podrazumijeva i veliku kvalitetu tih podataka. Radi se o skupom procesu čiji
je ishod visoka vrijednost i široka primjena. S druge strane naši Big Data repozitoriji rijetko
prolaze tako striktne faze predprocesiranja, jer su skupi te se rad na ovim repozitorijima
uglavnom svodi na istraživanja i otkrivanje nego na vrijednost podataka. Ovo je ključna razlika
između skladišta podataka (podizanje kvalitete podataka za izradu kvalitetnih izvještaja) i velikih
podataka (pronalazak zanimljivih podataka relativno jeftinim procesom, koje dalje možemo
ubaciti u skupa skladišta podataka). Dakle, tehnologija velikih podataka „kopa“ kroz ogromne
količine prljavih podataka u potrazi za zlatom i kad ga pronađe ono se pročisti, strukturira i
napuni u skladište podataka čime iskorištavamo njegovu punu vrijednost. Znači svaki dio radi
određeni posao i oboje su ključni za uspješan završetak priče, ali nikako nisu isključivi.
Hadoop okruženje
Hadoop je veoma bitan dio kad govorimo o Big data i kad bi ga išli definirati trebali bi reći da se
radi o Apache projektu visoke razine koji je napisan u Javi i smatra se računalnim okruženjem
koji je napravljen na temeljima od tzv. Distributed clustered file system koji je dizajniran upravo
u svrhu izvođenja operacija nad velikim podacima. Hadoop nam je omogućio ono što je do njega
bilo nemoguće, a to je otkrivanje informacija pomoću skeniranja velikih podataka kroz visoku
skalabilnost i distribuirani batch sustav za obradu. Hadoopov kreator je Doug Cutting koji mu je
dao takvo ime po sinovoj igrački. Hadoop se promatra kroz dva dijela : HDFS i MapReduce [3].
Uz ta dva dijela bitno je spomenuti i ove projekte koji su povezani s Hadoopom : Apache Avro
(služi za sterilizaciju podataka), Hbase i Cassandra (baze podataka), Hive (pruža ad hoc upite
koji su slični SQL upitima), Chukwa (sustav za nadziranje koji je dizajniran posebno za velike
distribuirane sustave), Mahout (library za strojno učenje), Pig (programski jezik visoke razine
dizajniran za Hadoop, a služi za data flow i execution framework za paralelnu obradu),
ZooKeeper (pruža koordinaciju za distribuirane aplikacije) i mnogi drugi.
HDFS i MapReduce
Hadoop Distributed File System (HDFS) pohranjuje podatke u tzv. blokove tj. dijeli ih u blokove
i kopira te blokove te ih pohranjuje na druge servere u Hadoop klasteru. [22] Znači, individualni
podatak je podijeljen u manje blokove koji se repliciraju na više servera unutar cijelog klastera.
Zadana veličina svakog bloka u Apache Hadoopu je 64 MB, a za veće podatke se koriste blokovi
veće veličine (BigInsights - 128 MB). Radi se o mnogo većoj veličini nego što koriste ostala
7
okruženja, ali to ima smisla s obzirom da se Hadoop koristi za analize veoma velikih podataka
te mu je lakše raditi s većim blokovima. Inače, svaki blok se pohranjuje na tri servera i na
minimalno dva racka servera kako bi se povećala pouzdanost i sigurnost. Cijela logika smještanja
podataka se odvija zahvaljujući NameNode -u. Upravo je NameNode ogromna prednost u
odnosu na prijašnja vremena, jer se on brine umjesto nas, gdje će se smjestiti podaci,. No, on
obično predstavlja „single point of failure“ te je veoma bitno raditi backup metapodataka
klastera kako bi spriječili gubitak odgovarajućih podataka. Sam proces rada Hadoopa se odvija
tako da Hadoop kontaktira NameNode, on pronalazi gdje su pohranjeni odgovarajući podaci
koje tražimo i šalje ih aplikaciji koja ih pokreće lokalno na tim nodovima. Stvarni podaci koji se
analiziraju MapReduceom ne prolaze kroz NameNode, već se on koristi samo za upravljanje
metapodacima koji opisuju gdje se podaci nalaze. Kao još bolje rješenje se nudi GPFS – General
Parallel File System.
MapReduce kojeg smo ranije spominjali je samo središte Hadoopa i riječ je o programskoj
paradigmi koja nam omogućava ogromnu skalabilnost kroz stotine pa i tisuće servera unutar
Hadoop klastera. [23] MapReduce se kao što iz riječi možemo pretpostaviti sastoji od 2
odvojena pojma : Map – uzima određeni set podataka i konvertira ih u drugi set podataka, gdje
se individualni podaci rascjepkaju na tuples (key/value parove); Reduce – uzima output od mapa kao input i kombinira te tuples u manji set tuples. Ovako možda izgleda zbunjujuće, no na
primjeru bi trebalo biti jednostavnije. Zamislimo da imamo podatke o temparaturama po
državama koji su raspoređeni, dakle u 2 stupca i gdje je država key, a temeperatura value. Map
traži za svaku državu posebno, sve temperature koje su registrirane te ih se zatim ubacuje u
Reduce koji izbaciva od svih tih vrijednosti samo onu maksimalnu (koja nas zanima) tj. daje samo
jednu vrijednost po državi. Hipotetski primjer mapovih međurezultata :
Hrvatska – 20
BIH – 21 Srbija – 17 Crna Gora – 38
Hrvatska – 29
BIH – 4
Hrvatska – 37
BIH – 15 Srbija – 37 Crna Gora – 18
Hrvatska – 39
BIH – 40 Srbija – 2
Srbija – 20 Crna Gora – 1
Crna Gora – 16
Hipotetski primjer Reduca na temelju outputa Mapa :
Hrvatska – 39
BIH – 40 Srbija – 37 Crna Gora – 38
8
U Hadoop klasteru MapReduce se odnosi na job (posao) koji se dijeli na manje dijelove ili
zadatke (tasks). [25] Aplikacija prihvaća posao te ga dodjeljuje određenom Hadoop klasteru koji
pokreće JobTracker. On komunicira s NameNode kako bi saznao gdje se sve podaci koji nam
trebaju nalaze unutar klastera te se posao (job) dijeli na manje dijelove tj. taskove ili kako smo
ranije spomenuli map task i reduce task za svaki node. Također, bitan je i TaskTracker kojem je
posao pratiti status svakog taska ili zadatka. Ako zadatak ne uspije njegov status se šalje
JobTrackeru, koji će isti taj zadatak ponovno dodijeliti novom nodu unutar klastera.
Projekti povezani s Hadoopom
Pig
Ime je dobio po životinji koja je poznata po tome što može pojesti gotovo sve (svinja) te se
učinilo zgodnim tako nazvati ovaj programski jezik, jer može upravljati s bilo kojom vrstom
podataka. [24] Pig se sastoji od dva pojma : PigLatin – jezik i drugog dijela koji pruža okruženje
prvome da se izvrši. Cilj Piga je pojednostavniti MapReduce programe. Koraci kako mu to polazi
za rukom su LOAD, TRANSFORM, DUMP i STORE. Kako bi Pig mogao raditi program mu mora
reći koje podatke da koristi, a to se radi preko naredbe LOAD `data_file`, zatim kreće
manipulacija pomoću TRANSFORM, gdje je moguće filtrirati, grupirati, spajati podatke itd. ,
zatim na kraju dolaze DUMP i STORE čija upotreba ovisi da li želimo prikazati rezultate na ekranu
(DUMP) ili pohraniti podatke za daljnu analizu (STORE). Nakon ovoga potrebno je pokrenuti Pig
unutar Hadoop okruženja i to pomoću tri načina : ugrađivanjem u skriptu, ugrađivanjem u Java
program ili preko Pig command line zvanog Grunt. Koji god odabrali, na kraju dolazi do
izvršavanja map i reduce zadataka čime se ispunjava cilj Piga, a to je pojednostavljivanje cijelog
procesa.
Hive
Pig nam uvelike pomaže da pojednostavimo cijeli proces, kao što smo vidjeli u prethodnom
dijelu, ali i dalje je nešto što se mora naučiti i savladati. Kako bi olakšali cijeli proces još više,
stvoren je Hive. On pomaže ljudima koji su do sada radili na SQL-u, da uz slično okruženje bolje
iskoriste Hadoop okruženje. SQL developeri pri radu s njim koriste tzv. HQL – Hive Query
language koji ima određena ograničenja, ali je i dalje veoma koristan. Njegove naredbe se dijele
na MapReduce poslove i izvršavaju se kroz Hadoop klaster. Hive se bazira na Hadoop i
MapReduce operacijama, ali postoje neke razlike. Zbog toga što je Hadoop napravljen za
9
sekvencijalno skeniranje, očekuju se upiti kojima treba dugo da se izvrše. Ukoliko nam treba
veoma brz response time onda ovo predstavlja problem. Drugo, Hive je read-based što obično
uključuje veliki udio pisanih operacija.
ZooKeeper
Radi se o open source Apache projektu koji osigurava centraliziranu infrastrukturu i uslugu koja
osigurava sinkronizaciju kroz klaster. Ukoliko imamo i manju količinu servera nužna je
centralizacija kad govorimo o upravljanju, a pogotovo kad se radi o velikom broju servera.
ZooKeeper server čuva kopije stanja cijelog sustava i svaki klijent komunicira jednog ZooKeeper
servera (može ih biti više), kako bi vratio ili nadogradio informaciju o sinkronizaciji.
Hbase
Hbase je upravljački sustav baza podataka koji su stupčano orijentirane i pokreće se nad HDFSom. Veoma je koristan za parsirane podatke, koji su veoma česti u Big Data slučajevima. Bitno
je naglasiti da Hbase ne podržava SQL i nije relacijska baza podataka. Njegove aplikacije su
napisane u Javi. Sami sustav je veoma sličan tradicionalnim bazama podataka, a glavna razlika
su column famlies koji omogućava pohranjivanje elemenata column familya zajedno. Kod
tradicionalnih sustava se stupci određenog retka pohranjuju zajedno. Sama shema Hbase je
veoma fleksibilna i veoma je lako promijeniti column families. Hbase slično HDFS-ovom
NameNode i MapReduce-ovom JobTrackeru i TaskTrackeru, ima master node (upravlja
klasterom) i region server (pohranjuje dijelove tablica i vrši operacije nad podacima).
Oozie
Oozie je open source projekt koji pojednostavljuje workflow i koordinaciju između jobs
(poslova). Omogućuje definiranje akcija i ovisnosti između akcija. Oozie zatim radi raspored
akcija koje treba izvršiti kad se zahtjevana ovisnost između akcija poklopi tj. zadovolji.
Lucene
Ovo je veoma popularan open source Apache projekt za tekstualno pretraživanje i uključen je
u mnoge open source projekte. Omogućava potpuno tekstualno indeksiranje i pretragu
knjižnica (library) unutar Java aplikacija.
Avro
Avro je Apache projekt koji omogućava sterilizaciju podataka. Kad se zapisuju Avro podaci
schema koja definira podatke se uvijek zapisuje uz dokument čime se omogućava jednostavno
čitanje podataka kad nam kasnije zatreba.
10
Korporacijski model velikih podataka
U ovom dijelu rada ćemo predstaviti model koji ističe ekosustav tehnologija koje se mogu
koristiti za potporu Big Data rješenja.
Slika 3. Shema korporacijskog modela velikih podataka
Big Data infrastruktura se shvaća kao ključni predkorak ukoliko se želimo upustiti u Big Data
projekt čiji je ishod uspjeh. Potrebna nam je infrastruktura koja će iskoristiti podatke koji dolaze
iz raznih aplikacija i izvora. Ova arhitektura tj. model je napravljen za svrhu knjige „Big Data in
government“ [4], dakle stavljena je u kontekst vladinih agencija, ali se može primijeniti na
ostale.
Središnje i temeljne tehnologije se smatraju : Analitika u realnom vremenu, MapReduce i
Skladišta podataka. MapReduce i skladišta podataka su već obrađena u prethodnim dijelovima,
a analitika u realnom vremenu zahtjeva nešto šire objašnjenje. Radi se o analizi ogromnih
količina podataka u realnom vremenu odgovora koje se mjeri u milisekundama. Podaci naravno
mogu dolaziti iz različitih izvora : senzori, društvene mreže, video itd. Idealno je za analitiku u
realnom vremenu pri velikom utjecaju jednog od V na podatke, a to je velocity. Ovdje su
11
uključeni paralelno procesuiranje, velike I/O mogućnosti i algoritmi bazirani na pravilima.
Obično ne zahtjeva velike količine prostora za pohranu.
Big Data akceleratori su softverske aplikacije, konektori, sučelja koji omogućavaju mogućnosti
dodane vrijednosti, kao što su implementiranje analitike i prihvaćanje sposobnosti za
integracijom. Akceleratori mogu smanjiti vrijeme koje nam je potrebno za razvoj i ubrzati
vrijeme shvaćanja vrijednosti od Big Data ulaganja. Akceleratori uključuju : alate za tekstualno
ekstraktiranje ili NLP proizvode (Natural Language Processing), financijske alate, geospacijalnu
potporu, integraciju, video rudarenje itd.
Big Data i računarstvo u oblaku
Oblak nam pruža bržu implementaciju, efektivniju upotrebu IT resursa i veću i bržu mogućnost
inovacije. Inovacija je omogućena kroz virtualno okruženje i omogućava organizaciji brži uspjeh.
Prvi korak u bilo kojoj integraciji informacija ili transformacijskoj inicijativi nužno je shvatiti
odakle naši podaci dolaze, u kojoj količini, kojom brzinom, kakva im je struktura, kvaliteta tj.
protežemo ih kroz naša početna 4V. Ovo nam pomaže prilikom određivanja težine upravljanja
i analize podataka. Nakon što smo prošli taj prvi korak kreće se u pripremu podataka za analizu.
Provodi se čišćenje i verifikacija. Zatim ide transformacija podataka bilo da govorimo o pretvorbi
nestrukturiranih podataka u strukturirane ili podjeli na manje dijelove. Cilj je pouzdana
informacija koja je točna, kompletna i korisna. Zatim korištenjem alata provode se jednostavne
analize ili nešto zahtjevnije poput prediktivne analitike, sentimentalne analize itd. Završni korak
uključuje korištenje dobivenih informacija iz prethodnog koraka za izradu vizualizacije ili
kolaboracijski alata ili možda napredak postojećih procesa.
12
Slika 4. Tijek velikih podataka
Prepreke u Big Data analitici
Kao što se može vidjeti iz slike lanac se sastoji od 4E (educate, explore, engage, execute). Znači
imamo izgradnju baze znanja pomoću istraživanja i uključivanja s završnim činom
implementacije Big Data. Vidimo kako se određene prepreku protežu kroz ove faze. Artikulacija
poslovnog slučaja se proteže kroz sve, kvaliteta se pojavljuje u završnim podacima,
razumijevanje iskoristivosti Big Data se pojavljuje na početku i na kraju, upravljanje i potpora u
prve dvije faze, analitičke vještine u svim osim u prvoj, a tehničke u svim fazama. Vještine su
danas posebno problem, jer tržište rada ne nudi dovoljno obrazovanog kadra kad govorimo o
posjedovanju vještina vizualizacije, implementacije, napredne analize itd.[5]
Slika 5. Prepreke u Big Data
13
Big Data i studije slučaja
Najbolji način da se netko upozna s Big Data su naravno studije slučaja. Stvarni primjeri i stvarni
korisnici uz probleme i načine rješavanja istih najbolje dočaraju što je to Big Data i što može.
Informacijske tehnologije (IT)
U mnogim primjerima smo našli korištenje tzv. Log analitike. Mnoga poduzeća generiraju dosta
log podataka, no na to gledaju kao na nešto što im je beskorisno kad je u pitanju neka naprednija
analiza. Podaci logova se čuvaju sa strane i jedva se čeka trenutak kad će ih se riješiti. Naravno,
Big Data se može iskoristiti da se dokaže upravo suprotno. S obzirom na njihovu svrhu normalno
je očekivati da će se ovdje raditi i o ogromnim količinama tih podataka, čija pohrana , ukoliko
se ne koriste Big Data tehnologije, može predstavljati problem. Osim jednog od V – Volume,
ovo može biti Big Data problem i zahvaljujući svojoj polustrukturiranoj naravi i nisu baš poželjni
i prilagođeni u takvom obliku za tradicionalne baze podataka. Na temelju ovih podataka
pomoću Big Data tehnologije moguće je steći znanje pomoću kojega se može bolje anticipirati
i razumjeti svaka interakcija između grešaka, moguće je primijeniti primjere najbolje prakse na
specifičan problem ili poboljšati infrastrukturu da se uklone problemi. Znači, radi se o
preventivnom održavanju.
Otkrivanja prijevare
U bilo kojoj financijskoj transakciji može doći do iskorištavanja podataka za prevaru, može doći
do zloupotrebe podataka itd. No, uz pomoć Big Data tehnologije može se identificirati taj
problem ili još bolje ukloniti ga. Izazovi u ovom tipu otkrivanja uzoraka su do sada bili odrediti
što modelirati, jer su resursi bili ograničeni i tehnologija mogla omogućiti pohranu velikih
količina podataka koji bi se mogli analizirati. Uslijed manje količine podataka dolazi i do
ograničenja modela . Obično bi trebalo dugo dok bi se otkrio neki problem koji se već dogodio
i nažalost to bi obično već bilo kasno. U ovom slučaju bi se uzimali manji uzorci podataka koji bi
se analizirati i došlo bi se do nekih zaključaka, ali sada su analitičari u mogućnosti analizirati sve
podatke. Kako bi se ovo izvelo naravno potrebno je koristiti tehnologiju koja se koristi u Big Data
analitici. Prema knjizi koju smo već spominjali IBM Understanding Big Data 20 % svih korisnih
podataka koji nam pomažu u otkrivanju prevara, obično u financijskom sektoru, se koriste, dok
14
ostatak stoji neiskorišten. Kao što smo također u prijašnjem tekstu spominjali u ovom slučaju
Big Data pronalazi visokovrijedne podatke i tek kad ih pronađemo ubacujemo ih u tradicionalna
skladišta podataka kako bi iskoristili njihovu vrijednost. Ovo se koristi zbog činjenice što se radi
o veoma skupom i dugotrajnom procesu koji ima smisla samo ukoliko znamo da će nam uvidi u
te podatke donijeti nove spoznaje koje su korisne za poduzeće i njegov financijski rezultat. Na
slikama ispod možemo primijetiti razliku između dva načina otkrivanja prevare. Na prvoj slici
se radi o onih 20% korisnih podataka koji se koriste.
Slika 6. tradicionalni način otkrivanja prevare
Na slici ispod se može vidjeti moderni način otkrivanja prevare, gdje se količina s 20 % povećala
za 50 %. Ukoliko se pitate zašto nije 100 %, razlog je činjenica što ćete rijetko kad susresti
situaciju da su baš svi podaci korisni. Ovdje se radi o 50 % više nego u prethodnom primjeru te
je 80 % nedostižno.
15
Slika 7. Moderni način otkrivanja prijevare
Društvene mreže
U današnje vrijeme veoma popularan način analize. Podaci se uzimaju obično s najpopularnijih
mreža kao što su Facebook, Twitter ili LinkedIn. Osim njih analiziraju se i druge, ali ove su
najzanimljivije za naše područje. Ovaj način analize je veoma zanimljiv, jer možemo vidjeti što
naši obožavatelji, kupci, dobavljači govore ili što drugi govore o konkurenciji. Uz količinu
podataka koja se dnevno generira na raznim društvenim mrežama možemo doći do uvida te ih
uz pomoć ove semantičke analize iskoristiti za donošenje odluka ili angažiranje poduzeća.
Također, može se pratiti utjecaj na prodaju, efektivnost i efikasnost marketinške kampanje ili
prihvaćenost iste te kampanje, koliko smo dobro složili naš marketinški miks (proizvod, cijena,
promocija i distribucija) itd. Postoje mnoga rješenja koja su specijalizirana baš za analize
podataka s društvenih mreža. Bitno je naglasiti da pomoću analize možemo otkriti tko govori i
što govori o proizvodu ili usluzi, ali ne možemo otkriti razlog njegovog govora. Ono što je
zanimljivo kod ovog tipa analize je činjenica da svatko može izraziti svoje mišljenje u sekundi te
da sve više i više osoba to i radi, a mi s druge strane to sve možemo analizirati te poboljšati naš
proizvod, odnose s kupcima ili nešto treće.
Energetski sektor i Big Data
16
U RH tvrtke koje su u javnom sektoru obično imaju ogromnu infrastrukturu, ali i nisku
iskorištenost upravo te infrastrukture. Liberalizacijom tržišta električne energije upravo će
iskorištavanja te infrastrukture biti ono što će donijeti prevagu. Energetski sektor općenito se
mora nositi s velikim brojem geografski udaljenih senzora koji registriraju dosta podataka.
Iskorištenost tih podataka je veoma mala upravo zbog ne posjedovanja pravih tehnologija za
pohranu i i analizu tih količina podataka. Senzori s naftne platforme imaju i preko 20 000
senzora koji registriraju kvalitetu nafte, količinu itd. No, iskorištenost tih podataka je manja od
10 % ovisno koju tvrtku gledate. Kad bi se odlučili analizirati sve ove podatke naišli bi na
ogromnu količinu nečistih podataka te bi ih trebalo odvojiti te pronaći one koji su vrijedni.
Podaci koji se dobiju iz senzora mogu biti ključni za donošenje odluke kao što je : Gdje ćemo
smjestiti elektranu (solarnu, vjetroelektranu)? Ti senzori registriraju upravo vremenske uvjete
na svim lokacijama na kojima su smješteni te prilikom stavljanja novih elektrana možemo
donijeti bolje odluke .
Upravljanje podacima
Big Data je fenomen, može se reći i marketinški fenomen. Mo, velikim podacima je nužno
upravljati (governance). Governance ili upravljanje je skup pravila koji definiraju kako će netko
upravljati podacima. Pravila mogu, ali i ne moraju definirati i kako će se podaci čistiti, osigurati
itd. Ukoliko uzmemo u obzir da naši podaci imaju svoj životni vijek te da se od trenutka kad se
uvedu može očekivati da će nakon određenog vremena i početi rjeđe koristiti. Naravno, nemaju
svi podaci svoj kraj neki ostaju, ali neki imaju čak i zakonski rok koliko se moraju držati. Tako,
Facebook čuva podatke svojih korisnika 20 godina, a određene financijske institucije i po
nekoliko godina. Ukoliko nemamo pravilo kada podaci odlaze u svoju „mirovinu“ dolazi do
akumulacije tih podataka te naš administrator obično odlučuje koje podatke će izbaciti ili
izbrisati. Što ako se radi o osjetljivim podacima ? Organizacija za takve podatke mora odrediti
sigurnosne politike za čuvanje tih informacija i te se politike i pravila moraju pratiti i
nadograđivati sukladno promjenama. Što se čišćenja podataka tiče bitno je odrediti da li će se
ti podaci čistiti jednako kao i tradicionalne baze podataka ili će se čistiti nekako drukčije. Sama
odluka i donošenje pravila ovisi o tome što namjeravamo uraditi s tim podacima. Za svrhe CRM17
a se koriste visokovrijedni podaci i čišćenje treba biti usklađeno s njima, a za npr. Identifikaciju
prevara koju smo ranije spominjali je bitnije da su podaci upravo onakvi kakvi su i uneseni kako
bi se lakše otkrile prevare. Neke tvrtke se odluče za MDM ili master dana management, ali
mnoge tvrtke se nisu odlučile za tzv. Single version of truth. MDM je veoma dobra početna
točka svih Big Data projekata, jer pruža upravo single version of truth.
Razlog zašto mnoge tvrtke nisu obraćale pažnju na ovo je činjenica što su Big Data tehnologije
došle iz znanstvene zajednice. U svrhu istraživanja su se koristile male baze podataka i
analizirale su se u pouzdanom okruženju te nisu bili potrebni MDM. Kad su se implementirale
te tehnologije shvaćeno je da je upravljanje nužno. Sljedeći je problem što su tvrtke tek kasnije
počele donositi pravila i politike te nisu odmah od početka pazili na to što je dovelo do
nepotrebnih troškova.
Konkurentsko natjecanje u informacijama i analitici
Mnoge tvrtke pokušavaju pronaći vrijedne uvide kako bi ostvarili komparativnu prednost. On
se zapravo natječu u analitici. No, osim analitike oni se natječu i u informacijama. Ako se natječu
u informacijama onda im trebaju i one informacije kojima se može vjerovati. Iako bi htjeli da se
svim podacima može vjerovati to nažalost ponekad nije moguće, jer uvijek postoji rizik da se
radi o nesigurnim podacima. Taj rizik se treba uračunati u proces donošenja odluka. Krajnji cilj
trebaju biti vjerodostojne informacije. Ovo je razlog upravo možda zbog činjenice što svako 3
menadžer tvrtke donosi odluke na temelju nesigurnih podataka. Svako drugi menadžer nema
informaciju koja mu u tom trenutku treba, a 60 % ih ima više podataka nego što ih može koristiti
(knjiga Harnest Big Data).
18
Slika 6. Nesigurnost podataka
Smatra se da 6 faktora utječe na pouzdanost informacije :

Informacija je shvaćena – porijeklo, vrijednost, kvaliteta informacije je shvaćena

Informacija je točna – standardizirana, validna, verificirana, usklađena

Informacija je holistička – nije fragmentirana, ne bi smjele biti različite verzije iste
informacije

Informacija je trenutna – samo zadnje i relevantne podatke se pohranjuje, a stare se
arhivira ili briše. Podaci često veoma brzo gube vrijednost.

Informacija je sigurna - nivo sigurnosti informacije je u skladu s pravilima koja su
utvrđena u svrhu upravljanja podacima

Informacija je dokumentirana – Njen izvor i sva pravila i transformacije koje su na njoj
primijenjene su dokumentirane. Ovo se još zove i end-user transparency.
19
Big Data analitika u suvremenom poslovanju
U prvom dijelu rada smo obradili teoriju Velikih podataka (Big Data), u drugom dijelu ćemo
pozornost dati analizi Big Data putem različitih tehnika i alata kao što je rudarenje podataka ili
rudarenje teksta koje danas možemo naći pod nazivom poslovna analitika (business analytics).
Velike tvrtke kao što su Amazon i Google imaju primat u uporabi Big Data podataka i analizi
istih, te su koristile ta znanja kako bi stekle konkurentsku prednost. Kao primjer analize Big Data
možemo uzeti Amazonov sustav preprouke. Pri procesu kupovine Amazon prikuplja povijest
naših prijašnjih kupovina i otkriva naše kupovne uzorke kako bi došla do najbolje individualne
ponude i ovo je primjer uporabe marketinške Big Data analitike u realnom vremenu (real-time).
[20]
Mogućnost analiziranja velikih podataka pruža jedinstvenu priliku za tvrtke različitih veličina.
Tehnologija kao što je Hadoop nam omogućuje analizu velikih količina podataka u realnom
vremenu umjesto analize uzorka seta podataka.
Porast u razini informacija i povezanih alata je stvorio novu vrstu sofisticiranih korisnika. Ti
korisnici su mnogo više analitični, vještiji u korištenju statistike i povezanih putem različitih
društvenih mreža kako bi prikupili raziličita mišljenja od ostalih korisnika/ljudi. Internetski svijet
je postao visoko personalizirano mjesto.
Postoji mnogo načina kako iskoristiti društvene mreže kako bi utjecali na potrošačeve odluke,
a neke od njih su: [21]

Analizirati potrošačevo iskustvo – Osamdeset posto podataka je nestrukturirano.
Analiziranjem semantike teksta, možemo organizirati bazu naših potrošača te podijeliti
ih prema pozitivnom i negativnom sentimentu.

Organiziranje potrošačevog iskustva – Tvrtke potrošaču mogu pružiti komentare ostalih
potrošača na proizvod, kako bi to utjecalo na daljnu korisnikovu odluku.

„Feedback“ za proizvod i marketing – Koristeći informacije generirane od strane
društvenih medija, tvrtke mogu brzo mijenjati proizvodni miks i marketing kako bi
poboljšali ponudu potrošačima.
20
Slika 9. Big Data pogled na potrošača.
Prije nego što tvrtka počne s korištenjem Big Data analitike mora znati koji problem mora riješiti.
Primjerice poslovni problem može biti predviđanje odustajanje korisnika u telekomunikacijama
i predviđanje najbolje ponuda za određenu grupu kupaca. U analitici velikih podataka postoje
četiri glavna tipa analize. Tipovi analize i opis su prikazani u donjoj tablici.
Tip analize
Opis analize
„Slice and dice“ podataka, izvještavanje, jednostvana
Osnovna analitika za otkrivanje znanja
vizualizacija, jednostavno praćenje
Mnogo kompleksnije analize kao što je prediktivno
Napredna analitika za otkrivanje znanja
modeliranje i tehnike otkrivanja uzoraka
Operacionalizirana analitika
Analitika postaje dio poslovnih procesa
Monetizirana analitika
Analitika se iskorištava za direktno povećanje prihoda.
Tablica 2. Tip i opis analitike za otkrivanje znanja
21
Napredna analitika
Napredna analitika je praksa ekstrahiranja informacija iz postojećih podataka kako bi utvrdili
uzorke, te kako bi predvidjeli buduće ishode i trendove, te se tipično koriste za predviđanje
vjerojatnih događaja u budućnosti s određenom razinom pouzdanosti. Napredna analitika
pruža algoritame za kompleksne analize strukturiranih ili nestrukturiranih odataka. Napredna
analitika koristi sofisticirane statističke modele, strojno učenje, neuornske mreže, rudarenje
teksta ili teksutalnu analitiku i ostale napredne tehnike rudarenja podataka. Iako se napredna
analitika koristila od strane matematičara i statističara prije nekolikiko desetljeća, nije se
provodila na velikoj količini podataka kao što je danas. Danas, napredna analitika sve više
postaje dio suvremenog poslovanja, te je možemo nazvati „mainstream“ tehnologijom. S
porastom snage računala, poboljšanom infrastrukturom podatak, razvojem novih algoritama i
načina za bolji pogled u veliku količinu podataka, tvrtke sve više koriste naprednu analitiku za
donošenje poslovnih odluka.
Neka od područka poslovna analitike su : [17]
Prediktivno modeliranje : Prediktivno modeliranje je jedno od najpopularnijih korištenja
napredne analitike veliki podataka. Prediktivni model je statističko ili rješenje rudarenja
podataka koje se sastoji od algoritama i tehnika koji se mogu koristiti nad strukturiranim ili
nestrukuturiranim podacima kako bi predvidjeli buduće ishode.
Tekstualna analitika: Nestrukturirani podaci su veliki dio velikih podataka. Tekstualna analitika
je proces analiziranja nestrukturiranog teksta, ekstrahiranje relevantnih informacija i
transformacija u strukturiranu informaciju koja se može iskoristiti pri donošenju poslovnih
odluka.
22
Rudarenje podataka (data mining) u suvremenom poslovanju
Različiti znanstveni članci govore da poslovanja danas žive u informacijskom dobu, međutim
možemo reći da poslovanja danas posluju u dobu podataka. Terabajti ili petabajti podataka se
dnevno kreiraju na World Wide Web-u (WWW) ili u redovnom poslovanju. Eksplozivni rast
dostupne količine podataka je rezultat kompjuterizacije društva i brzog razvoja alata
prikupljanja i pohranjivanja podataka. Poslovanja u cijelom svijetu generiraju velike količine
podataka koje uklučuju poslovne transakcije, opise proizvoda, promocije prodaje i podatke o
potrošačima. U zadnje vrijeme smo svijesni sve veće količine podataka koje dolaze iz različitih
izvora kao što su društvene mreže, blogovi,RFID čipovi i različiti senzori.
Rudarenje podataka se može promatrati kao rezultati prirodne evolucije informacijske
tehnogije. Baze podataka i upravljanje podacima su evoluirale u pogledu različitih
funkcionalnosti kao što su: prikupljanje podataka i kreiranje bazi podataka, upravljanje
podataka (uključuje pohranu i preuzimanje podataka) i naprednu analizu podataka koje
uključuje skladištenje podataka i rudarenje podataka.
U intervju za časopis Computerworld 1999. godine, Dr. Arno Penzias je identificirao rudarenje
podataka organizacijskih baza podataka kao glavnu prednost poduzeća u bliskoj budučnosti.
Također Thomas Davenport je 2006 .godine u Harvard Business Review-u napisao da je
posljednje strateško „oružje“ za tvrtke analitičko poslovno odlučivanje, dajući ga primjer
Amazon.com i ostale tvrtke koje koriste analitiku kako bi bolje razumjeli vlastite potrošače i
optimizirali lance opskrbe kako bi maksimizirali povrate na investicije, a pri tome zadržali
najbolju uslugu potrošaču. Ova razina uspjeha je visoko ovisna o tvrtkinom razumijevanju
vlastitih kupaca, dobavljača, poslovnih procesa i lanca opskrbe.
Velika komponenta ovoga dolazi iz analize velike količine podataka koje tvrtka prikuplja. Trošak
spremanja i obrađivanja je dramatično pao posljednjih godina i kao rezultat dobivamo da su
podaci koji su spremljeni u elektroničkom obliku rasli eksplozivno.
Iako je pojam rudarenja podatak relativno nov, ideja iza njega nije. Mnogo tehnika koje se
koriste u rudarenju podataka imaju svoje korijene u statistici i umjentoj inteligenciji. Iako postoji
mnogo definicija što je rudarenje podataka, možemo ga opisati kao otkrivanje ili rudarenje
znanja iz velike količine podataka.
23
Tehnički gledano, rudarenje podataka je proces koji koristi statističke, matematičke i tehnike
umjetne inteligencije za ekstrahiranje i identificiranje korisnog znanja i uzoraka iz velike količine
podataka. Ovi uzorci mogu biti prikazani u obliku poslovnih pravila, korelacija, trendova ili
modela predviđanja.[18]
Slika 10 Proces rudarenja podataka
Većina literature definira rudarenje podataka kao kao netrivijalni poces identificiranja valjanih
potencijalno korisnih i razumljivih uzoraka u podacima koji su pohranjeni u strukturiranom
obliku. [19]
Rudarenje podataka nije nova disciplina nego kombinacija više znanstvenih disciplina.
Rudarenje podataka je usko pozicionirana kao presjek više disciplina koje uključuju statistiku,
umjetnu inteligenciju, strojno učenje (machine learning), menadžemnt, informacijske sustave i
baze podataka. Koristeći prednosti u svim ovim znanostima, rudarenje podataka teži pravljenju
pomaka u ekstrahiranju korisnih informacija i znanja iz velikih baza podataka. Kao dio rudarenja
podataka u sljedećem dijelu ćemo obraditi teoriju rudarenja teksta ili text mining-a.
24
Slika 11. Rudarenje podataka kao presjek više znanstvenih disciplina.
Rudarenje teskta u suvremenom poslovanju
Informacijsko doba u kojem sada živimo karakteriziraju brzi rast količine podataka i informacija
koje su prikupljaju, spremaju i koje su dostupne u elektronksim medijima. Velika količina
poslovnih podataka su pohranjeni u obliku teksta koji su u nestrukturiranom obliku. Prema
studiji Merilly Lynch-a i Gartnera, 85 do 90 posto svih korporacijskih podataka su prikupljeni i
pohranjeni u nekom od nestrukturiranih oblika. [6] Također ista studija pokazuje da se
nestrukturirani podaci udvostručuju u količini svakih osamnaest mjeseci. Zbog toga što je znanje
moć u današnjem poslovnom svijetu i znanje koje je izvedeno iz podataka i informacija te
poslovanja koja efektivno i efikasno mogu iskoristiti izvore tekstualnih podataka će imati
potrebno znanje za donošenje boljih poslovnih odluka koje donose bolju konkurentsku
prednost nad konkurentskim poduzećima. Ovo je područje gdje se uvelike iskorištava rudrenje
teksta ili text mining.
Rudarenje teksta (isto poznat kao text mining ili otkrivanje znanja u tekstualnim bazama
podataka) je semiautomatski proces otkrivanja uzoraka (korisnih informacija i znanja) iz velike
25
količine nestrukturiranih izvora podataka i dio je rudrenja podataka. Rudarenje podataka (data
mining) je proces otkrivanja valjanih, potencijalno korisnih uzoraka u podacima koji se nalaze
u strukturiranim bazama podataka, gdje su podaci organzirirani u tabličnom obliku gdje se
nalaze nominalne i numeričke varijable, a u posljednje vrijeme i u NoSQL bazama podataka.[7]
Rudarenje teksta je sličan pojam rudarenju podataka i ima istu svrhu kao i rudarenje podataka
i koristi iste procese, međutim rudarenje teksta koristi različite inpute za analizu podataka koji
su skupina nestrukturiranih ili manje strukturiranih podataka kao što su Word dokumenti, PDF
podaci, XML podaci ili e-mail tekstovi. U suštini, rudarenje teksta se može promatrati kao proces
s dva glavna koraka koji počinju razumijevanjem strukture koji izvori podataka imaju, te
ekstrahiranjem relevantih informacija i znanja koristeći alate i tehnike rudarenja podataka.[8]
Prednosti rudarenja teksta se najviše iskazuju u područjima gdje se generira velika količina
tekstualnih podataka, kao što je zakon, akademska istraživanja (istraživački članci), financije
(kvartalni izvještaji), tehnologija i marketing (komentari potrošača). Također još jedno područje
gdje se može iskoristiti automatska obrada nestruktuirarnih tekstualnih podataka su
elektrnonske komuniikacije i e-mailovi. Rudarenje teksta ne samo da klasificira ili filtirira
nepoželjne mailove, nego mže i automatski prioritizirati e-mailove temeljen na razini važnosti,
kao i automatsko generiranje odgovora.[9]
Najčešće primjene rudarenja teksta su:

Ekstrahiranje infomracija. Identifikacija ključnih pojmova i veza među tekstovima putem
uzoraka u tekstu.

Praćenje teme. Temeljeno na profilu korisnika i dokumenata koje korisnik gleda,
rudarenje teksta može predvidjeti dokumente koji bi ga mogli interesirati.

Kategorizacija. Identificiranje glavnih tema dokumenata i stavljanje dokumenta u
predefinirani set categorija temeljeno na određenoj temi.

Klasteriranje. Grupriranje sličnih dokumenata koji nemaju predefinirani set kategorija.

Povezivanje koncepata. Povezivanje povezanih dokumenata identificirajući njihove
zajedničke koncepte koji mogu pomoći korisnicima pri traženju informacija koje
vjerojatno ne bi našli da koirste tradicionalne metode pretrage.

Odgovaranje na pitanja. Pronalazak najboljeg odgovora na danjo pitanje prema
povezivanju uzoraka znanja.
26
Rudarenje teksta može biti korišteno pri povećanju prodaje putem analiziranja nestrukturiranih
podataka koji se generiraju iz pozivnih cenatara (call centre). Tekst generiran od strane
zabilješki call centra te audio snimke razgovora koji se zatim može pretvoriti u tekst mogu se
analizirati od strane algoritama trudarenja teksta, kako bi otkrili neobične informacije o
percepciji potrošača o proizvodima i uslugama poduzeća. Dodatno, blogovi, ocjene korisnike
proizvoda na neovisnim web stranicama su zlato da rudarenje sentimenta potrošača prema
poduzeću. Ova bogata kolekcija informacija, jednom prikladno analizirana može povećati
zadovoljstvo i povećanje životne vrijednosti potrošača.[10]
Rudarenje teksta je postalo neprocijenjivo za upravljanje odnosa s kupcima (CRM). Tvrtke sada
mogu koristiti rudarenje teksta za analizu velikih količina nestrukturiranih tekstualnih podataka
kombiniranih sa strukturiranim podacima ekstrahiranim iz tvrtkinih baza podataka (skladišta
podataka) kako bi predvidjeli percepciju potrošača i sljedeću kupnju. Coussement i Van den Poe
(2009) su uspješno primjenili rudarenje teksta i značajno poboljšali mogućnosti modela za
predviđanje odustajanja potrošača (customer churn) i oni potrošači koji su identificirani da bi
mogli ubrzo mogli odustati od proizvoda/usluga tvrtke su zadržani uz primjenjene taktike.
Proces rudarenja teskta
Kako bi bio uspješni, projekti rudarenja teksta bi se trebali oslanjat na određenu metodologiju
koja je temeljena na najboljoj praksi. Standardizirani proces modela je sličan CRISP-DM-u koje
industrijski standard za projekte rudarenje podataka (data mining). Iako većina dijelova CRISPDM metodologije mogu biti primjereni na projekte rudarenja teksta, specifični procesni model
za rudarenje teksta uključuju više aktivnosti pretprocesiranja podataka.[8]
27
Slika 12. Dijagram proces rudarenja teksta
Slika 6 nam pokazuje dijagram tipičnih procesa rudarenja teksta (Delen, Crossland,2008). Ovaj
dijagram prikazuje okviree procesa, istaknuvši njegovo sučelje sa širom okolinom. U suštini, ono
označava granice oko specifčnih procesa kako bi eksplicitno odredili što je uključeno i isključeno
iz procesa rudarenja teksta.
Kao što slika prikazuje, input za otkrivanje znanja u tekstualnim dokumentima su nestrukturirani
kao i strukturirani podaci koji su prikupljeni, pohranjeni i dostupni procesu rudarenja. Output
procesa je specifično kontekstualno znanje koje se koristi za donošenje odluka. Mehanizam
procesa uključuke prikladne tehnike, softverske alate i stručnost u području. Primarna svrha
rudarenja teksta u kontekstu otkrivanja znanja je obrada nestrukturiranih tekstualnih podataka
kao i strukturiranih podataka kako bi ekstrahirali smislene uzorke za donošenje boljih
(poslovnih) odluka.
Na najvišoj razini, proces rudarenje teksta može biti podjeljen na tri podprocesa gdje svaki od
njih ima specifične inpute kako bi generirali određene outpute.
28
Slika 13. Tri koraka procesa rudarenja teksta
Prema gornjoj slici proces rudarenja teksta sastoji se od tri koraka, a oni su: uspostavljanje
zbornika ili engl. corpus, kriranje matrice pojmova dokumenta i ekstrahiranje znanja.
Uspostavljanje zbornika
Zbornik (engl. corpus) je veliki i strukturirani set tekstova koji je pohranje u elektrnočikom obliku
pripremljen za provođenje procesa istraživanja znanja. Glavna svrha ovog koraka je prikupljanje
svih dokumenata koji su vezani za određenu tematiku ili interesno područje. Prikupljanje
podataka uključuje tekstualne dokumente, XML dokumente, e-mailove, web stranice. Kao izvor
podataka može poslužiti i snimljeni video zapisi koji mogu biti pretvoreni u tekstualni oblik
koristeći algoritme za prepoznavanje govora te koji se zatim spremaju sa svim ostalim
dokumentima koji su potrebni za analizu. Nakon što su tekstualni podaci prikupljeni oni se zatim
transformiraju i organiziraju u jednakom obliku (ASCII tekst podaci). Mnogi komercijalni alati
mogu prihvatiti različite vrste teksta te ih u postupku obrade pretvoriti u željeni format.
Kreiranje matrice pojmova dokumenta
U ovom koraku, organizirani dokumenti (zbornik) se koristi kako bi se kreirala matrica pojmova
dokumenta. U matrici, redovi predstavljaju dokumente, a stupci pojmove. Veza između
pojmova i dokumenata su predstavljeni indeksima. Glavni cilj je pretvaranje liste organiziranih
dokumenata (zbornika) u matricu gdje su ćelije ispunjene s najprikladnijim indeksima. Međutim
29
mora se napomenuti da svi termini u matrici nemaju istu važnost ili moć, te se takvi termini
moraju ukloniti iz matrice. To se uglavnom odnosi na veznike koji uglavnom čine najveći dio
dokumenata. U alatima se za taj problem koristi algoritam stop terms ili stop words gdje se iz
matrice dokumenata automatski isključuju takve riječi. Često dolazi do toga da je matrica
termina prevelika i ponekad se matrica mora smanjiti ukoliko želimo dobiti smislenu cjelinu, a
matrica se može smanjiti primjerice:

Ako stručnjak u području zaključi da neki termini nemaju smisla u tom području, takve
se riječi automatski izbacuju iz matrice.

Eliminiranjem termina koji imaju mali broj pojava u dokumentima.
Slika 14. Primjer jednostavne matrice pojmova dokumenta
30
Ekstrahiranje znanja
Koristeći dobro strukturiranu matricu i potencijalno proširana s ostalim strukturiranim
elementima podataka, uzorci se ekstrahiraju u kontekstu specfičnog problema. Glavna
kategorije metoda ekstrahiranja znanja su klasifikacija, klasteriranje, asocijacija i analiza
trendova. [11] Klasifikacija je najčešči korišten pojam u otkrivanju znanja kompleksnih izvora
podataka. Njegov zadatak je da klasificira dani instance podatka u predodređenu kategoriju ili
razred. Kad se primjeni u domeni rudarenja teksta, ovaj pojam se zove kategorizacija teksta,
gdje je za danu skupinu teksta cilj pronaći točnu kategoriju. Dva glavna pristupa klasifikaciji
teksta su inžinjerstvo znanja (knowledge- engineering) i strojno učenje (machine learning) [11]
Tehnike analize i ekstrahiranja
NLP je važni dio rudarenjea teksta i dio je područja umjetne inteligencije i računarne lingvistike.
NLP istražuje problem razumijevanje prirodnog ljudksog jezika, s pogledom na pretvaranje
opisa ljudskog jezika (kao što su tekstualni dokumenti) u formalniji oblik.
Rudarenje teksta ili tekstulna analitika koristi kombinaciju statistike i NLP tehnike ili engleski
Natural Language Processing kako bi ekstrahirale informacije iz nestrukturiranih podataka. NLP
je široko i kompleksno područje koje se razvija zadnjij dvadest godina. Primarni cilj NLP je
izvođenje smisla iz teksta. NLP generalno koristi ligvističke concepte kao šti su gramatičke
strukture i dijelove govora.
NLP izvodi analize nad tekstom na različitim razinama.: [13]

Leksikološka/morfološka analiza istraživa karakterstike pojedinih riječi, uključujući
prefikse, sufikse, korijene i dijelove jezike (glagol,imenica, prijdev) tj. informacije koje će
pridonijeti razumijevanju što određena riječ znači u određenom kontekstu. Primjerice
leksikološka analiza može prepoznati da promocija, promocije i promovirati imaju istu
ideju.

Sintatička analiza koristi gramatičke strukture da bi razdvojila tekst i stavila pojedinu riječ
u kontekst.

Semantička analiza određuje moguće značenje pojedine rečenice.
31
Rudarenje web-a
S obzirom da velika količina tekstualnih podataka dolazi s Interneta moramo definiraiti što je
rudarenje web-a i kako prikupljamo podatke s web-a. Rudarenje mreže (web mining) je proces
otkrivanja intrizinčnih veza (korisnih informacija) s Interneta, koji su predstavljeni u obliku
teksta, poveznica ili u nekom od drugih oblika. [12] Rudarenje sadržaja s web-a je ekstrahiranje
korisnih informacija s web stranica. Dokumenti mogu biti estrahirani u nekom obliku koje
računalo može prepoznati te se najčešće koriste Web crawleri se za automatsko čitanje web
sadržaja.
Slika 15. Tri glavna područja rudarenja web-a
32
Primjeri korištenja rudarenja teksta (teksutalne analitike) nad Big
Data
Kreiranje upotrebljivog Customer Intelligence sustava od podataka s
društvenih medija.
U današnjem svijetu društvenih medija i širokih vrsta kanala društvenih medija koji su dostupni,
nalazi se velika količina podataka. Izazov dolazi kod pristupanju tim podacima, transformiranju
tih podataka u nešto korisno. Generalno, organizacije žele koristiti podatke s društvenih medija
kako bi razumijeli potrebe i ponašanja njihovih kupaca ili specifične ciljane grupe individualaca
koji imaju poveznice s postojećim ili budućim proizvodima ili uslugama organizacije. Postoje tri
različita pristupa pri gledanju društvenih medija- alati za izvještavanje kanala, score-card sustavi
i tehnike za prediktivnu analitiku,primarno rudarenje teksta. U ovoj studiji slučaja kao primjer
imamo europsku telekomunikacijsku kompaniju koja koristi rudarenje teksta i rudarenje mreža
(network mining) i koja je investirala veliku količinu novaca u društvene medije kako bi
omogućila svojoj širokoj zjednici da dijeli i komentira naprimjer UEFA-ino Svjetsko Prvenstvo na
Facebooku. [15] Također za njih je bilo nemoguće da otkriju semantiku unutar tih
nestrukturirani podataka, zbog toga što riječnik koji se koristi na društvenim medijima im nije
omogućavao dodavanje ili izmjene. Stoga su ekstrahirali podatke s društvenih medija u njihov
privatni oblak kako bi napravili analizu tih podataka i kao alat su koristili open source rješenje
za rudarenje podataka KNIME. Nisu samo korištene tehnike rudarenja teksta i analiza mreža,
nego i metode klasteriranja nakon pretvaranja iz sirovih podataka u normalni oblik za analizu.
Cilj je bio identificirati negativne i pozitivne korisnike te utvrditi je li anonimni korisnici uglavnom
imaju pozitivna ili negativna mišljenja ili osjećaje. Nakon što su primjenili rudarenje teksta nad
nestrukturiranim podacima, dobili su riječi koje su najčešće korištene te je li riječi izražavaju
pozitivno ili negativno mišljenje.
33
Slika 16. Word cloud oblik tekstualnih podataka
Slika 10 nam govori da je riječ government što znači vlada najspominjanija riječ u komentarima
i označena je sivim slovima što znači da ta riječ ima neutralnu semantičku vrijednost. Primjerice
riječi gold, rights ili free imaju pozitivnu semantičku vrijednost.
Semantička analiza u evaluaciji proizvoda
Kada kupujemo proizvod po prvi put uglavnom moramo izabrati proizvod između više njih sa
sličnim karakteristikama. Tvrtke uglavnom koriste pozitivne karakteristike svojih proizvoda u
promociji kako bi izbjegli one loše. Najbolji način kako izabrati proizvod se uglavnom svodi na
različita mišljenja od ostalih korisnika. Sustav koji ovdje koristimo kao studiju slučaja je sustav
mišljenja o hotela koji s web-a prikuplja podatka, evaluira ih, agregira evaluacje i nudi
kumulativnu informaciju koja je jednostavna za koristenje. Geneirirana informacija može biti
iskorištena za potencijalne korisnike, ali i za voditelje hotela pružajući im dodatne informacije
za daljni razvoj poslovanja. Nezavisne ocjene korisnike su poznate kao najvjerodostojniji izvor
informacija o proizvodu ili usluzi kada novi korisnici kupuju proizvod ili uslugu. Prema Trip
Advisoru, 80 % korisnika piše komentare o putovanjima, a 20% koristi te komentare kada
34
planiraju putovanje. Ovaj sustav je dio FAIR projekta koji razvijaju tvrtka Testnrust from Frane,
Beia iz Rumunjske i Poslovna inteligencija iz Hrvatske. [16]
Projekt se bavi prikupljanjem ocjena korisnika hotela, pohranjivanjem tih podataka i analiziranje
njihove semantike i agregiranja analize rezultata u jednu smislenu cjelinu.
Slika 17. Proces prikupljanja, obrade i analize podataka
Kao što vidimo iz slika proces počinje tako što s web stranica koje su vezane uz putovanja
(tripadvisor.com,hotels.com.laterooms.com) skidamo podatke o ocjenama korisnika o
pojedinom hotelu putem web crawlera. S obzirom na količinu podataka koje želimo preuzeti,
skidanje podataka se izvodi u višestrukim simultanim procesima i za taj proces skidanja se koristi
open source projekt Apache Nutch. Nakon što su podaci skinuti u HTML obliku provodimo
rudarenje teksta i detektiranje jezika putem analitičkog alata Apache Tika koji koristi N-gram
tehniku. Duplikati komentara se odbacuju, a ostatak se pohranjuje u HBase koja je inačica
distribuirane NoSQL baze podataka. Rudarenje teksta i semantička analiza se zatim provodi nad
tim podacima koristeći open source alat KNIME. Nakon su dobili rezultate, grafički su ih
prikazali. Na slici vidimo prosječne ocjene za hotel Al Duca di Venezia za određene
karakteristike.
35
Slika 18. Prosječne ocjene za hotel Al Duca di Venezia
Zaključak
Primjena Big data se primjenjuje sve više u svim područjima poslovanjima i kao takva pruža
konkurentsku prednost. Ignoriranje Big data će staviti poduzeće u poziciju rizika i mogućnosti
zaostajanja za konkurencijom. Kako bi ostala kokurentna, poduzeća će u svom poslovanju
morati prikupljati sve više podataka iz novih izvora kako bi dobili što bolji uvid u poslovanje. Big
data kao pojam je još neistražen i bit će potrebno uložiti još više napora u njegovo istraživanje.
Primjena Big data u rudarenju teksta će sve više razvijati u budućnosti, posebice zbog sve veće
pojave open source platformi koje omogućavaju analizu teksta nad velikim količinama
podataka. Zapravo možemo reći da Big Data nije pojam koji je nov u području informacijske
tehnologije, nego logičan nastavak razvoja tehnologije posebice razvoja pararelnog obrađivanja
podataka, distribuirane obrade podataka te tehnologije u oblaku. Također moramo biti oprezni
pri korištenju Big Data kao tehnologije koja će riješiti sve poslovne probleme te se mora smatrati
kao dodatak postojećoj IT infrastruktrui poslovanja.
36
Reference
1. Paul Zikopoulos et al. (2013) : Harness the Power of Big Data, The IBM Big Data Platform,
McGrawHill
2. Harlan Harris et al. (2013) : Analyzing the Analyzers, An Introspective Survey of Data
Scientists and Their Work, O'Reilly
3. Chris Eaton et al. (2013) : Understanding Big Data, Analytics for Enterprise Class Hadoop
and Streaming Data, McGrawHill
4. Demystifying Big Data, A practical guide to transforming the business of government,
TechAmerica Foundation, Washington
5. Analytics: Real-world use of big data in telecommunications (2013), IBM Institute for
Business Value i Saïd Business School at the University of Oxford
6. McKnight, W. (01.01.2005.), "Text Data Mining in Business Intelligence.", Information
Management Magazine.
7. Torgo. L, Data Mining with R: learning by case studies, University of Porto
8. Turban E. et.al, Business Intelligence: A managerial approach
9. Weng, S. S., and C. K. Liu. (2004) "Using Text Classification and Multiple Concepts to
Answer E-mails." Expert Systems with Applications.
10. Coussement, K., and D. Van Den Poe!. (2009). "Improving Customer Attrition Prediction
by Integrating Emotions from Client/Company Interaction Emails and Evaluating
Multiple Classifiers." Expert Systems witb Applications.
11. Han J, Kamber M., Pei. J : Data mining concepts i tehniques, Third Edition.
12. Feldman, R., and]. Sanger. (2007). Text Mining Handbook: Advanced Approaches in
Analyzing Unstructured Data.
13. Hurwitz J. Et.al, Big Data for Dummies
14. Etzioni, 0. "The World Wide Web: Quagmire or Gold Mine?" Communications of the
ACM, Vol. 39,
15. Thiel. K et.al, Creating Usable Customer Intelligence from Social Media Data: Network
Analytics meets Text Mining
16. Banić L., Mihanović A., Brakus M., Sentiment Analysis in Product Evaluation
17. O'Reilly Strata, Big Data Now, 2012 Edition.
37
18. Nemati, H. R., and C. D. Barko. (2001). "Issues in Organizational Data Mining: A Survey
of Current Practices." Journal of Data Warehousing
19. Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth. 0996). "From Knowledge Discovery in
Databases." Al Magazine
20. Sathi. A., Big Data Analytics: Disruptive Technologies for Changing the Game
21. Franks B., Taming the Big Data tidal wawe: Finding Opportunities in Huge Data Streams
with Advanced Analytics.
22. Jonathan R. Owens, et al. (2013), Hadoop Real-World Solutions Cookbook, Packt
Publishing Ltd.
23. Perera S., et al. (2013), Hadoop MapReduce Cookbook, Packt Publishing Ltd.
24. Tom White (2012), Hadoop: The Definitive Guide, O'Reilly
25. Eric Sammer (2012), Hadoop Operations, O'Reilly
Popis slika
Slika 1. Prikaz pet vještina znanstvenika podataka
Slika 2. Prikaz dostupnih podataka i onih koje tvrtka može obraditi
Slika 3. Shema korporacijskog modela velikih podataka
Slika 4. Tijek velikih podataka
Slika 7. Prepreke u Big Data
Slika 6. Tradicionalni način otkrivanja prievare
Slika 7. Moderni način otkrivanja prijevare
Slika 8. Nesigurnost podataka
Slika 9. Big Data pogled na potrošača.
Slika 10. Proces rudarenja podataka
Slika 11. Rudarenje podataka kao presjek više znanstvenih disciplina.
38
Slika 12. Dijagram proces rudarenja teksta
Slika 13. Tri koraka procesa rudarenja teksta
Slika 14. Primjer jednostavne matrice pojmova dokumenta
Slika 15. Big Data pogled na potrošača.
Slika 16. Tri glavna područja rudarenja web-a
Slika 17. Word cloud oblik tekstualnih podataka
Slika 18. Proces prikupljanja, obrade i analize podataka
Slika 19. Prosječne ocjene za hotel Al Duca di Venezia
Tablice
Tablica 1. Usporedba relacijskih baza podataka i MapReduce
Tablica 2. Tip i opis analitike za otkrivanje znanja
39