Sveučilište u Splitu Ekonomski fakultet Primjena Big Data podataka i rudarenja teksta u suvremenom poslovanju Istraživački rad Mentor: dr.sc. Maja Ćukušić Studenti: Hrvoje Gabelica 2120704 Živko Krstić, 2120542 Split, 01.09.2013 Sadržaj Sažetak..................................................................................................................................................... 2 Uvod u Big Data i 4V ................................................................................................................................ 2 Uvod .................................................................................................................................................... 3 Volume................................................................................................................................................. 3 Variety ................................................................................................................................................. 4 Velocity ................................................................................................................................................ 4 Veracity ................................................................................................................................................ 5 Podaci ...................................................................................................................................................... 5 Skladišta podataka i veliki podaci ............................................................................................................. 6 Hadoop okruženje.................................................................................................................................... 7 HDFS i MapReduce .............................................................................................................................. 7 Projekti povezani s Hadoopom ............................................................................................................ 9 Pig .................................................................................................................................................... 9 Hive .................................................................................................................................................. 9 ZooKeeper...................................................................................................................................... 10 Hbase ............................................................................................................................................. 10 Oozie .............................................................................................................................................. 10 Lucene ........................................................................................................................................... 10 Avro ............................................................................................................................................... 10 Korporacijski model velikih podataka .................................................................................................... 11 Big Data i računarstvo u oblaku ............................................................................................................. 12 Prepreke u Big Data analitici .................................................................................................................. 13 Big Data i studije slučaja ........................................................................................................................ 14 Informacijske tehnologije (IT)............................................................................................................ 14 Otkrivanja prijevare ........................................................................................................................... 14 Društvene mreže ............................................................................................................................... 16 Energetski sektor i Big Data ............................................................................................................... 16 Upravljanje podacima............................................................................................................................ 17 Konkurentsko natjecanje u informacijama i analitici ............................................................................ 18 Big Data analitika u suvremenom poslovanju ....................................................................................... 20 Napredna analitika ................................................................................................................................ 22 Rudarenje podataka (data mining) u suvremenom poslovanju ............................................................ 23 1 Rudarenje teskta u suvremenom poslovanju......................................................................................... 25 Proces rudarenja teskta..................................................................................................................... 27 Rudarenje web-a ............................................................................................................................... 32 Primjeri korištenja rudarenja teksta (teksutalne analitike) nad Big Data ............................................. 33 Kreiranje upotrebljivog Customer Intelligence sustava od podataka s društvenih medija. ............. 33 Semantička analiza u evaluaciji proizvoda ........................................................................................ 34 Zaključak ................................................................................................................................................ 36 Reference .............................................................................................................................................. 37 Popis slika .............................................................................................................................................. 38 Tablice ................................................................................................................................................... 39 Sažetak Big data postaje jedan od najvažnijih tehnoloških trendova koji ima potencijal za dramatičnu promjenu u načinu u kojoj organizacija koristi informacije kako bi poboljšali iskustvo potrošača i transformirali vlastiti poslovni model. Big data kao pojam je nov u tehnološkom svijetu stoga zahtjeva istraživanje u tehnološkom i poslovnom smislu. Upravljanje i analiza velike količine podataka pruža najveće i koristi i najveće izazove za sve organizacije bez obzira na veličinu i industriju. Cilj našeg istraživanja je otkriti što stoji iza pojma Big data i kako možemo primjeniti rudarenje teksta i semantičku analizu nad velikim količinama podataka. Uvod u Big Data i 4V Cijeli ovaj naš rad se bavi pojmom Big data ili velikim podacima te ćemo na početku našeg rada objasniti sam pojam kako bi mogli dalje prikazati sve njegove implikacije. Sam pojam nas može zavarati na samom početku te navesti da su ostali podaci mali ili da su određeni podaci veliki, kad govorimo o količini. To može biti točno, ali i ne mora. S toga se sam pojam objašnjava pomoću 4 V-a : Volume, Variety, Velocity i Veracity . Broj V opet ovisi od autora do autora te ih može biti i više no mi smo se odlužili za podjelu autora paul C. Zikopoulos et al. koja je spomenuta u njihovom djelu „Harness the power of Big Data“ [1]. No, prije 4V objasnit ćemo zašto su nam veliki podaci uopće potrebni. 2 Uvod Kad govorimo o Big Data ili velikim podacima nužno je na početku istaknuti nekoliko točaka koji ga opisuju : Big Data rješenja su idealna za analizu ne samo strukturiranih podataka, koje smo navikli analizirati, već i nestrukturiranih i polustrukturiranih podataka koji često dolaze iz različitih izvora. Više o ovome u dijelu gdje govorimo o jednom od V i to Variety. Smatra se da su veliki podaci idealni kada je potrebno analizirati sve podatke ili gotovo sve u zamjenu za uzimanje uzorka. Uzorak u tom slučaju nije ni blizu efikasan. Veliki podaci su idealni za iterativne i eksplorativne analize. Omogućava nam sinergiju s tradicionalnim načinima analize (skladišta podataka...) te upotpunjuje sliku i dovodi do smanjenja troškova. Više o ovome u narednim dijelovima rada. Pomaže nam u trenutcima kad nam tradicionalne relacijske baze podataka ne mogu pomoći.. Volume Volume je definitivno prvi kojeg ćemo obraditi, jer je i najočitiji. Sam pojam veličine se mijenja iz godine u godinu, pa smo tako ove godine već prešli na riječi zettabajti. Osim rasta u veličini, dolazi i do pada cijene same memorije tj. diskova. Autori spominju i konkretne podatke kretanja veličina pa tako: 2009. godine smo imali 0.8 ZB podataka u svijetu, 2010. godine brojka je prešla 1 ZB, a u 2011. godini govorimo o 1.8 ZB. Također, očekuje se rast ovih brojeva i do 35 ZB do 2017. godine. Ovim podacima stječemo dojam da se radi o uistinu ogromnim količinama podataka, koje će netko trebati analizirati. Sve ovo ne znači da se znanstvenici ili analitičari bave s cjelokupnom tom količinom podataka, već ukazuje na mogući problem prilikom analize tih podataka, gdje nam upravo tehnologija Big data može pomoći. Ono što nam trenutni podaci govore je činjenica da se većina tzv. data scientista ne bavi s velikim podacima, ali očekujemo da će se te brojke promijeniti u budućnosti. Na slici ispod se nalazi prikaz 5 vještina koji su bitni za jednog znanstvenika podataka i na njima možmo vidjeti da se oni veoma rijetko bave količinama koje se mjere u PB, pa čak i u TB. [2] 3 Slika 1. Prikaz pet vještina znanstvenika podataka Variety Ovdje se ukazuje na raznolikost podataka koji se analiziraju. Tako imamo strukturirane podatke koji se nalaze u bazama podataka itd. i polustrukturirane te nestrukturirane podatke koji čine većinu. Ovo ne upućuje na to da nestrukturirani podaci nemaju strukturu već da njihove subkomponente nemaju strukturu (komentari, slike ...). Bitno je usredotočiti se na sve podatke te ih kombinirati kako bi povećali njihovu vrijednost. Primjer bi bile telekomunikacije tvrtke koje u svojim pozivnim centrima svakodnevno zaprimaju pozive koji predstavljaju nestrukturirane podatke koji se mogu kombinirati s strukturiranim podacima (povijest transakcija, ...) i tako dobijemo veoma personalizirani model našeg kupca pomoću kombinacije strukturiranih i nestrukturiranih podataka. Velocity Ovdje govorimo o brzini. Dakle, radi se o brzini pristizanja podataka u poduzeće i njihovou obradu i razumijevanje. Najbitniji dio je upravo trenutak kad su podaci pristigli, te zatim slijedi put do poduzimanja određenih radnji na temelju tih podataka. Što je taj put kraći to imamo veću moć. Upravo se ovo V smatra često zapostavljenim, a veoma je bitno za cjelokupni uspjeh. Cilj je što više skratiti taj put analizirajući tzv. data at rest tj. podatke u mirovanju u kombinaciji s podacima u pokretu (data in motion). Ovaj pristup mijenja dosadašnji pristup i čini analitiku prilagodljivijom, koja iz dana u dan postaje sve „inteligentnija“. 4 Veracity Većina autora ostaje na prethodna tri pojma, no mi smo uključili i ovaj, jer se odnosi na kvalitetu i relevantnost samih podataka. Na slici možemo vidjeti da je količina podataka koje poduzeće želi razumijeti zasićeno korisnim signalima i sa mnogo nečistoća (tim se podacima ne može vjerovati ili nisu korisni za poslovni problem koji želimo analizirati). Autori su iznijeli i činjenicu da trećina ljudi u poslovanju koji donose odluke ne vjeruju svojim informacijama. To nam govori da se ovome problemu treba malo više posvetiti. Slika 2. Prikaz dostupnih podataka i onih koje tvrtka može obraditi Podaci Vjerojatno ste nebrojeno puta pročitali da živimo u informacijskom dobu ili u dobu podataka. Mnogi smatraju da je većina tih podataka zatvorena i da se do njih ne može doći tj. da male tvrtke po pitanju velikih podataka nemaju šanse. Naravno, ovo nije istina. Dokaz ovome mogu biti i stranice poput Infochimps.org, theinfo.org ili Amazon Web Services gdje se podaci mogu preuzeti besplatno ili po određenoj cijeni. Prije su se pokušavali izvesti složeni algoritmi koji su trebali biti izuzetno dobri kako bi se došlo do rezultata, a danas se u tu svrhu koriste podaci koji mogu biti znatno bolji. Ogromne količine podataka mogu i obični algoritam pretvoriti i u izuzetno koristan algoritam, jer velika količina podataka ujedno znači i da se bolji „uči“. 5 Veliki podaci i tehnologija za njihovu analizu su definitivno tu, no bit je znati kako ih pohraniti i kako analizirati te podatke. Naglasak je na efikasnom iskorištavanju tehnologije koja se trenutno nudi, a koja prije nije bila dostupna. Kad se spominje pohrana nužno je uočiti razliku između tradicionalnih relacijskih baza podataka i MapReduce o kojima ćemo malo podrobnije u daljnjem nastavku teksta. U tablici vidimo da se veličina podataka u tradicionalnim RDBMS mjeri u gigabajtima, a u slučaju velikih podataka tj. MapReduce u petabajtima. U nastavku se ističe batch pristup, gdje se u tradicionalnih RDBMS još i dodaje interakcija. Također, kod tradicionalnih RDBMS se podaci i čitaju i pišu više puta, a kod velikih podataka pišu samo jednom, a čitaju više puta. Struktura kod tradicionalinh RDBMS je statična, a kod MapReduce je dinamična. Integritet u tradicionalnih RDBMS je visok, a kod velikih podataka malen. Skalabilnost kao zadnja nam pokazuje da se tradicionalni RDBMS koriste nelinearnom, a MapReduce linernom skalabilnošću. MapReduce koristi dvije funkcije Map i Reduce (više u nastavku teksta) te s toga ukoliko dođe do povećanja veličine klastera za 2 puta neće doći do usporavanja izvršenja funkcija, dok bi SQL upiti bili znatno sporiji. Tradicionalne RDBMS MapReduce Veličina podataka Gigabajt Petabajt Pristup Interaktivan i batch Batch Ažuriranje Čitanje i pisanje više puta Piše se samo jednom, a čita mnogo puta Struktura Statična Dinamična Integritet Visok Nizak Skalabilnost Nelinearna Linearna Tablica 1. Usporedba relacijskih baza podataka i MapReduce Skladišta podataka i veliki podaci Većina ljudi je smatrala da će se pojavom Big Data tehnologije dogoditi „smrt“ tradicionalnih skladišta podataka, ali takva razmišljanja su se dakako pokazala netočnima. Naime, tzv. NoSQL tehnologije doista imaju svoje čari i možda mogu upućivati na takav ishod, ali u nastavku teksta ćemo vidjeti zašto to nije tako. Naime, tradicionalna skladišta uzimaju dosta vremena i dosta truda koji se ulaže u čišćenje podataka, obogaćivanje, metapodatke, master data management 6 itd. To automatski podrazumijeva i veliku kvalitetu tih podataka. Radi se o skupom procesu čiji je ishod visoka vrijednost i široka primjena. S druge strane naši Big Data repozitoriji rijetko prolaze tako striktne faze predprocesiranja, jer su skupi te se rad na ovim repozitorijima uglavnom svodi na istraživanja i otkrivanje nego na vrijednost podataka. Ovo je ključna razlika između skladišta podataka (podizanje kvalitete podataka za izradu kvalitetnih izvještaja) i velikih podataka (pronalazak zanimljivih podataka relativno jeftinim procesom, koje dalje možemo ubaciti u skupa skladišta podataka). Dakle, tehnologija velikih podataka „kopa“ kroz ogromne količine prljavih podataka u potrazi za zlatom i kad ga pronađe ono se pročisti, strukturira i napuni u skladište podataka čime iskorištavamo njegovu punu vrijednost. Znači svaki dio radi određeni posao i oboje su ključni za uspješan završetak priče, ali nikako nisu isključivi. Hadoop okruženje Hadoop je veoma bitan dio kad govorimo o Big data i kad bi ga išli definirati trebali bi reći da se radi o Apache projektu visoke razine koji je napisan u Javi i smatra se računalnim okruženjem koji je napravljen na temeljima od tzv. Distributed clustered file system koji je dizajniran upravo u svrhu izvođenja operacija nad velikim podacima. Hadoop nam je omogućio ono što je do njega bilo nemoguće, a to je otkrivanje informacija pomoću skeniranja velikih podataka kroz visoku skalabilnost i distribuirani batch sustav za obradu. Hadoopov kreator je Doug Cutting koji mu je dao takvo ime po sinovoj igrački. Hadoop se promatra kroz dva dijela : HDFS i MapReduce [3]. Uz ta dva dijela bitno je spomenuti i ove projekte koji su povezani s Hadoopom : Apache Avro (služi za sterilizaciju podataka), Hbase i Cassandra (baze podataka), Hive (pruža ad hoc upite koji su slični SQL upitima), Chukwa (sustav za nadziranje koji je dizajniran posebno za velike distribuirane sustave), Mahout (library za strojno učenje), Pig (programski jezik visoke razine dizajniran za Hadoop, a služi za data flow i execution framework za paralelnu obradu), ZooKeeper (pruža koordinaciju za distribuirane aplikacije) i mnogi drugi. HDFS i MapReduce Hadoop Distributed File System (HDFS) pohranjuje podatke u tzv. blokove tj. dijeli ih u blokove i kopira te blokove te ih pohranjuje na druge servere u Hadoop klasteru. [22] Znači, individualni podatak je podijeljen u manje blokove koji se repliciraju na više servera unutar cijelog klastera. Zadana veličina svakog bloka u Apache Hadoopu je 64 MB, a za veće podatke se koriste blokovi veće veličine (BigInsights - 128 MB). Radi se o mnogo većoj veličini nego što koriste ostala 7 okruženja, ali to ima smisla s obzirom da se Hadoop koristi za analize veoma velikih podataka te mu je lakše raditi s većim blokovima. Inače, svaki blok se pohranjuje na tri servera i na minimalno dva racka servera kako bi se povećala pouzdanost i sigurnost. Cijela logika smještanja podataka se odvija zahvaljujući NameNode -u. Upravo je NameNode ogromna prednost u odnosu na prijašnja vremena, jer se on brine umjesto nas, gdje će se smjestiti podaci,. No, on obično predstavlja „single point of failure“ te je veoma bitno raditi backup metapodataka klastera kako bi spriječili gubitak odgovarajućih podataka. Sam proces rada Hadoopa se odvija tako da Hadoop kontaktira NameNode, on pronalazi gdje su pohranjeni odgovarajući podaci koje tražimo i šalje ih aplikaciji koja ih pokreće lokalno na tim nodovima. Stvarni podaci koji se analiziraju MapReduceom ne prolaze kroz NameNode, već se on koristi samo za upravljanje metapodacima koji opisuju gdje se podaci nalaze. Kao još bolje rješenje se nudi GPFS – General Parallel File System. MapReduce kojeg smo ranije spominjali je samo središte Hadoopa i riječ je o programskoj paradigmi koja nam omogućava ogromnu skalabilnost kroz stotine pa i tisuće servera unutar Hadoop klastera. [23] MapReduce se kao što iz riječi možemo pretpostaviti sastoji od 2 odvojena pojma : Map – uzima određeni set podataka i konvertira ih u drugi set podataka, gdje se individualni podaci rascjepkaju na tuples (key/value parove); Reduce – uzima output od mapa kao input i kombinira te tuples u manji set tuples. Ovako možda izgleda zbunjujuće, no na primjeru bi trebalo biti jednostavnije. Zamislimo da imamo podatke o temparaturama po državama koji su raspoređeni, dakle u 2 stupca i gdje je država key, a temeperatura value. Map traži za svaku državu posebno, sve temperature koje su registrirane te ih se zatim ubacuje u Reduce koji izbaciva od svih tih vrijednosti samo onu maksimalnu (koja nas zanima) tj. daje samo jednu vrijednost po državi. Hipotetski primjer mapovih međurezultata : Hrvatska – 20 BIH – 21 Srbija – 17 Crna Gora – 38 Hrvatska – 29 BIH – 4 Hrvatska – 37 BIH – 15 Srbija – 37 Crna Gora – 18 Hrvatska – 39 BIH – 40 Srbija – 2 Srbija – 20 Crna Gora – 1 Crna Gora – 16 Hipotetski primjer Reduca na temelju outputa Mapa : Hrvatska – 39 BIH – 40 Srbija – 37 Crna Gora – 38 8 U Hadoop klasteru MapReduce se odnosi na job (posao) koji se dijeli na manje dijelove ili zadatke (tasks). [25] Aplikacija prihvaća posao te ga dodjeljuje određenom Hadoop klasteru koji pokreće JobTracker. On komunicira s NameNode kako bi saznao gdje se sve podaci koji nam trebaju nalaze unutar klastera te se posao (job) dijeli na manje dijelove tj. taskove ili kako smo ranije spomenuli map task i reduce task za svaki node. Također, bitan je i TaskTracker kojem je posao pratiti status svakog taska ili zadatka. Ako zadatak ne uspije njegov status se šalje JobTrackeru, koji će isti taj zadatak ponovno dodijeliti novom nodu unutar klastera. Projekti povezani s Hadoopom Pig Ime je dobio po životinji koja je poznata po tome što može pojesti gotovo sve (svinja) te se učinilo zgodnim tako nazvati ovaj programski jezik, jer može upravljati s bilo kojom vrstom podataka. [24] Pig se sastoji od dva pojma : PigLatin – jezik i drugog dijela koji pruža okruženje prvome da se izvrši. Cilj Piga je pojednostavniti MapReduce programe. Koraci kako mu to polazi za rukom su LOAD, TRANSFORM, DUMP i STORE. Kako bi Pig mogao raditi program mu mora reći koje podatke da koristi, a to se radi preko naredbe LOAD `data_file`, zatim kreće manipulacija pomoću TRANSFORM, gdje je moguće filtrirati, grupirati, spajati podatke itd. , zatim na kraju dolaze DUMP i STORE čija upotreba ovisi da li želimo prikazati rezultate na ekranu (DUMP) ili pohraniti podatke za daljnu analizu (STORE). Nakon ovoga potrebno je pokrenuti Pig unutar Hadoop okruženja i to pomoću tri načina : ugrađivanjem u skriptu, ugrađivanjem u Java program ili preko Pig command line zvanog Grunt. Koji god odabrali, na kraju dolazi do izvršavanja map i reduce zadataka čime se ispunjava cilj Piga, a to je pojednostavljivanje cijelog procesa. Hive Pig nam uvelike pomaže da pojednostavimo cijeli proces, kao što smo vidjeli u prethodnom dijelu, ali i dalje je nešto što se mora naučiti i savladati. Kako bi olakšali cijeli proces još više, stvoren je Hive. On pomaže ljudima koji su do sada radili na SQL-u, da uz slično okruženje bolje iskoriste Hadoop okruženje. SQL developeri pri radu s njim koriste tzv. HQL – Hive Query language koji ima određena ograničenja, ali je i dalje veoma koristan. Njegove naredbe se dijele na MapReduce poslove i izvršavaju se kroz Hadoop klaster. Hive se bazira na Hadoop i MapReduce operacijama, ali postoje neke razlike. Zbog toga što je Hadoop napravljen za 9 sekvencijalno skeniranje, očekuju se upiti kojima treba dugo da se izvrše. Ukoliko nam treba veoma brz response time onda ovo predstavlja problem. Drugo, Hive je read-based što obično uključuje veliki udio pisanih operacija. ZooKeeper Radi se o open source Apache projektu koji osigurava centraliziranu infrastrukturu i uslugu koja osigurava sinkronizaciju kroz klaster. Ukoliko imamo i manju količinu servera nužna je centralizacija kad govorimo o upravljanju, a pogotovo kad se radi o velikom broju servera. ZooKeeper server čuva kopije stanja cijelog sustava i svaki klijent komunicira jednog ZooKeeper servera (može ih biti više), kako bi vratio ili nadogradio informaciju o sinkronizaciji. Hbase Hbase je upravljački sustav baza podataka koji su stupčano orijentirane i pokreće se nad HDFSom. Veoma je koristan za parsirane podatke, koji su veoma česti u Big Data slučajevima. Bitno je naglasiti da Hbase ne podržava SQL i nije relacijska baza podataka. Njegove aplikacije su napisane u Javi. Sami sustav je veoma sličan tradicionalnim bazama podataka, a glavna razlika su column famlies koji omogućava pohranjivanje elemenata column familya zajedno. Kod tradicionalnih sustava se stupci određenog retka pohranjuju zajedno. Sama shema Hbase je veoma fleksibilna i veoma je lako promijeniti column families. Hbase slično HDFS-ovom NameNode i MapReduce-ovom JobTrackeru i TaskTrackeru, ima master node (upravlja klasterom) i region server (pohranjuje dijelove tablica i vrši operacije nad podacima). Oozie Oozie je open source projekt koji pojednostavljuje workflow i koordinaciju između jobs (poslova). Omogućuje definiranje akcija i ovisnosti između akcija. Oozie zatim radi raspored akcija koje treba izvršiti kad se zahtjevana ovisnost između akcija poklopi tj. zadovolji. Lucene Ovo je veoma popularan open source Apache projekt za tekstualno pretraživanje i uključen je u mnoge open source projekte. Omogućava potpuno tekstualno indeksiranje i pretragu knjižnica (library) unutar Java aplikacija. Avro Avro je Apache projekt koji omogućava sterilizaciju podataka. Kad se zapisuju Avro podaci schema koja definira podatke se uvijek zapisuje uz dokument čime se omogućava jednostavno čitanje podataka kad nam kasnije zatreba. 10 Korporacijski model velikih podataka U ovom dijelu rada ćemo predstaviti model koji ističe ekosustav tehnologija koje se mogu koristiti za potporu Big Data rješenja. Slika 3. Shema korporacijskog modela velikih podataka Big Data infrastruktura se shvaća kao ključni predkorak ukoliko se želimo upustiti u Big Data projekt čiji je ishod uspjeh. Potrebna nam je infrastruktura koja će iskoristiti podatke koji dolaze iz raznih aplikacija i izvora. Ova arhitektura tj. model je napravljen za svrhu knjige „Big Data in government“ [4], dakle stavljena je u kontekst vladinih agencija, ali se može primijeniti na ostale. Središnje i temeljne tehnologije se smatraju : Analitika u realnom vremenu, MapReduce i Skladišta podataka. MapReduce i skladišta podataka su već obrađena u prethodnim dijelovima, a analitika u realnom vremenu zahtjeva nešto šire objašnjenje. Radi se o analizi ogromnih količina podataka u realnom vremenu odgovora koje se mjeri u milisekundama. Podaci naravno mogu dolaziti iz različitih izvora : senzori, društvene mreže, video itd. Idealno je za analitiku u realnom vremenu pri velikom utjecaju jednog od V na podatke, a to je velocity. Ovdje su 11 uključeni paralelno procesuiranje, velike I/O mogućnosti i algoritmi bazirani na pravilima. Obično ne zahtjeva velike količine prostora za pohranu. Big Data akceleratori su softverske aplikacije, konektori, sučelja koji omogućavaju mogućnosti dodane vrijednosti, kao što su implementiranje analitike i prihvaćanje sposobnosti za integracijom. Akceleratori mogu smanjiti vrijeme koje nam je potrebno za razvoj i ubrzati vrijeme shvaćanja vrijednosti od Big Data ulaganja. Akceleratori uključuju : alate za tekstualno ekstraktiranje ili NLP proizvode (Natural Language Processing), financijske alate, geospacijalnu potporu, integraciju, video rudarenje itd. Big Data i računarstvo u oblaku Oblak nam pruža bržu implementaciju, efektivniju upotrebu IT resursa i veću i bržu mogućnost inovacije. Inovacija je omogućena kroz virtualno okruženje i omogućava organizaciji brži uspjeh. Prvi korak u bilo kojoj integraciji informacija ili transformacijskoj inicijativi nužno je shvatiti odakle naši podaci dolaze, u kojoj količini, kojom brzinom, kakva im je struktura, kvaliteta tj. protežemo ih kroz naša početna 4V. Ovo nam pomaže prilikom određivanja težine upravljanja i analize podataka. Nakon što smo prošli taj prvi korak kreće se u pripremu podataka za analizu. Provodi se čišćenje i verifikacija. Zatim ide transformacija podataka bilo da govorimo o pretvorbi nestrukturiranih podataka u strukturirane ili podjeli na manje dijelove. Cilj je pouzdana informacija koja je točna, kompletna i korisna. Zatim korištenjem alata provode se jednostavne analize ili nešto zahtjevnije poput prediktivne analitike, sentimentalne analize itd. Završni korak uključuje korištenje dobivenih informacija iz prethodnog koraka za izradu vizualizacije ili kolaboracijski alata ili možda napredak postojećih procesa. 12 Slika 4. Tijek velikih podataka Prepreke u Big Data analitici Kao što se može vidjeti iz slike lanac se sastoji od 4E (educate, explore, engage, execute). Znači imamo izgradnju baze znanja pomoću istraživanja i uključivanja s završnim činom implementacije Big Data. Vidimo kako se određene prepreku protežu kroz ove faze. Artikulacija poslovnog slučaja se proteže kroz sve, kvaliteta se pojavljuje u završnim podacima, razumijevanje iskoristivosti Big Data se pojavljuje na početku i na kraju, upravljanje i potpora u prve dvije faze, analitičke vještine u svim osim u prvoj, a tehničke u svim fazama. Vještine su danas posebno problem, jer tržište rada ne nudi dovoljno obrazovanog kadra kad govorimo o posjedovanju vještina vizualizacije, implementacije, napredne analize itd.[5] Slika 5. Prepreke u Big Data 13 Big Data i studije slučaja Najbolji način da se netko upozna s Big Data su naravno studije slučaja. Stvarni primjeri i stvarni korisnici uz probleme i načine rješavanja istih najbolje dočaraju što je to Big Data i što može. Informacijske tehnologije (IT) U mnogim primjerima smo našli korištenje tzv. Log analitike. Mnoga poduzeća generiraju dosta log podataka, no na to gledaju kao na nešto što im je beskorisno kad je u pitanju neka naprednija analiza. Podaci logova se čuvaju sa strane i jedva se čeka trenutak kad će ih se riješiti. Naravno, Big Data se može iskoristiti da se dokaže upravo suprotno. S obzirom na njihovu svrhu normalno je očekivati da će se ovdje raditi i o ogromnim količinama tih podataka, čija pohrana , ukoliko se ne koriste Big Data tehnologije, može predstavljati problem. Osim jednog od V – Volume, ovo može biti Big Data problem i zahvaljujući svojoj polustrukturiranoj naravi i nisu baš poželjni i prilagođeni u takvom obliku za tradicionalne baze podataka. Na temelju ovih podataka pomoću Big Data tehnologije moguće je steći znanje pomoću kojega se može bolje anticipirati i razumjeti svaka interakcija između grešaka, moguće je primijeniti primjere najbolje prakse na specifičan problem ili poboljšati infrastrukturu da se uklone problemi. Znači, radi se o preventivnom održavanju. Otkrivanja prijevare U bilo kojoj financijskoj transakciji može doći do iskorištavanja podataka za prevaru, može doći do zloupotrebe podataka itd. No, uz pomoć Big Data tehnologije može se identificirati taj problem ili još bolje ukloniti ga. Izazovi u ovom tipu otkrivanja uzoraka su do sada bili odrediti što modelirati, jer su resursi bili ograničeni i tehnologija mogla omogućiti pohranu velikih količina podataka koji bi se mogli analizirati. Uslijed manje količine podataka dolazi i do ograničenja modela . Obično bi trebalo dugo dok bi se otkrio neki problem koji se već dogodio i nažalost to bi obično već bilo kasno. U ovom slučaju bi se uzimali manji uzorci podataka koji bi se analizirati i došlo bi se do nekih zaključaka, ali sada su analitičari u mogućnosti analizirati sve podatke. Kako bi se ovo izvelo naravno potrebno je koristiti tehnologiju koja se koristi u Big Data analitici. Prema knjizi koju smo već spominjali IBM Understanding Big Data 20 % svih korisnih podataka koji nam pomažu u otkrivanju prevara, obično u financijskom sektoru, se koriste, dok 14 ostatak stoji neiskorišten. Kao što smo također u prijašnjem tekstu spominjali u ovom slučaju Big Data pronalazi visokovrijedne podatke i tek kad ih pronađemo ubacujemo ih u tradicionalna skladišta podataka kako bi iskoristili njihovu vrijednost. Ovo se koristi zbog činjenice što se radi o veoma skupom i dugotrajnom procesu koji ima smisla samo ukoliko znamo da će nam uvidi u te podatke donijeti nove spoznaje koje su korisne za poduzeće i njegov financijski rezultat. Na slikama ispod možemo primijetiti razliku između dva načina otkrivanja prevare. Na prvoj slici se radi o onih 20% korisnih podataka koji se koriste. Slika 6. tradicionalni način otkrivanja prevare Na slici ispod se može vidjeti moderni način otkrivanja prevare, gdje se količina s 20 % povećala za 50 %. Ukoliko se pitate zašto nije 100 %, razlog je činjenica što ćete rijetko kad susresti situaciju da su baš svi podaci korisni. Ovdje se radi o 50 % više nego u prethodnom primjeru te je 80 % nedostižno. 15 Slika 7. Moderni način otkrivanja prijevare Društvene mreže U današnje vrijeme veoma popularan način analize. Podaci se uzimaju obično s najpopularnijih mreža kao što su Facebook, Twitter ili LinkedIn. Osim njih analiziraju se i druge, ali ove su najzanimljivije za naše područje. Ovaj način analize je veoma zanimljiv, jer možemo vidjeti što naši obožavatelji, kupci, dobavljači govore ili što drugi govore o konkurenciji. Uz količinu podataka koja se dnevno generira na raznim društvenim mrežama možemo doći do uvida te ih uz pomoć ove semantičke analize iskoristiti za donošenje odluka ili angažiranje poduzeća. Također, može se pratiti utjecaj na prodaju, efektivnost i efikasnost marketinške kampanje ili prihvaćenost iste te kampanje, koliko smo dobro složili naš marketinški miks (proizvod, cijena, promocija i distribucija) itd. Postoje mnoga rješenja koja su specijalizirana baš za analize podataka s društvenih mreža. Bitno je naglasiti da pomoću analize možemo otkriti tko govori i što govori o proizvodu ili usluzi, ali ne možemo otkriti razlog njegovog govora. Ono što je zanimljivo kod ovog tipa analize je činjenica da svatko može izraziti svoje mišljenje u sekundi te da sve više i više osoba to i radi, a mi s druge strane to sve možemo analizirati te poboljšati naš proizvod, odnose s kupcima ili nešto treće. Energetski sektor i Big Data 16 U RH tvrtke koje su u javnom sektoru obično imaju ogromnu infrastrukturu, ali i nisku iskorištenost upravo te infrastrukture. Liberalizacijom tržišta električne energije upravo će iskorištavanja te infrastrukture biti ono što će donijeti prevagu. Energetski sektor općenito se mora nositi s velikim brojem geografski udaljenih senzora koji registriraju dosta podataka. Iskorištenost tih podataka je veoma mala upravo zbog ne posjedovanja pravih tehnologija za pohranu i i analizu tih količina podataka. Senzori s naftne platforme imaju i preko 20 000 senzora koji registriraju kvalitetu nafte, količinu itd. No, iskorištenost tih podataka je manja od 10 % ovisno koju tvrtku gledate. Kad bi se odlučili analizirati sve ove podatke naišli bi na ogromnu količinu nečistih podataka te bi ih trebalo odvojiti te pronaći one koji su vrijedni. Podaci koji se dobiju iz senzora mogu biti ključni za donošenje odluke kao što je : Gdje ćemo smjestiti elektranu (solarnu, vjetroelektranu)? Ti senzori registriraju upravo vremenske uvjete na svim lokacijama na kojima su smješteni te prilikom stavljanja novih elektrana možemo donijeti bolje odluke . Upravljanje podacima Big Data je fenomen, može se reći i marketinški fenomen. Mo, velikim podacima je nužno upravljati (governance). Governance ili upravljanje je skup pravila koji definiraju kako će netko upravljati podacima. Pravila mogu, ali i ne moraju definirati i kako će se podaci čistiti, osigurati itd. Ukoliko uzmemo u obzir da naši podaci imaju svoj životni vijek te da se od trenutka kad se uvedu može očekivati da će nakon određenog vremena i početi rjeđe koristiti. Naravno, nemaju svi podaci svoj kraj neki ostaju, ali neki imaju čak i zakonski rok koliko se moraju držati. Tako, Facebook čuva podatke svojih korisnika 20 godina, a određene financijske institucije i po nekoliko godina. Ukoliko nemamo pravilo kada podaci odlaze u svoju „mirovinu“ dolazi do akumulacije tih podataka te naš administrator obično odlučuje koje podatke će izbaciti ili izbrisati. Što ako se radi o osjetljivim podacima ? Organizacija za takve podatke mora odrediti sigurnosne politike za čuvanje tih informacija i te se politike i pravila moraju pratiti i nadograđivati sukladno promjenama. Što se čišćenja podataka tiče bitno je odrediti da li će se ti podaci čistiti jednako kao i tradicionalne baze podataka ili će se čistiti nekako drukčije. Sama odluka i donošenje pravila ovisi o tome što namjeravamo uraditi s tim podacima. Za svrhe CRM17 a se koriste visokovrijedni podaci i čišćenje treba biti usklađeno s njima, a za npr. Identifikaciju prevara koju smo ranije spominjali je bitnije da su podaci upravo onakvi kakvi su i uneseni kako bi se lakše otkrile prevare. Neke tvrtke se odluče za MDM ili master dana management, ali mnoge tvrtke se nisu odlučile za tzv. Single version of truth. MDM je veoma dobra početna točka svih Big Data projekata, jer pruža upravo single version of truth. Razlog zašto mnoge tvrtke nisu obraćale pažnju na ovo je činjenica što su Big Data tehnologije došle iz znanstvene zajednice. U svrhu istraživanja su se koristile male baze podataka i analizirale su se u pouzdanom okruženju te nisu bili potrebni MDM. Kad su se implementirale te tehnologije shvaćeno je da je upravljanje nužno. Sljedeći je problem što su tvrtke tek kasnije počele donositi pravila i politike te nisu odmah od početka pazili na to što je dovelo do nepotrebnih troškova. Konkurentsko natjecanje u informacijama i analitici Mnoge tvrtke pokušavaju pronaći vrijedne uvide kako bi ostvarili komparativnu prednost. On se zapravo natječu u analitici. No, osim analitike oni se natječu i u informacijama. Ako se natječu u informacijama onda im trebaju i one informacije kojima se može vjerovati. Iako bi htjeli da se svim podacima može vjerovati to nažalost ponekad nije moguće, jer uvijek postoji rizik da se radi o nesigurnim podacima. Taj rizik se treba uračunati u proces donošenja odluka. Krajnji cilj trebaju biti vjerodostojne informacije. Ovo je razlog upravo možda zbog činjenice što svako 3 menadžer tvrtke donosi odluke na temelju nesigurnih podataka. Svako drugi menadžer nema informaciju koja mu u tom trenutku treba, a 60 % ih ima više podataka nego što ih može koristiti (knjiga Harnest Big Data). 18 Slika 6. Nesigurnost podataka Smatra se da 6 faktora utječe na pouzdanost informacije : Informacija je shvaćena – porijeklo, vrijednost, kvaliteta informacije je shvaćena Informacija je točna – standardizirana, validna, verificirana, usklađena Informacija je holistička – nije fragmentirana, ne bi smjele biti različite verzije iste informacije Informacija je trenutna – samo zadnje i relevantne podatke se pohranjuje, a stare se arhivira ili briše. Podaci često veoma brzo gube vrijednost. Informacija je sigurna - nivo sigurnosti informacije je u skladu s pravilima koja su utvrđena u svrhu upravljanja podacima Informacija je dokumentirana – Njen izvor i sva pravila i transformacije koje su na njoj primijenjene su dokumentirane. Ovo se još zove i end-user transparency. 19 Big Data analitika u suvremenom poslovanju U prvom dijelu rada smo obradili teoriju Velikih podataka (Big Data), u drugom dijelu ćemo pozornost dati analizi Big Data putem različitih tehnika i alata kao što je rudarenje podataka ili rudarenje teksta koje danas možemo naći pod nazivom poslovna analitika (business analytics). Velike tvrtke kao što su Amazon i Google imaju primat u uporabi Big Data podataka i analizi istih, te su koristile ta znanja kako bi stekle konkurentsku prednost. Kao primjer analize Big Data možemo uzeti Amazonov sustav preprouke. Pri procesu kupovine Amazon prikuplja povijest naših prijašnjih kupovina i otkriva naše kupovne uzorke kako bi došla do najbolje individualne ponude i ovo je primjer uporabe marketinške Big Data analitike u realnom vremenu (real-time). [20] Mogućnost analiziranja velikih podataka pruža jedinstvenu priliku za tvrtke različitih veličina. Tehnologija kao što je Hadoop nam omogućuje analizu velikih količina podataka u realnom vremenu umjesto analize uzorka seta podataka. Porast u razini informacija i povezanih alata je stvorio novu vrstu sofisticiranih korisnika. Ti korisnici su mnogo više analitični, vještiji u korištenju statistike i povezanih putem različitih društvenih mreža kako bi prikupili raziličita mišljenja od ostalih korisnika/ljudi. Internetski svijet je postao visoko personalizirano mjesto. Postoji mnogo načina kako iskoristiti društvene mreže kako bi utjecali na potrošačeve odluke, a neke od njih su: [21] Analizirati potrošačevo iskustvo – Osamdeset posto podataka je nestrukturirano. Analiziranjem semantike teksta, možemo organizirati bazu naših potrošača te podijeliti ih prema pozitivnom i negativnom sentimentu. Organiziranje potrošačevog iskustva – Tvrtke potrošaču mogu pružiti komentare ostalih potrošača na proizvod, kako bi to utjecalo na daljnu korisnikovu odluku. „Feedback“ za proizvod i marketing – Koristeći informacije generirane od strane društvenih medija, tvrtke mogu brzo mijenjati proizvodni miks i marketing kako bi poboljšali ponudu potrošačima. 20 Slika 9. Big Data pogled na potrošača. Prije nego što tvrtka počne s korištenjem Big Data analitike mora znati koji problem mora riješiti. Primjerice poslovni problem može biti predviđanje odustajanje korisnika u telekomunikacijama i predviđanje najbolje ponuda za određenu grupu kupaca. U analitici velikih podataka postoje četiri glavna tipa analize. Tipovi analize i opis su prikazani u donjoj tablici. Tip analize Opis analize „Slice and dice“ podataka, izvještavanje, jednostvana Osnovna analitika za otkrivanje znanja vizualizacija, jednostavno praćenje Mnogo kompleksnije analize kao što je prediktivno Napredna analitika za otkrivanje znanja modeliranje i tehnike otkrivanja uzoraka Operacionalizirana analitika Analitika postaje dio poslovnih procesa Monetizirana analitika Analitika se iskorištava za direktno povećanje prihoda. Tablica 2. Tip i opis analitike za otkrivanje znanja 21 Napredna analitika Napredna analitika je praksa ekstrahiranja informacija iz postojećih podataka kako bi utvrdili uzorke, te kako bi predvidjeli buduće ishode i trendove, te se tipično koriste za predviđanje vjerojatnih događaja u budućnosti s određenom razinom pouzdanosti. Napredna analitika pruža algoritame za kompleksne analize strukturiranih ili nestrukturiranih odataka. Napredna analitika koristi sofisticirane statističke modele, strojno učenje, neuornske mreže, rudarenje teksta ili teksutalnu analitiku i ostale napredne tehnike rudarenja podataka. Iako se napredna analitika koristila od strane matematičara i statističara prije nekolikiko desetljeća, nije se provodila na velikoj količini podataka kao što je danas. Danas, napredna analitika sve više postaje dio suvremenog poslovanja, te je možemo nazvati „mainstream“ tehnologijom. S porastom snage računala, poboljšanom infrastrukturom podatak, razvojem novih algoritama i načina za bolji pogled u veliku količinu podataka, tvrtke sve više koriste naprednu analitiku za donošenje poslovnih odluka. Neka od područka poslovna analitike su : [17] Prediktivno modeliranje : Prediktivno modeliranje je jedno od najpopularnijih korištenja napredne analitike veliki podataka. Prediktivni model je statističko ili rješenje rudarenja podataka koje se sastoji od algoritama i tehnika koji se mogu koristiti nad strukturiranim ili nestrukuturiranim podacima kako bi predvidjeli buduće ishode. Tekstualna analitika: Nestrukturirani podaci su veliki dio velikih podataka. Tekstualna analitika je proces analiziranja nestrukturiranog teksta, ekstrahiranje relevantnih informacija i transformacija u strukturiranu informaciju koja se može iskoristiti pri donošenju poslovnih odluka. 22 Rudarenje podataka (data mining) u suvremenom poslovanju Različiti znanstveni članci govore da poslovanja danas žive u informacijskom dobu, međutim možemo reći da poslovanja danas posluju u dobu podataka. Terabajti ili petabajti podataka se dnevno kreiraju na World Wide Web-u (WWW) ili u redovnom poslovanju. Eksplozivni rast dostupne količine podataka je rezultat kompjuterizacije društva i brzog razvoja alata prikupljanja i pohranjivanja podataka. Poslovanja u cijelom svijetu generiraju velike količine podataka koje uklučuju poslovne transakcije, opise proizvoda, promocije prodaje i podatke o potrošačima. U zadnje vrijeme smo svijesni sve veće količine podataka koje dolaze iz različitih izvora kao što su društvene mreže, blogovi,RFID čipovi i različiti senzori. Rudarenje podataka se može promatrati kao rezultati prirodne evolucije informacijske tehnogije. Baze podataka i upravljanje podacima su evoluirale u pogledu različitih funkcionalnosti kao što su: prikupljanje podataka i kreiranje bazi podataka, upravljanje podataka (uključuje pohranu i preuzimanje podataka) i naprednu analizu podataka koje uključuje skladištenje podataka i rudarenje podataka. U intervju za časopis Computerworld 1999. godine, Dr. Arno Penzias je identificirao rudarenje podataka organizacijskih baza podataka kao glavnu prednost poduzeća u bliskoj budučnosti. Također Thomas Davenport je 2006 .godine u Harvard Business Review-u napisao da je posljednje strateško „oružje“ za tvrtke analitičko poslovno odlučivanje, dajući ga primjer Amazon.com i ostale tvrtke koje koriste analitiku kako bi bolje razumjeli vlastite potrošače i optimizirali lance opskrbe kako bi maksimizirali povrate na investicije, a pri tome zadržali najbolju uslugu potrošaču. Ova razina uspjeha je visoko ovisna o tvrtkinom razumijevanju vlastitih kupaca, dobavljača, poslovnih procesa i lanca opskrbe. Velika komponenta ovoga dolazi iz analize velike količine podataka koje tvrtka prikuplja. Trošak spremanja i obrađivanja je dramatično pao posljednjih godina i kao rezultat dobivamo da su podaci koji su spremljeni u elektroničkom obliku rasli eksplozivno. Iako je pojam rudarenja podatak relativno nov, ideja iza njega nije. Mnogo tehnika koje se koriste u rudarenju podataka imaju svoje korijene u statistici i umjentoj inteligenciji. Iako postoji mnogo definicija što je rudarenje podataka, možemo ga opisati kao otkrivanje ili rudarenje znanja iz velike količine podataka. 23 Tehnički gledano, rudarenje podataka je proces koji koristi statističke, matematičke i tehnike umjetne inteligencije za ekstrahiranje i identificiranje korisnog znanja i uzoraka iz velike količine podataka. Ovi uzorci mogu biti prikazani u obliku poslovnih pravila, korelacija, trendova ili modela predviđanja.[18] Slika 10 Proces rudarenja podataka Većina literature definira rudarenje podataka kao kao netrivijalni poces identificiranja valjanih potencijalno korisnih i razumljivih uzoraka u podacima koji su pohranjeni u strukturiranom obliku. [19] Rudarenje podataka nije nova disciplina nego kombinacija više znanstvenih disciplina. Rudarenje podataka je usko pozicionirana kao presjek više disciplina koje uključuju statistiku, umjetnu inteligenciju, strojno učenje (machine learning), menadžemnt, informacijske sustave i baze podataka. Koristeći prednosti u svim ovim znanostima, rudarenje podataka teži pravljenju pomaka u ekstrahiranju korisnih informacija i znanja iz velikih baza podataka. Kao dio rudarenja podataka u sljedećem dijelu ćemo obraditi teoriju rudarenja teksta ili text mining-a. 24 Slika 11. Rudarenje podataka kao presjek više znanstvenih disciplina. Rudarenje teskta u suvremenom poslovanju Informacijsko doba u kojem sada živimo karakteriziraju brzi rast količine podataka i informacija koje su prikupljaju, spremaju i koje su dostupne u elektronksim medijima. Velika količina poslovnih podataka su pohranjeni u obliku teksta koji su u nestrukturiranom obliku. Prema studiji Merilly Lynch-a i Gartnera, 85 do 90 posto svih korporacijskih podataka su prikupljeni i pohranjeni u nekom od nestrukturiranih oblika. [6] Također ista studija pokazuje da se nestrukturirani podaci udvostručuju u količini svakih osamnaest mjeseci. Zbog toga što je znanje moć u današnjem poslovnom svijetu i znanje koje je izvedeno iz podataka i informacija te poslovanja koja efektivno i efikasno mogu iskoristiti izvore tekstualnih podataka će imati potrebno znanje za donošenje boljih poslovnih odluka koje donose bolju konkurentsku prednost nad konkurentskim poduzećima. Ovo je područje gdje se uvelike iskorištava rudrenje teksta ili text mining. Rudarenje teksta (isto poznat kao text mining ili otkrivanje znanja u tekstualnim bazama podataka) je semiautomatski proces otkrivanja uzoraka (korisnih informacija i znanja) iz velike 25 količine nestrukturiranih izvora podataka i dio je rudrenja podataka. Rudarenje podataka (data mining) je proces otkrivanja valjanih, potencijalno korisnih uzoraka u podacima koji se nalaze u strukturiranim bazama podataka, gdje su podaci organzirirani u tabličnom obliku gdje se nalaze nominalne i numeričke varijable, a u posljednje vrijeme i u NoSQL bazama podataka.[7] Rudarenje teksta je sličan pojam rudarenju podataka i ima istu svrhu kao i rudarenje podataka i koristi iste procese, međutim rudarenje teksta koristi različite inpute za analizu podataka koji su skupina nestrukturiranih ili manje strukturiranih podataka kao što su Word dokumenti, PDF podaci, XML podaci ili e-mail tekstovi. U suštini, rudarenje teksta se može promatrati kao proces s dva glavna koraka koji počinju razumijevanjem strukture koji izvori podataka imaju, te ekstrahiranjem relevantih informacija i znanja koristeći alate i tehnike rudarenja podataka.[8] Prednosti rudarenja teksta se najviše iskazuju u područjima gdje se generira velika količina tekstualnih podataka, kao što je zakon, akademska istraživanja (istraživački članci), financije (kvartalni izvještaji), tehnologija i marketing (komentari potrošača). Također još jedno područje gdje se može iskoristiti automatska obrada nestruktuirarnih tekstualnih podataka su elektrnonske komuniikacije i e-mailovi. Rudarenje teksta ne samo da klasificira ili filtirira nepoželjne mailove, nego mže i automatski prioritizirati e-mailove temeljen na razini važnosti, kao i automatsko generiranje odgovora.[9] Najčešće primjene rudarenja teksta su: Ekstrahiranje infomracija. Identifikacija ključnih pojmova i veza među tekstovima putem uzoraka u tekstu. Praćenje teme. Temeljeno na profilu korisnika i dokumenata koje korisnik gleda, rudarenje teksta može predvidjeti dokumente koji bi ga mogli interesirati. Kategorizacija. Identificiranje glavnih tema dokumenata i stavljanje dokumenta u predefinirani set categorija temeljeno na određenoj temi. Klasteriranje. Grupriranje sličnih dokumenata koji nemaju predefinirani set kategorija. Povezivanje koncepata. Povezivanje povezanih dokumenata identificirajući njihove zajedničke koncepte koji mogu pomoći korisnicima pri traženju informacija koje vjerojatno ne bi našli da koirste tradicionalne metode pretrage. Odgovaranje na pitanja. Pronalazak najboljeg odgovora na danjo pitanje prema povezivanju uzoraka znanja. 26 Rudarenje teksta može biti korišteno pri povećanju prodaje putem analiziranja nestrukturiranih podataka koji se generiraju iz pozivnih cenatara (call centre). Tekst generiran od strane zabilješki call centra te audio snimke razgovora koji se zatim može pretvoriti u tekst mogu se analizirati od strane algoritama trudarenja teksta, kako bi otkrili neobične informacije o percepciji potrošača o proizvodima i uslugama poduzeća. Dodatno, blogovi, ocjene korisnike proizvoda na neovisnim web stranicama su zlato da rudarenje sentimenta potrošača prema poduzeću. Ova bogata kolekcija informacija, jednom prikladno analizirana može povećati zadovoljstvo i povećanje životne vrijednosti potrošača.[10] Rudarenje teksta je postalo neprocijenjivo za upravljanje odnosa s kupcima (CRM). Tvrtke sada mogu koristiti rudarenje teksta za analizu velikih količina nestrukturiranih tekstualnih podataka kombiniranih sa strukturiranim podacima ekstrahiranim iz tvrtkinih baza podataka (skladišta podataka) kako bi predvidjeli percepciju potrošača i sljedeću kupnju. Coussement i Van den Poe (2009) su uspješno primjenili rudarenje teksta i značajno poboljšali mogućnosti modela za predviđanje odustajanja potrošača (customer churn) i oni potrošači koji su identificirani da bi mogli ubrzo mogli odustati od proizvoda/usluga tvrtke su zadržani uz primjenjene taktike. Proces rudarenja teskta Kako bi bio uspješni, projekti rudarenja teksta bi se trebali oslanjat na određenu metodologiju koja je temeljena na najboljoj praksi. Standardizirani proces modela je sličan CRISP-DM-u koje industrijski standard za projekte rudarenje podataka (data mining). Iako većina dijelova CRISPDM metodologije mogu biti primjereni na projekte rudarenja teksta, specifični procesni model za rudarenje teksta uključuju više aktivnosti pretprocesiranja podataka.[8] 27 Slika 12. Dijagram proces rudarenja teksta Slika 6 nam pokazuje dijagram tipičnih procesa rudarenja teksta (Delen, Crossland,2008). Ovaj dijagram prikazuje okviree procesa, istaknuvši njegovo sučelje sa širom okolinom. U suštini, ono označava granice oko specifčnih procesa kako bi eksplicitno odredili što je uključeno i isključeno iz procesa rudarenja teksta. Kao što slika prikazuje, input za otkrivanje znanja u tekstualnim dokumentima su nestrukturirani kao i strukturirani podaci koji su prikupljeni, pohranjeni i dostupni procesu rudarenja. Output procesa je specifično kontekstualno znanje koje se koristi za donošenje odluka. Mehanizam procesa uključuke prikladne tehnike, softverske alate i stručnost u području. Primarna svrha rudarenja teksta u kontekstu otkrivanja znanja je obrada nestrukturiranih tekstualnih podataka kao i strukturiranih podataka kako bi ekstrahirali smislene uzorke za donošenje boljih (poslovnih) odluka. Na najvišoj razini, proces rudarenje teksta može biti podjeljen na tri podprocesa gdje svaki od njih ima specifične inpute kako bi generirali određene outpute. 28 Slika 13. Tri koraka procesa rudarenja teksta Prema gornjoj slici proces rudarenja teksta sastoji se od tri koraka, a oni su: uspostavljanje zbornika ili engl. corpus, kriranje matrice pojmova dokumenta i ekstrahiranje znanja. Uspostavljanje zbornika Zbornik (engl. corpus) je veliki i strukturirani set tekstova koji je pohranje u elektrnočikom obliku pripremljen za provođenje procesa istraživanja znanja. Glavna svrha ovog koraka je prikupljanje svih dokumenata koji su vezani za određenu tematiku ili interesno područje. Prikupljanje podataka uključuje tekstualne dokumente, XML dokumente, e-mailove, web stranice. Kao izvor podataka može poslužiti i snimljeni video zapisi koji mogu biti pretvoreni u tekstualni oblik koristeći algoritme za prepoznavanje govora te koji se zatim spremaju sa svim ostalim dokumentima koji su potrebni za analizu. Nakon što su tekstualni podaci prikupljeni oni se zatim transformiraju i organiziraju u jednakom obliku (ASCII tekst podaci). Mnogi komercijalni alati mogu prihvatiti različite vrste teksta te ih u postupku obrade pretvoriti u željeni format. Kreiranje matrice pojmova dokumenta U ovom koraku, organizirani dokumenti (zbornik) se koristi kako bi se kreirala matrica pojmova dokumenta. U matrici, redovi predstavljaju dokumente, a stupci pojmove. Veza između pojmova i dokumenata su predstavljeni indeksima. Glavni cilj je pretvaranje liste organiziranih dokumenata (zbornika) u matricu gdje su ćelije ispunjene s najprikladnijim indeksima. Međutim 29 mora se napomenuti da svi termini u matrici nemaju istu važnost ili moć, te se takvi termini moraju ukloniti iz matrice. To se uglavnom odnosi na veznike koji uglavnom čine najveći dio dokumenata. U alatima se za taj problem koristi algoritam stop terms ili stop words gdje se iz matrice dokumenata automatski isključuju takve riječi. Često dolazi do toga da je matrica termina prevelika i ponekad se matrica mora smanjiti ukoliko želimo dobiti smislenu cjelinu, a matrica se može smanjiti primjerice: Ako stručnjak u području zaključi da neki termini nemaju smisla u tom području, takve se riječi automatski izbacuju iz matrice. Eliminiranjem termina koji imaju mali broj pojava u dokumentima. Slika 14. Primjer jednostavne matrice pojmova dokumenta 30 Ekstrahiranje znanja Koristeći dobro strukturiranu matricu i potencijalno proširana s ostalim strukturiranim elementima podataka, uzorci se ekstrahiraju u kontekstu specfičnog problema. Glavna kategorije metoda ekstrahiranja znanja su klasifikacija, klasteriranje, asocijacija i analiza trendova. [11] Klasifikacija je najčešči korišten pojam u otkrivanju znanja kompleksnih izvora podataka. Njegov zadatak je da klasificira dani instance podatka u predodređenu kategoriju ili razred. Kad se primjeni u domeni rudarenja teksta, ovaj pojam se zove kategorizacija teksta, gdje je za danu skupinu teksta cilj pronaći točnu kategoriju. Dva glavna pristupa klasifikaciji teksta su inžinjerstvo znanja (knowledge- engineering) i strojno učenje (machine learning) [11] Tehnike analize i ekstrahiranja NLP je važni dio rudarenjea teksta i dio je područja umjetne inteligencije i računarne lingvistike. NLP istražuje problem razumijevanje prirodnog ljudksog jezika, s pogledom na pretvaranje opisa ljudskog jezika (kao što su tekstualni dokumenti) u formalniji oblik. Rudarenje teksta ili tekstulna analitika koristi kombinaciju statistike i NLP tehnike ili engleski Natural Language Processing kako bi ekstrahirale informacije iz nestrukturiranih podataka. NLP je široko i kompleksno područje koje se razvija zadnjij dvadest godina. Primarni cilj NLP je izvođenje smisla iz teksta. NLP generalno koristi ligvističke concepte kao šti su gramatičke strukture i dijelove govora. NLP izvodi analize nad tekstom na različitim razinama.: [13] Leksikološka/morfološka analiza istraživa karakterstike pojedinih riječi, uključujući prefikse, sufikse, korijene i dijelove jezike (glagol,imenica, prijdev) tj. informacije koje će pridonijeti razumijevanju što određena riječ znači u određenom kontekstu. Primjerice leksikološka analiza može prepoznati da promocija, promocije i promovirati imaju istu ideju. Sintatička analiza koristi gramatičke strukture da bi razdvojila tekst i stavila pojedinu riječ u kontekst. Semantička analiza određuje moguće značenje pojedine rečenice. 31 Rudarenje web-a S obzirom da velika količina tekstualnih podataka dolazi s Interneta moramo definiraiti što je rudarenje web-a i kako prikupljamo podatke s web-a. Rudarenje mreže (web mining) je proces otkrivanja intrizinčnih veza (korisnih informacija) s Interneta, koji su predstavljeni u obliku teksta, poveznica ili u nekom od drugih oblika. [12] Rudarenje sadržaja s web-a je ekstrahiranje korisnih informacija s web stranica. Dokumenti mogu biti estrahirani u nekom obliku koje računalo može prepoznati te se najčešće koriste Web crawleri se za automatsko čitanje web sadržaja. Slika 15. Tri glavna područja rudarenja web-a 32 Primjeri korištenja rudarenja teksta (teksutalne analitike) nad Big Data Kreiranje upotrebljivog Customer Intelligence sustava od podataka s društvenih medija. U današnjem svijetu društvenih medija i širokih vrsta kanala društvenih medija koji su dostupni, nalazi se velika količina podataka. Izazov dolazi kod pristupanju tim podacima, transformiranju tih podataka u nešto korisno. Generalno, organizacije žele koristiti podatke s društvenih medija kako bi razumijeli potrebe i ponašanja njihovih kupaca ili specifične ciljane grupe individualaca koji imaju poveznice s postojećim ili budućim proizvodima ili uslugama organizacije. Postoje tri različita pristupa pri gledanju društvenih medija- alati za izvještavanje kanala, score-card sustavi i tehnike za prediktivnu analitiku,primarno rudarenje teksta. U ovoj studiji slučaja kao primjer imamo europsku telekomunikacijsku kompaniju koja koristi rudarenje teksta i rudarenje mreža (network mining) i koja je investirala veliku količinu novaca u društvene medije kako bi omogućila svojoj širokoj zjednici da dijeli i komentira naprimjer UEFA-ino Svjetsko Prvenstvo na Facebooku. [15] Također za njih je bilo nemoguće da otkriju semantiku unutar tih nestrukturirani podataka, zbog toga što riječnik koji se koristi na društvenim medijima im nije omogućavao dodavanje ili izmjene. Stoga su ekstrahirali podatke s društvenih medija u njihov privatni oblak kako bi napravili analizu tih podataka i kao alat su koristili open source rješenje za rudarenje podataka KNIME. Nisu samo korištene tehnike rudarenja teksta i analiza mreža, nego i metode klasteriranja nakon pretvaranja iz sirovih podataka u normalni oblik za analizu. Cilj je bio identificirati negativne i pozitivne korisnike te utvrditi je li anonimni korisnici uglavnom imaju pozitivna ili negativna mišljenja ili osjećaje. Nakon što su primjenili rudarenje teksta nad nestrukturiranim podacima, dobili su riječi koje su najčešće korištene te je li riječi izražavaju pozitivno ili negativno mišljenje. 33 Slika 16. Word cloud oblik tekstualnih podataka Slika 10 nam govori da je riječ government što znači vlada najspominjanija riječ u komentarima i označena je sivim slovima što znači da ta riječ ima neutralnu semantičku vrijednost. Primjerice riječi gold, rights ili free imaju pozitivnu semantičku vrijednost. Semantička analiza u evaluaciji proizvoda Kada kupujemo proizvod po prvi put uglavnom moramo izabrati proizvod između više njih sa sličnim karakteristikama. Tvrtke uglavnom koriste pozitivne karakteristike svojih proizvoda u promociji kako bi izbjegli one loše. Najbolji način kako izabrati proizvod se uglavnom svodi na različita mišljenja od ostalih korisnika. Sustav koji ovdje koristimo kao studiju slučaja je sustav mišljenja o hotela koji s web-a prikuplja podatka, evaluira ih, agregira evaluacje i nudi kumulativnu informaciju koja je jednostavna za koristenje. Geneirirana informacija može biti iskorištena za potencijalne korisnike, ali i za voditelje hotela pružajući im dodatne informacije za daljni razvoj poslovanja. Nezavisne ocjene korisnike su poznate kao najvjerodostojniji izvor informacija o proizvodu ili usluzi kada novi korisnici kupuju proizvod ili uslugu. Prema Trip Advisoru, 80 % korisnika piše komentare o putovanjima, a 20% koristi te komentare kada 34 planiraju putovanje. Ovaj sustav je dio FAIR projekta koji razvijaju tvrtka Testnrust from Frane, Beia iz Rumunjske i Poslovna inteligencija iz Hrvatske. [16] Projekt se bavi prikupljanjem ocjena korisnika hotela, pohranjivanjem tih podataka i analiziranje njihove semantike i agregiranja analize rezultata u jednu smislenu cjelinu. Slika 17. Proces prikupljanja, obrade i analize podataka Kao što vidimo iz slika proces počinje tako što s web stranica koje su vezane uz putovanja (tripadvisor.com,hotels.com.laterooms.com) skidamo podatke o ocjenama korisnika o pojedinom hotelu putem web crawlera. S obzirom na količinu podataka koje želimo preuzeti, skidanje podataka se izvodi u višestrukim simultanim procesima i za taj proces skidanja se koristi open source projekt Apache Nutch. Nakon što su podaci skinuti u HTML obliku provodimo rudarenje teksta i detektiranje jezika putem analitičkog alata Apache Tika koji koristi N-gram tehniku. Duplikati komentara se odbacuju, a ostatak se pohranjuje u HBase koja je inačica distribuirane NoSQL baze podataka. Rudarenje teksta i semantička analiza se zatim provodi nad tim podacima koristeći open source alat KNIME. Nakon su dobili rezultate, grafički su ih prikazali. Na slici vidimo prosječne ocjene za hotel Al Duca di Venezia za određene karakteristike. 35 Slika 18. Prosječne ocjene za hotel Al Duca di Venezia Zaključak Primjena Big data se primjenjuje sve više u svim područjima poslovanjima i kao takva pruža konkurentsku prednost. Ignoriranje Big data će staviti poduzeće u poziciju rizika i mogućnosti zaostajanja za konkurencijom. Kako bi ostala kokurentna, poduzeća će u svom poslovanju morati prikupljati sve više podataka iz novih izvora kako bi dobili što bolji uvid u poslovanje. Big data kao pojam je još neistražen i bit će potrebno uložiti još više napora u njegovo istraživanje. Primjena Big data u rudarenju teksta će sve više razvijati u budućnosti, posebice zbog sve veće pojave open source platformi koje omogućavaju analizu teksta nad velikim količinama podataka. Zapravo možemo reći da Big Data nije pojam koji je nov u području informacijske tehnologije, nego logičan nastavak razvoja tehnologije posebice razvoja pararelnog obrađivanja podataka, distribuirane obrade podataka te tehnologije u oblaku. Također moramo biti oprezni pri korištenju Big Data kao tehnologije koja će riješiti sve poslovne probleme te se mora smatrati kao dodatak postojećoj IT infrastruktrui poslovanja. 36 Reference 1. Paul Zikopoulos et al. (2013) : Harness the Power of Big Data, The IBM Big Data Platform, McGrawHill 2. Harlan Harris et al. (2013) : Analyzing the Analyzers, An Introspective Survey of Data Scientists and Their Work, O'Reilly 3. Chris Eaton et al. (2013) : Understanding Big Data, Analytics for Enterprise Class Hadoop and Streaming Data, McGrawHill 4. Demystifying Big Data, A practical guide to transforming the business of government, TechAmerica Foundation, Washington 5. Analytics: Real-world use of big data in telecommunications (2013), IBM Institute for Business Value i Saïd Business School at the University of Oxford 6. McKnight, W. (01.01.2005.), "Text Data Mining in Business Intelligence.", Information Management Magazine. 7. Torgo. L, Data Mining with R: learning by case studies, University of Porto 8. Turban E. et.al, Business Intelligence: A managerial approach 9. Weng, S. S., and C. K. Liu. (2004) "Using Text Classification and Multiple Concepts to Answer E-mails." Expert Systems with Applications. 10. Coussement, K., and D. Van Den Poe!. (2009). "Improving Customer Attrition Prediction by Integrating Emotions from Client/Company Interaction Emails and Evaluating Multiple Classifiers." Expert Systems witb Applications. 11. Han J, Kamber M., Pei. J : Data mining concepts i tehniques, Third Edition. 12. Feldman, R., and]. Sanger. (2007). Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. 13. Hurwitz J. Et.al, Big Data for Dummies 14. Etzioni, 0. "The World Wide Web: Quagmire or Gold Mine?" Communications of the ACM, Vol. 39, 15. Thiel. K et.al, Creating Usable Customer Intelligence from Social Media Data: Network Analytics meets Text Mining 16. Banić L., Mihanović A., Brakus M., Sentiment Analysis in Product Evaluation 17. O'Reilly Strata, Big Data Now, 2012 Edition. 37 18. Nemati, H. R., and C. D. Barko. (2001). "Issues in Organizational Data Mining: A Survey of Current Practices." Journal of Data Warehousing 19. Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth. 0996). "From Knowledge Discovery in Databases." Al Magazine 20. Sathi. A., Big Data Analytics: Disruptive Technologies for Changing the Game 21. Franks B., Taming the Big Data tidal wawe: Finding Opportunities in Huge Data Streams with Advanced Analytics. 22. Jonathan R. Owens, et al. (2013), Hadoop Real-World Solutions Cookbook, Packt Publishing Ltd. 23. Perera S., et al. (2013), Hadoop MapReduce Cookbook, Packt Publishing Ltd. 24. Tom White (2012), Hadoop: The Definitive Guide, O'Reilly 25. Eric Sammer (2012), Hadoop Operations, O'Reilly Popis slika Slika 1. Prikaz pet vještina znanstvenika podataka Slika 2. Prikaz dostupnih podataka i onih koje tvrtka može obraditi Slika 3. Shema korporacijskog modela velikih podataka Slika 4. Tijek velikih podataka Slika 7. Prepreke u Big Data Slika 6. Tradicionalni način otkrivanja prievare Slika 7. Moderni način otkrivanja prijevare Slika 8. Nesigurnost podataka Slika 9. Big Data pogled na potrošača. Slika 10. Proces rudarenja podataka Slika 11. Rudarenje podataka kao presjek više znanstvenih disciplina. 38 Slika 12. Dijagram proces rudarenja teksta Slika 13. Tri koraka procesa rudarenja teksta Slika 14. Primjer jednostavne matrice pojmova dokumenta Slika 15. Big Data pogled na potrošača. Slika 16. Tri glavna područja rudarenja web-a Slika 17. Word cloud oblik tekstualnih podataka Slika 18. Proces prikupljanja, obrade i analize podataka Slika 19. Prosječne ocjene za hotel Al Duca di Venezia Tablice Tablica 1. Usporedba relacijskih baza podataka i MapReduce Tablica 2. Tip i opis analitike za otkrivanje znanja 39
© Copyright 2024 Paperzz