download

Matakuliah : M0304/Corporate Information System Management
Tahun
: 2008
Pertemuan - 08
Modul-08
Management Sumberdaya Data:
Warehousing, Analyzing, Mining, dan Visualization
Fakultas Ilmu Komputer
Modul-08-2
Sasaran Pembelajaran
•
•
•
•
•
•
•
Mengenali pentingnya data, isu2 managerialnya, dan daur hidupnya.
Menjelaskan sumber-2 data, pengumpulannya dan isu qualitas.
Menjelaskan operasi data warehousing dan perannya dalam pengambilan keputusan.
Menjelaskan penemuan informasi dan pengetahuan dan business intelligence.
Memhami kekuatan dan manfaat dari data mining.
Menjelaskan metoda-2 presenasi data dan menjelaskan geographical information systems(GIS),
visual simulations, dan virtual reality sebaga decision support tools.
Mengenali peran Web dalam manajemen data.
Fakultas Ilmu Komputer
Modul-08-3
Data Management
Applikasi-2 TI tidak dapat dikerjakan tanpa menggunakan salah satu
bentuk data. Data harus siap tersedia manakala dibutuhkan, lengkap dan
akurat. Data perlukan dimanage, meskipun kelihatannya sulit karena
beberapa alasan.
•
Jumlah data bertambah seiring bertambahnya waktu.
•
Data tersebar diseleuruh organisasi.
•
Data dikumpulkan oleh banyak individu menggunakan beragam metoda.
•
Data External yang diperlukan harus dipertimbangkan dalam pengambilan keputusan organisasi.
•
Pengemanan Data, qualitas, dan integritas adalah kritikal.
•
Pemilihan alat2/tools data management dapat menjadi masalah pokok.
Data adalah asset, ketika dirubah jadi informasi dan
pengetahuan, dapat memberikan keunggulan bersaing
perusahaan.
Fakultas
Ilmu Komputer
Modul-08-4
Data Life Cycle Process
Usaha berjalan pada data yang telah diproses menjadi informasi dan
pengetahuan, yang akan digunakan manajer dalam menghadapai
masalah dan peluang. Trnasformasi data kedalam pengetahuan dan
solusi-2 dijalankan dengan beberapa cara.
1.
Pengumpulan data baru terjadi dari beragam sumber.
2.
Disimpan sementara dalam sebuah database kemudian diolah untuk memenuhi format data
warehouse atau data mart dari organisasi.
3.
Users kemudian akses data warehouse atau data mart dan ambil satu copy dari data yang
dibutuhkan untuk analisis.
4.
Analysis (mencari patterns) dilakukan dengan
 Data analysis tools
 Data mining tools
Hasil dari aktivitas ini adalah pembangkitan decision support
dan knowledge
Fakultas Ilmu Komputer
Modul-08-5
Data Life Cycle Process Continued
hasilnya – pembangkitan knowledge
Fakultas Ilmu Komputer
Modul-08-6
Sumber-2 Data
Data life cycle dimulai dengan mendapatkan data dari sumber data.
Sumber-2 ini dapat diklasifikasikan sebagai internal, personal, dan
external.
•
•
Sumber Data Internal umumnya disimpan dalam data base perusahaan. Data tentang people, products, services,
dan processes.
Data Personal adalah dokumentasi dari expertise pegawai perusahaan umumnya dipelihara oleh pegawai, dalam
bentuk :
–
–
–
–
–
•
•
Estimasi penjualan
Opini tentang para pesaing
business rules
Procedures
Dls.
Sumber data External dapat berasal dari database komersial ataupun laporan-2 Pemerintahan
Internet dan Commercial Database Services dapat diakses melalui internet.
Fakultas Ilmu Komputer
Modul-08-7
Methode-2 Pengumpulan bahan data
Tugas pengumpulan dapat sangatlah kompleks, dimana akan menciptakan
masalah kualitas-data diperlukan validasi dan pembersihan/cleansing dari
data.
•
Pengumpulan dapat dilakukan :
– dilapangan
– dari individual
– Melalui metoda manual
•
•
•
•
time studies
Surveys
Observations
contributions dari experts
– Menggunakan instrument2 dan sensor2
– Transaction processing systems (TPS)
– via electronic transfer
– Dari web site (Clickstream)
Fakultas Ilmu Komputer
Modul-08-8
Methode-2 Pengumpulan bahan data
Satu cara untuk memperbaiki pengumpulan data dari sumber eksternal
yang banyak digunakan data flow manager (DFM), yang mengambil
informasi dari sumber externaldan menempatkan dimana dibutuhkan
dalam bentuk yang mudah digunakan.
•
DFM terdiri dari:
– suatu decision support system
– suatu central data request processor
– suatu data integrity component
– Sambungan ke external data suppliers
– Proses-2 digunakan oleh pemasok data external.
Fakultas Ilmu Komputer
Modul-08-9
Qualitas dan Integritas Data
Qualitas Data (QD) adalah sangat penting , karena qualitas data
menentukan kegunaan data terkait dengan qualitas dari keputusan yang
diambil berdasarkan data.
Integritas Data cara2 agar data harus accurate, accessible, dan up-to-date.
•
•
Intrinsic QD: Akurasi, objektivitas, dapat-dipercaya, dan reputasi.
Accessibility DQ: Accessibility dan access security.
•
•
Contextual DQ: Relevancy, value added, timeliness, completeness, jumlah dari data.
Representation DQ: mudah diinterpretasi, mudah dipahami, ringkas, konsisten.
Qualitas Data adalah fondasi dari effective business intelligence.
Fakultas Ilmu Komputer
Modul-08-10
Manajemen Dokumen
Management Dokumen adalah pengendalian otomatis dari dokumen2
elektronik, image, spreadsheets, dokumen word processing, dan dokumen2 kompleks yang lain memalui siklus hidup mereka dalam satu organisasi,
dari mulai penciptaan sampai dengan akhir pengarsipan.
•
Memelihara dokumen-2 kertas, mensyaratkan :
– Setiap orang memiliki versi terkini
– Satu jadwal pemutahiran harus ditetapkan
– Pengamanan disediakan untuk dokumen
– Dokumen-2 didistribusikan kepada individu-2 yang tepat sasaran dan tepat waktu
Fakultas Ilmu Komputer
Modul-08-11
Transactional vs. Analytical Data Processing
Transactional processing berada di operational systems (TPS) yang
menyediakan kemampuan organisasi untuk melaksakan transaksi-2 bisnis
dan menghasilan laporan2 transaksional. Data diorganisasikan dalam satu
hierarchical structure dan diolah terpusat. Ini dilakukan terutama untuk
kecepatan dan efisiensi proses-2 rutin dan data yang berulang atau
repetitive.
Analytical processing, melibatkan analisis dari data yang telah
diakumulasi dalam TPS, sering dikenal juga sebagai business
intelligence, termasuk didalamnya data mining, decision support
systems (DSS), querying, dan aktivitas analisis lainnya. Analisis2 ini
menempatkannya pada strategic information bagi pengambil keputusan
untuk memperbaiki produktivitas dan membuat keputusan-2 lebih baik,
bersama-sama membawa ke pada keunggulan perusahaan untuk
bersaing.
Fakultas Ilmu Komputer
Modul-08-12
Data Warehouse
Suatu data warehouse adalah repositori dari subject-oriented historical data
yang diorganisasikan agar mudah diakses dalam satu bentuk, tersedia dan
dapat diterima untuk aktivitas pengolahan analisis(seperti data mining, decision
support, querying, dan lain-2 applications).
•
Benefit dari data warehouse adalah:
– Kemampuan untuk mendapatkan data yang cepat, karena ditempatkan pada satu lokasi
– Kemampuan untuk mendapatkan data secara mudah dan sering bagi user dengan Web browsers.
•
Karakteristik data warehousing adalah:
– Organization. Data diorganisasikan berdasarkan subject
– Consistency. Dalam warehouse data akan di kode dengan cara yang konsisten.
Fakultas Ilmu Komputer
Modul-08-13
Data Warehouse Continued
•
Karakteristik data warehousing adalah :
– Time variant. Data disimpan untuk jangka yang lama sehingga dapat digunakan untuk
analisis trend, forcasting dan perbandingan-2 berdasarkan waktu.
– Nonvolatile. Sekali dimasukkan kedalam warehouse, data tidak diupdate.
– Relational. Pada umumnya data warehouse menggunakan struktur relational.
– Client/server. Data warehouse menggunakan client/server architecture, terutama untuk
menyediakan kemudahan bagi user untuk akses data.
– Web-based. Data warehouses dirancang untum menyediakan lingkungan komputasi yang
efisien untuk aplikasi2 berbasis Web applications
Fakultas Ilmu Komputer
Modul-08-14
Data Warehouse Continued
Fakultas Ilmu Komputer
Modul-08-15
Data Mart
Data Mart adalah versi turunan data warehouse skala kecil dirancang untuk
satu strategic business unit (SBU) atau departmen. Mereka berisi lebih
sedikit informasi daripada data warehouse, dapat memberikan respons
lebih cepat dan kemudahan untuk navigasi ketimbang enterprise-wide data
warehouses.
•
Ada dua tipe data mart :
– Replicated (dependent) data marts adalah subset2 kecil dari data warehouse. Di beberapa kasus satu
mereplikasi beberapa subset dari data warehouse kedalam data marts yang lebih kecil, masing-2 untuk
satu area functional.
– Stand-alone data marts. Satu perusahaan dapat memiliki satu atau lebih data marts mandiri tanpa harus
memiliki data warehouse. Biasanya data marts adalah untuk marketing, finance, dan aplikasi-2 engineering.
Fakultas Ilmu Komputer
Modul-08-16
Data Cube
Multidimensional databases (kadang dikenal OLAP) adalah simpanan data
khusus yang mengorganisasikan fakta-2 berdasarkan dimensi-2, seperti
geographical region, lini-produk, salesperson, waktu. Data dalam database
ini umtumnya preproses dan dismpan dalam data cubes.
•
Satu titikpotong mungkin kuantitas dari produk dijual oleh lokasi2 retail-tententu selama
periode2 waktu tertentu.
•
Lain matrix mungkin Sales volume per department, perhari, perbulan, per tahun, untuk satu
specific region
•
Cubes menyediakan kecepatan:
–
–
–
–
Queries
Slices dan Dices dari informasi
Rollups
Drill Downs
Fakultas Ilmu Komputer
Modul-08-17
Simpanan Data Operational
Simpanan Data Operational adalah database untuk transaction
processing systems (TPS) yang menggunakan menggunakan konsep data
warehouse untuk menyediakan clean data kepada TPS. Hal ini
membawakonsep data warehouse dan manfaatnya ke porsi operasional
bisnis.
•
Umumnya digunakan untuk keputusan-2 jangka pendek yang memerlukan waktu yang sensitif
untuk analisis data.
•
Secara logika berada diantara operational data pada legacy systems dan data warehouse.
•
Menyedian detail , bukan summary data.
•
Dioptimized untuk akses yang sering
•
Menyediakan kecepatan waktu respon lebih besar.
Fakultas Ilmu Komputer
Modul-08-18
Business Intelligence
Business intelligence (BI) adalah satu kategori aplikasi dan teknik yang
luas untuk gathering, storing, analyzing dan penyediaan akes ke data.
Membantu user-2 perusahaan membuat keputusan-2 bisnis dan strategis
lebih baik.Applikasi-2 pokok termasuk aktivitas-2 : query dan reporting,
online analytical processing (OLAP), DSS, data mining, forecasting dan
statistical analysis.
•
Business intelligence mencakup :
– output2 seperti financial modeling dan budgeting
– resource allocation
– coupons dan sales promotions
– Seasonality trends
– Benchmarking (business performance)
– competitive intelligence.
Diawali dengan Knowledge Discovery
Fakultas Ilmu Komputer
Modul-08-19
Business Intelligence Continued
Bagaimana Mereka bekerja.
Fakultas Ilmu Komputer
Modul-08-20
Knowledge Discovery
Sebelum informasi dapat diproses kedalam BI , terlebih dahuluharus di “
discovered” atau ekstrak data simpanan-2 data. Tujuan utama dari
knowledge discovery in databases (KDD) adalah untuk mengidentifikasi
valid, novel, potensi usefulness, dan understandable patterns dalam data.
•
KDD didukung oleh teknologi :
– massive data collection
– powerful multiprocessor computers
– data mining dan algorithma lain.
•
KDD pada dasarnya menggunakan tool untuk information discovery:
– Traditional query languages (SQL, …)
– OLAP
– Data mining
Discovering useful patterns
Fakultas Ilmu Komputer
Modul-08-21
Knowledge Discovery Continued
Discovering useful patterns
Fakultas Ilmu Komputer
Modul-08-22
Queries
Queries memungkinkan user untuk meminta informasi dari komputer
yang tidak tersedia dalam laporan2 periodik. Query systems sering
disediakan dengan basis menu atau jika data disimpan dalam sebuah data
base data relational, melalui structured query language (SQL) atau
menggunakan metoda query-by-example (QBE).
•
Permintaan user dinyatakan dalam satu bahasa query User requests are stated in
a query language dan hasilnya adalah subset2 dari relationship atau
hubungan2nya.
– Sales by department by customer type untuk periode tertentu
– Kondisi cuaca untuk tanggal tertentu
– Sales per hari, per minggu
– …
Fakultas Ilmu Komputer
Modul-08-23
Online Analytical Processing
Online analytical processing (OLAP) adalah satu set alat2 atau tools yang
digunakan untuk menganalisis dan mengaggregasi data untuk
merefleksikan kebutuhan2 bisnis dari perusahaan. Struktur bisnis ini
(multidimensional views dari data) memungkinkan users dapat men
jawab dengan cepat pertanyaan-2 bisnis. OLAP dijalankan pada Data
Warehouses dan Marts.
•
ROLAP (Relational OLAP) merupakan satu OLAP database yang diimplementasikan pada tataran atas
dari relational database yang ada. Multidimensional view dicreate setiap saat untuk user.
•
MOLAP (Multidimensional OLAP) adalah specialized multidimensional data store seperti Data Cube.
Multidimensional view secara physik disimpan dalam specialize data files.
Application View bukan struktur data atau schema
Fakultas Ilmu Komputer
Modul-08-24
Data Mining
Data mining adalah alat/tool untuk menganalisis data dalam jumlah yang
besar. Menurunkan namanya dari kesamaan antara pencarian/searching
untuk valuable business information dalam database yang besar.
•
Data mining technology dapat mengenerate peluang2 business yang baru dengan menyediakan :
– Automated prediction dari trends dan behaviors.
– Automated discovery dari pattern2 yang tidak dikenal sebelumnya atau tersembunyi .
•
Data mining tools dapat dikombinasikan dengan :
– Spreadsheets
–
•
Lain2 end-user software development tools
Data mining mengcreate satu data cube kemudian meng extracts data
Fakultas Ilmu Komputer
Modul-08-25
Teknik-2 Data Mining
•
•
•
•
•
•
•
Case-based reasoning, menggunakan kasus historis untuk mengenali pattern2
Neural computing yaitu sebuah pendekatan mesin pembelajar yang menguji data historis untuk
pattern2.
Intelligent agents meretrieve informasi dari Internet atau dari database2 berbasis intranet.
Association analysis menggunakan satu set algorithma khusus yang mengurut sejumlah besar data
set dan menunjukkan statistical rules diantara item2.
Decision trees
Genetic algorithms
Nearest-neighbor method
Fakultas Ilmu Komputer
Modul-08-26
Tugas Data Mining
•
•
Classification. Menentukan karakteristik dari kelompok tertentu.
Clustering. Identifikasi kelompok/groups dari item2 yang berbagi satu karakteristik. Clustering
•
Association. Identifikasi relationships antara event2 yang terjadi pada suatu saat.
•
•
Sequencing. Identifies relationships yang ada sepanjang satu periode waktu.
Forecasting. Estimasi nilai2 masadatang berdasarkan patterns dalam sekumpulan besar data.
•
•
Regression. Memetakan sebuah data item pada satu variable prediksi.
Time Series analysis dan menguji sebuah nilai atas variasinya sepanjang waktu .
berbeda dengan classification, dimana tidak ada penentuan terlebih dulu karakteristik
Fakultas Ilmu Komputer
Modul-08-27
“Other” Mining Environments
Sebagai tambahan pada data stored dalam traditional databases ada
tersedia struktur lain yang dapat digali untuk pattern.
•
Text Mining adalah aplikasi dari data mining pada non-structured atau less-structured text files
•
Web Mining adalah aplikasi dari teknik data mining untuk data terkait World Wide Web. Data dapat
ditampilkan dalam web pages atau yang terkait activitas Web.
•
Spatial Mining adalah aplikasi dari teknik data mining untuk data yang mempunyai komponen lokasi.
•
Temporal Mining adalah aplikasi dari data mining untuk data yang dipelihara untuk multiple points dalam
waktu.
Fakultas Ilmu Komputer
Modul-08-28
Data Visualization
Data visualization merujuk pada presentation dari data oleh technologies
seperti digital images, geographical information systems, graphical user
interfaces, multidimensional tables dan graphs, virtual reality, threedimensional presentations, videos dan animation.
•
Multidimensionality Visualization: Modern data dan informasi dapat memiliki
beberapa dimensi.
– Dimensions:
•
Products
•
Salespeople
•
Market segments
•
Unit Business
•
Geographical locations
•
Distribution channels
•
Countries
•
Industries
Fakultas Ilmu Komputer
Modul-08-29
Data Visualization Continued
Multidimensionality Visualization:
– Measures:
•
•
•
•
•
Money
Sales volume
Head count
Inventory profit
Actual versus forecasted results.
– Time:
•
•
•
•
•
Fakultas Ilmu Komputer
Daily
Weekly
Monthly
Quarterly
Yearly.
Modul-08-30
Data Visualization Continued
Fakultas Ilmu Komputer
Modul-08-31
Data Visualization Continued
•
•
•
A geographical information system (GIS) adalah suatu computer-based system untuk capturing,
storing, checking, integrating, manipulating, dan displaying data menggunakan digitized maps.
Setiap record atau digital object memiliki satu identified geographical location. Menggunakan
spatially oriented databases.
Visual interactive modeling (VIM) menggunakan computer graphic displays untuk menampilkan
impact dari keputusan management atau operational yang berbeda terhadap objectives seperti
profit atau market share.
Virtual reality (VR) interactive, computer-generated, three-dimensional graphics yang disajikan
untuk user.
Fakultas Ilmu Komputer
Modul-08-32
Specialized Databases
Data warehouse dan data mart melayani end users pada semua area
functional. Kebanyakan current databases adalah static: Sederhana
mengumpulkan dan menyimpan informasi. Kini lingkungan bisnis juga
membutuhkan specialized databases.
•
Marketing transaction database (MTD)
– Kombinasi banyak karakteristik dari current databases dan sumber data marketing kedalam satu database
baru yang memungkinkan marketers untuk menggunakan dalam real-time personalization dan target setiap
interaksi dengan customers
•
Interactive capability
– satu transaksi interactive terjadi dengan pelanggan dalam pertukaran informasi dan updating database
dalam real time, lawannya periodik (weekly, monthly, or quarterly) update warehouses and marts klasik.
Fakultas Ilmu Komputer
Modul-08-33
Web-based Data Management Systems
Aktivitas2Data management dan business intelligence —dari mulai data
acquisition sampai mining—biasanya dilaksanakan dengan Web tools, atau
gabungan Web technologies dan e-business tools. Hal ini dilakukan melalui
intranets, danvia extranets.
•
Enterprise BI suites dan Corporate Portals integrasi query, reporting, OLAP, dan lain2
tools
•
Intelligent Data Warehouse Web-based Systems menggunakan search engine untuk
specific applications dimana dapat memperbaiki operasional data warehouse
•
Clickstream Data Warehouse terjadi didalam lingkungan Web, ketika pelanggan
mengunjungi Web site.
Fakultas Ilmu Komputer
Modul-08-34
Web-based Data Management Systems
Continued
Fakultas Ilmu Komputer
Modul-08-35
Web-based Data Management Systems
Continued
Fakultas Ilmu Komputer
Modul-08-36
MANAGERIAL ISSUES
•
•
•
•
Cost-benefit issues and justification.
Where to store data physically.
Legal issues..
Internal or external?
Fakultas Ilmu Komputer
Modul-08-37
Fakultas Ilmu Komputer
Modul-08-38
Fakultas Ilmu Komputer
Modul-08-39