Data Ware House, Data Mining Dan Text Mining Rev 1.0.0

DATAWAREHOUSE & DATAMINING

Tacbir Hendro P.

2015

i

KATA PENGANTAR

Terimaksih penulis sampaikan ke Hadirat Illahi Robbi, karena hanya perkenannyalah buku ini dapat diselesaikan meskipun dengan penuh kekurangan.

Selanjutnya untuk Isteriku, dan kedua anakku, kalianlah penyemangat hidupku.

Last but Not Least, teman sejawat dan mahasiswaku, yang tugas akhirnya dibimbing oleh saya ataupun tidak, kalian adalah tantanganku, bagaimana yang kalian butuhkan dapat saya sediakan dengan sederhana dan bermanfaaat.

Buku ini terinspirasi dari beberapa buku luar negeri yang dibuat berdasarkan hasil penelitian. Dengan menggunakan penelitian skripsi mahasiswa yang saya bimbing, maka buku ini dapat di susun berdasarkan hasil penelitian mereka.

Akhir kata semoga buku ini dapat bermanfaat bagi mereka yang mulai menyusun laporan Kerja Praktek, menyusun proposal Tagas Akhir atau Skrpsi, dll.

Terimaksih untuk semuanya.

ii

DAFTAR ISI

KATA PENGANTAR ....................................................................................................... i

DAFTAR ISI................................................................................................................ ii

DAFTAR TABEL ........................................................................................................... v

DAFTAR GAMBAR ....................................................................................................... vi

BAB 1. DATA WAREHOUSE ........................................................................................... 1

1.1. Pendahuluan ..................................................................................................... 1

1.2. Definisi ............................................................................................................ 1

1.3. Sejarah Data Warehouse .................................................................................... 2

1.4. Komponen dari Data Warehouse ......................................................................... 3

1.5. Arsitektur untuk Data Warehouse ........................................................................ 6

1.6. On line Analytical Processing (OLAP) .................................................................... 8

1.7. Membangun Data Warehouse............................................................................ 10

a. Menentukan Bentuk Data Warehouse .................................................................. 10

b. Anatomi Data Warehouse .................................................................................. 10

i. Functional Data Warehouse (Data Warehouse Fungsional) ........................... 11

ii. Centralized Datawarehouse (Data Warehouse Terpusat) .............................. 11

iii. Distributed Data Warehouse (Data Warehouse terdistribusi) ........................ 12

1.8. Metodologi Perancangan Database untuk Data Warehouse .................................... 13

1.9. Model untuk Data Warehouse ........................................................................... 14

a. Model Dimensional ............................................................................................ 14

b. Snowflake Schema ............................................................................................ 17

1.10. Star atau Snowflake ..................................................................................... 18

1.11. Kesimpulan .................................................................................................. 18

BAB 2 DATA MINING ................................................................................................. 19

2.1. Pendahuluan ..................................................................................................... 19

2.2. Inovasi yang berkelanjutan............................................................................... 19

2.3. Data, Informasi dan Pengetahuan ........................................................................ 19

2.4. Apa yang dapat dilakukan dengan data mining ? .................................................... 20

2.5. Bagaimana data mining bekerja ? ........................................................................ 21

2.6. Teknologi infrastruktur seperti apa yang diperlukan ? ............................................. 22

2.7. Aplikasi Data Mining ........................................................................................... 22

2.8. Kesimpulan ....................................................................................................... 23

iii

BAB 3. Text Mining ................................................................................................... 24

3.1. Pendahuluan ................................................................................................... 24

3.1.1.Case Folding .................................................................................................... 24

3.1.2.Tokenizing ....................................................................................................... 24

3.1.3.Filtering .......................................................................................................... 24

3.1.4.Analyzing ........................................................................................................ 25

3.2. (TF-IDF) Term Frequency-Inverse Frequency Document ......................................... 26

Studi Kasus 1 (Nugraha, 2012) .................................................................................. 26

Preprosesing ............................................................................................................ 27

Case Folding ............................................................................................................ 27

Tokenizing ............................................................................................................... 28

Filtering ................................................................................................................... 29

Analyzing ................................................................................................................ 30

Studi Kasus 2 (Utama, 2012) ..................................................................................... 33

3.3. CF-IDF (Concept Frequency-Inverse Document Frequency) ..................................... 37

Studi Kasus 1 (Arrumaisha, 2012) .............................................................................. 38

Case Folding ............................................................................................................ 39

Stopword Removal .................................................................................................... 39

Mencari Concept ....................................................................................................... 40

Perhitungan Bobot Similaritas Menggunakan CF-IDF ..................................................... 45

Studi Kasus 2 (Afrika, 2013) ...................................................................................... 48

Case Folding ............................................................................................................ 48

Parsing .................................................................................................................... 49

Stopword Removal .................................................................................................... 51

Penentuan bobot untuk dokumen ............................................................................... 52

Penentuan Kategori berdasarkan kategori uatama ....................................................... 53

Proses CF-IDF .......................................................................................................... 54

3.4. VSM (Vector Space Model) .................................................................................. 59

Studi Kasus 1 (Nastiti, 2013) ..................................................................................... 59

a. Proses Preprocessing pada Dokumen Uji (Inputan kasus) ........................................... 59

b. Proses Preprocessing pada Dokumen Banding (Inputan pasal) .................................... 61

Perhitungan CF-IDF .................................................................................................. 66

Perhitungan Vector Space Model (VSM) ....................................................................... 68

Studi Kasus 2 (Candra, 2014) .................................................................................... 71

iv

Preprocessing ........................................................................................................... 72

Proses Case Folding .................................................................................................. 72

Proses Tokenizing ..................................................................................................... 72

Proses Filtering......................................................................................................... 73

Wordnet .................................................................................................................. 74

Proses Pembobotan CF-IDF ........................................................................................ 74

Perhitungan Vector Space Model ................................................................................. 80

REFERENCE ............................................................................................................. 84

INDEKS ................................................................................................................... 85

v

DAFTAR TABEL

Tabel 1. 1. Perbandingan OLTP dengan Data Warehouse ....................................................... 2 Tabel 1. 2. Data Multidimensi ....................................................................................... 8 Tabel 1. 3. Cross tabulation pendapatan berdasarkan jenis dan rasa ................................. 9 Tabel 1. 4. Penjualan Sirup .......................................................................................... 9 Tabel 1. 5. Frequensi Kemunculan Kata pada Dokumen ................................................. 25 Tabel 1. 6. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama .................... 25

Tabel 2. 1. Frequensi Kemunculan Kata pada Dokumen ................................................. 31 Tabel 2. 2. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama .................... 31 Tabel 2. 3. Perhitungan TF-IDF ................................................................................... 31 Tabel 2. 4. Frekuensi kemunculan kata dalam dokumen ................................................ 33 Tabel 2. 5. Hasil pre - processing dokumen kata kunci .................................................. 34 Tabel 2. 6. Hasil perhitungan TF -IDF .......................................................................... 35

Tabel 3. 1. Kandidat Concept Dokumen 1 .................................................................... 40 Tabel 3. 2. Kandidat Concept Dokumen 2 .................................................................... 41 Tabel 3. 3. Kandidat Concept Dokumen 3 .................................................................... 41 Tabel 3. 4. Concept Dokumen 1.................................................................................. 42 Tabel 3. 5. Concept Dokumen 2.................................................................................. 42 Tabel 3. 6. Tabel Frekuensi Concept (CF) ..................................................................... 43 Tabel 3. 7. Tabel Frekuensi Jumlah Dokumen yang Mengandung Kemunculan Concept yang Sama (DF) ............................................................................................................... 44 Tabel 3. 8. Tabel Perhitungan Nilai CF-IDF ................................................................... 47 Tabel 3. 9. Penentuan Kategori Berdasarkan Sub Kategori ............................................. 52 Tabel 3. 10. Penentuan Kategori berdasarkan kategori utama ........................................ 53 Tabel 3. 11. Tabel Frekuensi Concept (CF) ................................................................... 55 Tabel 3. 12. Tabel Frekuensi Jumlah Dokumen yang MengandungKemunculan Concept yang Sama (DF) ............................................................................................................... 56 Tabel 3. 13. Tabel Perhitungan Nilai CF-IDF ................................................................. 57

Tabel 4. 1. Concept Dokumen Uji ................................................................................ 60 Tabel 4. 2. Concept Pada Dokumen Pertama (P1) ......................................................... 64 Tabel 4. 3. Concept Pada Dokumen Kedua (P2) ............................................................ 64 Tabel 4. 4. Concept Pada Dokumen Ketiga (P3) ............................................................ 65 Tabel 4. 5. Tabel Perhitungan Nilai CF-IDF ................................................................... 66 Tabel 4. 6. Bobot Kemunculan Concept Pada Setiap Dokumen ........................................ 68 Tabel 4. 7. Hasil Perhitungan ..................................................................................... 68 Tabel 4. 8. Hasil Perhitungan Yang Sudah Diurutkan ..................................................... 68 Tabel 4. 9. Perhitungan Vector Space Model ................................................................. 69 Tabel 4. 10. Perhitungan Nilai Cosinus Vector Space Model ............................................ 70 Tabel 4. 11. Urutan Perhitungan Nilai Cosinus Vector Space Model .................................. 70 Tabel 4. 12. Dokumen Uji .......................................................................................... 71 Tabel 4. 13. Dokumen Banding................................................................................... 71 Tabel 4. 14. Perhitungan Bobot CF-IDF ........................................................................ 76 Tabel 4. 15. Perhitungan Vector Space Model ............................................................... 80 Tabel 4. 16. Usulan Dosen Pembimbing ....................................................................... 83

vi

DAFTAR GAMBAR

Gambar 1. 1. Komponen Data Warehouse ..................................................................... 3 Gambar 1. 2. Multidimensi data warehouse ........................................................................ 4 Gambar 1. 3. Arsitektur Data Warehouse Two Tier .......................................................... 6 Gambar 1. 4.Arsitektur Data Warehouse Three Tier ........................................................ 7 Gambar 1. 5. Arsitektur Bottom Up ............................................................................... 8 Gambar 1. 6. Bentuk data warehouse fungsional .......................................................... 11 Gambar 1. 7. Bentuk data warehouse terpusat ............................................................. 12 Gambar 1. 8. Distributed Data Warehouse ................................................................... 12 Gambar 1. 9. Model data OLTP ................................................................................... 15 Gambar 1. 10. Dimension Model ................................................................................. 15 Gambar 1. 11. Contoh Proses Case Folding .................................................................. 24 Gambar 1. 12. Contoh Proses Tokenizing ..................................................................... 24 Gambar 1. 13. Contoh Proses Filtering ........................................................................ 25

Gambar 2. 1. Case Folding D1 ................................................................................... 27 Gambar 2. 2. Case Folding D2 ................................................................................... 27 Gambar 2. 3. Case Folding D3 ................................................................................... 27 Gambar 2. 4. Case Folding D4 ................................................................................... 27 Gambar 2. 5. Case Folding D5 ................................................................................... 28 Gambar 2. 6. Case Folding D6 ................................................................................... 28 Gambar 2. 7. Case Folding D7 ................................................................................... 28 Gambar 2. 8. Tokenizing D1...................................................................................... 28 Gambar 2. 9. Tokenizing D2...................................................................................... 28 Gambar 2. 10. Tokenizing D3 .................................................................................... 28 Gambar 2. 11. Tokenizing D4 .................................................................................... 29 Gambar 2. 12. Tokenizing D5 .................................................................................... 29 Gambar 2. 13. Tokenizing D6 .................................................................................... 29 Gambar 2. 14. Tokenizing D7 .................................................................................... 29 Gambar 2. 15. Filtering D1 ....................................................................................... 29 Gambar 2. 16. Filtering D2 ....................................................................................... 29 Gambar 2. 17. Filtering D3 ....................................................................................... 30 Gambar 2. 18. Filtering D4 ....................................................................................... 30 Gambar 2. 19. Filtering D5 ....................................................................................... 30 Gambar 2. 20. Filtering D6 ....................................................................................... 30 Gambar 2. 21. Filtering D7 ....................................................................................... 30

Gambar 3. 1. Proses case folding dokumen 1 ............................................................... 39 Gambar 3. 2. Proses case folding dokumen 2 ............................................................... 39 Gambar 3. 3. Proses case folding dokumen 3 ............................................................... 39 Gambar 3. 4. Proses stopword removal dokumen 1....................................................... 39 Gambar 3. 5. Proses stopword removal dokumen 2....................................................... 40 Gambar 3. 6. Proses stopword removal dokumen 3....................................................... 40

vii

Gambar 3. 7. Proses case folding dokumen 1 ............................................................... 49 Gambar 3. 8. Proses case folding dokumen 2 ............................................................... 49 Gambar 3. 9. Proses case folding dokumen 3 ............................................................... 49 Gambar 3. 10. Proses case folding dokumen 4 ............................................................. 49 Gambar 3. 11. Proses parsing dokumen 1 .................................................................... 50 Gambar 3. 12. Proses parsing dokumen 2 .................................................................... 50 Gambar 3. 13. Proses parsing dokumen 3 .................................................................... 50 Gambar 3. 14. proses parsing dokumen 4.................................................................... 51 Gambar 3. 15. Proses stopword removal dokumen 1 ..................................................... 51 Gambar 3. 16. Proses stopword removal dokumen 2 ..................................................... 51 Gambar 3. 17. Proses stopword removal dokumen 3 ..................................................... 52

1

BAB 1. DATA WAREHOUSE

1.1. Pendahuluan

Data warehouse adalah basis data yang menyimpan data sekarang dan masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi dan ditujukan untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan. (Mannino, 2007)

1.2. Definisi

Sebuah data warehouse adalah tempat penyimpanan utama data sejarah organisasi, atau memory corporate; untuk mengetahui kapan terjadi penjualan yang paling tinggi pada tahun 1992, atau bagaimana alasan yang dikeluarkan oleh karyawan yang mengajukan cuti seminggu sebelum Hari raya Idul Fitri tahun 2000, organisasi akan menggunakan informasi yang terdapat dalam data warehouse. Dengan kata lain, sebuah data warehouse berisi data dasar untuk pihak manajemen dalam sistem pengambilan keputusan (decision support system).

Menurut Bill Inmon (Inmon, 2002) mendefinisikan data warehouse mempunyai karakteristik :

- Subject-Oriented, artinya data di dalam database di organisasikan sehingga semua elemen data berkaitan dengan kejadian di dunia nyata atau objeknya berhubungan secara menyeluruh,

- Time-variant, artinya bahwa setiap perubahan data dalam database selalu dilacak dan disimpan sehingga dalam laporannya dapat diperlihatkan hasil perubahannya setiap waktu,

- Non-volatile, artinya data dalam database tidak pernah di ganti dan dihapus, tetapi disimpan untuk laporan dimasa datang,

- Integrated, artinya data dalam database berisi data dari sebagian besar / seluruh data aplikasi operasional organisasi, dan kemudian data tersebut dibuat menjadi konsisten.

Menurut Vidette Poe, data warehousing merupakan basisdata yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Menurut Paul Lane, data warehousing merupakan basisdata relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehousing memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber. Data warehousing merupakan metode dalam perancangan basisdata, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehousing adalah basisdata, tapi perancangan data warehousing dan basisdata sangat berbeda. Dalam perancangan basisdata tradisional menggunakan normalisasi, sedangkan pada data warehousing normalisasi bukanlah cara yang terbaik. Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan untuk melaksanakan proses transaksi. Data warehouse hanya berisi informasi-informasi yang relevan bagi kebutuhan pemakai yang dipakai untuk pengambilan keputusan.

Pada tabel di bawah ini diperlihatkan perbedaan sistem OLTP (Online transaction processing atau sistem yang dapat digunakan untuk memproses transaksi secara online) dan sistem Data warehouse.

2

Tabel 1. 1. Perbandingan OLTP dengan Data Warehouse

OLTP Data warehouse

- menangani data saat ini - data bisa saja disimpan pada beberapa

platform - data diorganisasikan berdasarkan

fungsi atau operasi seperti penjualan, produksi dan pemrosesan pesanan

- pemrosesan bersifat berulang - untuk mendukung keputusan harian - melayani banyak pemakai operasional - berorientasi pada transaksi

- lebih cenderung menangani data masa lalu - data disimpan dalam satu platform - data diorganisasikan menurut subjek seperti

pelanggan atau produk - pemrosesan sewaktu-waktu, tak terstruktur

dan bersifat heuristik - untuk mendukung keputusan yang strategis - untuk mendukung pemakai manajerial yang

berjumlah relatif sedikit - berorientasi pada analisis

1.3. Sejarah Data Warehouse

Data warehouse menjadi sebuah tipe yang berbeda dari database komputer sejak akhir 1980 dan awal 1990. Data warehouse dikembangkan untuk menemukan permintaan analisis informasi yang berkembang untuk pihak manajemen yang tidak dapat ditemukan pada sistem operasional. Sistem operasional tidak dapat digunakan untuk menemukan kebutuhan ini dengan beberapa alasan :

- rancangan database dari sistem operasional tidak dapat dioptimalkan untuk menganalisa dan pelaporan informasi,

- Kebanyakan organisasi mempunyai lebih dari satu sistem operasional, sehingga laporan perusahaan secara keseluruhan tidak dapat didukung oleh satu buah sistem,

- Pengembangan laporan dalam sistem operasinal sering memerlukan waktu yang lama dan harga yang mahal dalam pembuatannya,

Sebagai hasil, database komputer yang terpisah pertama kali dibangun secara spesial dirancang untuk mendukung informasi pihak manajemen dan keperluan analisa. Dengan data warehousse memungkinkan untuk menampilkan data dari daerah sumber data yang berbeda, seperti dari komputer mainframe, mini sama baiknya dengan komputer pribadi dan software otomasi perkantoran seperti spreadsheet, dan mengintegrasikan semua informasi tersebut dalam satu tempat. Sepasang kapabilitas dari sistem komputer type ini adalah sebagai alat pelaporan yang sangat mudah digunakan dan terpisah dari efek operasionalnya.

Sejalan dengan perkembangan teknologi dan kebutuhan pemakai yang berkembang pula, data warehouse mempunyai tahap perkembangan : - Database operasional secara offline Data warehouse pada tahap inisial dikembangkan

dengan cara menyalin database secara sederhana dari operasional sistem ke offline server dimana pemanggilan proses pelaporan tidak berdampak terhadap unjuk kerja operasional sistem.

- Offline Data Warehouse, Data warehouse pada tahap evolusi di update secara regular (biasanya per hari / per minggu / per bulan) berdasarkan operasional sistem dan data disimpan dalam laporan yang terintegrasi yang berorientasi terhadap struktur data,

- Real time data warehouse, Data warehaouse pada tahap ini selalu di update berdasarkan transaksi atau stiap kejadian, setiap waktu operasional sistem memeperlihatkan transaksi yang terjadi,

- Integrated data warehouse, data warehouse pada tahap ini digunakan untuk menciptakan aktivitas atau transaksi yang sudah lewat ke dlaam opersional sistem untuk digunakan dalam kegiatan keseharian dari organisasi.

3

1.4. Komponen dari Data Warehouse

Komponen utama dari kebanyakan data warehouse diperlihatkan pada gambar 1.1.

Gambar 1. 1. Komponen Data Warehouse

- Data Source (Sumber data) Sumber data berhubungan dengan setiap tempat penyimpanan elektronik yang berisi data yang digunakan oleh manajemen untuk di analisa. Sumber data bagi Data warehouse adalah data operasional dalam organisasi, misalnya basis data pelanggan dan produk dan sumber eksternal yang diperoleh misalnya melalui internet, basis data komersial, basis data pemasok atau pelanggan. Bergagai data yang berasal dari sumber yang digabungkan dan diproses lebih lanjut oleh manajer Data warehouse dan disimpan dalam basis data tersendiri.Selanjutnya perangkat lunak seperti OLAP dan Data mining dapat digunakan oleh pamakai untuk mengakses Data warehouse.

- Data Transformation Layer data transformasi menerima data dari layer sumber data, bersih, terstandarisasi, kemudian dmasukan ke dalam tempat penyimpanan. Hal ini biasa dinamakan staging data. Data dilewatkan melalui database sementara selama dalam proses transformasi.

- Data warehouse Data warehouse memerlukan lebih dari hanya relational database, data warehouse harus diorganisasikan sedemikian rupa sehingga dapat menghasilkan informasi yang terstruktur dengan baik, bukan hanya pertanyaan dan laporan, tetapi juga teknik analisis yang baik seperti data mining. Kebanyakan data warehouse memiliki informasi paling sedikit untuk satu tahun dan kadang-kadang bertahan sampai 50 tahun, tergantung dari kebutuhan data bisnis/operasi.

Source Data Layer

Meta data layer

Operations layer

Data Transformation

Layer

Reporting Layer

Data Warehouse Layer

4

- Reporting Data dalam data warehouse harus selalu tersedia untuk staf organisasi. Banyak perangkat lunak aplikasi yang menampilkan fungsi ini atau pelaporan yang dapat disesuaikan. Contoh perangkat lunak untuk pelaporan :

Business intelligence tools: Software ini adalah aplikasi yang digunakan menyederhanakan pengembangan proses dan produksi dari laporan bisnis berdasarkan data yang ada dalam data warehouse

Executive information systems : Software ini adalah aplikasi yang digunakan untuk menampilkan ukuran bisnis yang rumit dan informasi secara grafik untuk memudahkan pemahaman

OLAP Tools: OLAP tools adalah data multidimensi yang terstruktur. Pengguna diperbolehkan untuk memilih dimensi mana yang ingin dilihat

Data Mining: Data mining tools adalah Software yang memberikan keleluasaan kepada penggunannya untuk menampilkan data secara detail dalam bentuk perhitungan matematik dan statistik dalam data warehouse untuk mendeteksi kecenderungan data yang ada, mengidentifikasi pola dan menganalisa data.

- Metadata Metadata atau data tentang data digunakan tidak hanya untuk memberitahu operator atau pengguna dari data warehouse tentang status data an informasi yang ada di dalamnya, tetapi juga integrasi darimana data datang dan alat untuk mengupdatenya. Contoh dari metadata data warehouse termasuk tabel dan nama kolom, deskripsinya dan koneksinya dengan bisnis.

- Operasi-operasi Operasi data warehouse terdiri dari proses pemanggilan, manipulasi dan extracting data dari data warehouse. Operasi yang dimaksud juga meliputi manajemen pemakai, keamanan, dan manajemen kapasitas.

Data warehouse bersifat multidimensional yang berarti bahwa terdapat banyak lapisan kolom dan baris. Sebagai contoh, perhatikan gambar dibawah berdasarkan sususnan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti berapakah jumlah produk 1 terjual di jawa barat pada tahun n-2 ?

Tahun n 4 Tahun n 3 Tahun n 2 Tahun n 1 Jawa barat Jawa tengah

Produk 3 Produk 2 Produk 1

Gambar 1. 2. Multidimensi data warehouse

5

Mengingat sistem data warehouse memerlukan pemrosesan data dengan volume yang besar, sistem ini biasanya diterapkan dengan menggunakan teknologi pemrosesan SMP dan MPP.

SMP (symetric multiprocessor ) Masing-masing prosesor bekerja sendiiri-sendiri atau tidak aling berkaitan. MPP (Massively Pararell processor) Mengandung ratusan bahkan ribuan prosesor yang saling berinteraksi dengan pendekatan jaringan syaraf tiruan. Data warehouse dapat dibangun sendiri dengan menggunakan perangkat pengembangan aplikasi ataupun dengan menggunakan perangkat lunak khusus yang ditujukan untuk menangani hal ini.

Beberapa contoh perangkat lunak yang digunakan untuk administrasi dan manajemen data warehouse :

- HP Intellegent warehouse (Hewlwt Packard) - Flowmark (IBM) - Source Point (Software AG)

Petunjuk untuk membangun data warehouse dijelaskan oleh Loudon & Loudon (1998 ) sebagai berikut :

1. menentukan misi dan sasaran bisnis bagi pembentukan data warehouse, 2. mengidentifikasi data dari basis data operasional dan sumber lain yang diperlukan bagi

data warehouse 3. menentukan item-item data dalam perusahaan dengan melakukan standarisasi

penamaan data dan maknanya, 4. merancang basis data untuk data warehouse, 5. membangun kebijakan dalam mengarsipkan data lama sehingga ruang penyimpanan tak

menjadi terlalu besar dan agar pengambilan keputusan tidak menjadi terlalu lamban, 6. menarik data produksi (operasional) dan meletakan ke basis data milik data warehouse.

Data Mart adalah bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membedakan data mart dengan data warehouse adalah sbb :

- data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang terkait dalam sebuah departemen atau fungsi bisnis,

- data mart biasanya tidak mengandung data operasional yang rinci seperti data warehouse - data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse.

Data mart lebih mudah dipahami dan dinavigasi. Beberapa contoh produk data mart :

- Smart Mart (IBM) - Visual Warehouse (IBM) - Power Mart (Informatica)

Penarikan data operasional ke data warehouse dilakukan secara berkala, misalnya satu kali dalam sehari.

6

1.5. Arsitektur untuk Data Warehouse

Meskipun potensi keuntungan yang didapat dari data warehouse sangat besar, banyak proyek data warehouse yang gagal karena perencanaan yang tidak matang. Proyek data warehouse memerlukan usaha yang besar dari semua bagian organisasi yang terlibat. Untuk kebanyakan perusahaan, arsitektur two tier dan three tier sangat cocok untuk diterapkan. Arsitektur two tier Dalam arsitektur ini, data operasional ditranformsikan dan ditransfer ke data warehouse. Sebuah layer server yang terpisah digunakan untuk mendukung kemungkinan munculnya aktivitas yang komplek dari proses transformasi. Model ini dapat mempunyai masalah dalam unjuk kerja jika data yang dikelola sangat besar dan data intensiv digunakan untuk mendukung keputusan. Untuk mengatasi kelemahan model two tier, dibuatlah arsitektur tri tier.

Gambar 1. 3. Arsitektur Data Warehouse Two Tier

Sumber Data Internal

- perangkat EIS - perangkat

pelaporan - perangkat

pengembangan aplikasi

OLAP

Data Mining

Sumber data Operasional 1


Sumber data Eksternal

Data warehouse

Data warehouse

7

Gambar 1. 4.Arsitektur Data Warehouse Three Tier





OLAP

Data Mining




Server

Data warehouse

Data warehouse

Data

Mart Tier

Data warehouse

Data

Mart Tier

Data warehouse

8

Gambar 1. 5. Arsitektur Bottom Up

1.6. On line Analytical Processing (OLAP)

On line Analytical Processing (OLAP) adalah suatu jenis pemrosesan yang memanipulasi dan menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali dinamakan analisis data multidimensi.

Yang dimaksud dengan data multidimensi adalah data yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran.

Contoh : atribut dimensi adalah Kota dan Triwulan, sedangkan contoh atribut ukuran adalah jumlah uang.

Tabel 1. 2. Data Multidimensi

Kota KUDUS MAGELANG SEMARANG ....

Triwulan

1 6.000.000 8.000.000 16.000.000

2 4.500.000 3.500.000 14.500.000

3 7.600.000 5.600.000 17.600.000

OLAP dapat digunakan untuk melakukan konsolidasi, dril-down dan slicing and dicing.





OLAP

Sumber data Operasional

1

Sumber data Operasional

2


Data mart tier

Data mart

Data mart tier

Data mart

9

Konsolidasi melibatkan pengelompokan data. Sebagai contoh, kantor-kantor cabang dapat dikelompokan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan dsb. Sering istilah Roll-Up digunakan untuk menyatakan konsolidasi.

Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi sehingga memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail.

Slicing and dicing (atau dikenal dengan istilah pivoting) menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Sebagai contoh, dapat diperoleh data pendapatan berdasarkan semua kantor cabang dalam setiap kota. Contoh yang lain, menggambarkan pendapatan berdasarkan produk sirup dan rasa masing-masing sirup.

Tabel di bawah memperlihatkan suatu bentuk tabel yang sering disebut cross tabulation atau cross tab atau tabel pivoting. Yang dimaksud dengan cross tabulation adalah sebuah tabel dengan nilai sebuah atribut(A) membentuk judul baris dan atribut yang lain (B) membentuk judul kolom, dan nilai masing-masing sel yang merupakan persilangan kedua atribut menyatakan nilai perpaduan untuk kedua atribut.

Tabel 1. 3. Cross tabulation pendapatan berdasarkan jenis dan rasa

Rasa strawberi mangga nenas Total

Sirup

Biasa 3.500.000 1.750.000 500.000 5.750.000

Rendah Kalori 2.300.000 1.500.000 250.000 4.050.000

TOTAL 5.800.000 3.250.000 750.000 9.800.000

Tabel diatas dibentuk dari data asli seperti pada tabel 1.4.

Tabel 1. 4. Penjualan Sirup

Sirup Rasa Pendapatan

Biasa Strawberi 3.500.000

Biasa Mangga 1.750.000

Biasa Nenas 500.000

Rendah Kalori Strawberi 2.300.000

Rendah Kalori Mangga 1.500.000

Rendah Kalori Nenas 250.000

Untuk menggambarkan drill-down, data dapat disusun dalam hirarki seperti pada gambar d. Gambar disebelah kiri menunjukan hirarki dengan basis waktu. Sebagai contoh, seorang pemakai dapat melihat data berdasarkan tahun. Jika dikehendaki, maka ia bisa beralih ke hal yang lebih detail lagi, yaitu berdasarkan tri wulan. Begitu juga dari titik pandang tri wulan, hal yang lebih detail

10

bisa diperoleh lagi (yaitu menurut bulan), dan seterusnya. Adapun gambar di sebelah kanan menunjukan hirarki dengan batas waktu lokasi.

Perangkat lunak OLAP adalah :

- Express Server (oracle) - Power Olay (cagnes software) - Meta Cebe (informix/stanford technology grup) - High Gate Project (sybase)

1.7. Membangun Data Warehouse

a. Menentukan Bentuk Data Warehouse

Data warehouse memiliki berbagai macam bentuk yang sering digunakan. Jadi sebelum membangun suatu data warehouse kita harus memutuskan bentuk data warehouse seperti apa yang dibutuhkan oleh aplikasi yang kita rancang.

b. Anatomi Data Warehouse

Penerapan awal dari arsitektur data warehouse dibuat berdasarkan konsep bahwa data warehouse mengambil data dari berbagai sumber dan memindahkannya ke dalam pusat pengumpulan data yang besar. Konsep ini sebenarnya lebih cenderung kepada sebuah lingkungan mainframe yang terpusat.

Tahunan

Tri wulan

Bulan Nama Hari

tanggal

Wilayah

Negara

Provinsi

Kota

Kecamatan

(ii) Hirarki lokasi (i) Hirarki waktu

11

Keunggulan teknologi Client Server memungkinkan data warehouse diterapkan dalam berbagai macam cara untuk menampung kebutuhan pemakai sistem secara lebih proposional. Dalam suatu kasus, misalkan saja pemakai tertentu perlu menggabungkan data dari sebuah sistem pengumpulan data yang statis dengan data dari sistem operasional yang dinamis hanya dengan sebuah query saja. Berikut ini adalah tiga jenis dasar sistem Data Warehouse :

i. Functional Data Warehouse (Data Warehouse Fungsional)

Kata operasional disini merupakan database yang diperoleh dari kegiatan sehari-hari. Data warehouse dibuat lebih dari satu dan dikelompokkan berdasar fungsi-fungsi yang ada di dalam perusahaan seperti fungsi keuangan(financial),marketing,personalia dan lain-lain. Keuntungan dari bentuk data warehouse seperti ini adalah, sistem mudah dibangun dengan biaya relatif murah sedangkan kerugiannya adalah resiko kehilangan konsistensi data dan terbatasnya kemampuan dalam pengumpulan data bagi pengguna.

Gambar 1. 6. Bentuk data warehouse fungsional

ii. Centralized Datawarehouse (Data Warehouse Terpusat)

Bentuk ini terlihat seperti bentuk data warehouse fungsional, namun terlebih dahulu sumber data dikumpulkan dalam satu tempat terpusat, kemudian data disebar ke dalam fungsinya masing-masing, sesuai kebutuhan persuhaan. Data warehouse terpusat ini, biasa digunakan oleh perusahaan yang belum memiliki jaringan eksternal.

12

Keuntungan dari bentuk ini adalah data benar-benar terpadu karena konsistensinya yang tinggi sedang kerugiannya adalah biaya yang mahal serta memerlukan waktu yang cukup lama untuk membangunnya.

Gambar 1. 7. Bentuk data warehouse terpusat

iii. Distributed Data Warehouse (Data Warehouse terdistribusi)

Pada data warehouse terdistribusi ini, digunakan gateway yang berfungsi sebagai jembatan penghubung antara data warehouse dengan workstation yang menggunakan sistem beraneka ragam. Dengan sistem terdistribusi seperti ini memungkinkan perusahaan dapat mengakses sumber data yang berada diluar lokasi perusahaan(eksternal). Keuntungannya adalah data tetap konsisten karena sebelum data digunakan data terlebih dahulu di sesuaikan atau mengalami proses sinkronisasi. Sedangkan kerugiannya adalah lebih kompleks untuk diterapkan karena sistem operasi dikelola secara terpisah juga biaya nya yang paling mahal dibandingkan dengan dua bentuk data warehouse lainnya.

Gambar 1. 8. Distributed Data Warehouse

13

1.8. Metodologi Perancangan Database untuk Data Warehouse

Menurut Kimball (Kimball & Merz, 1998) ada sembilan tahap metodologi dalam perancangan database untuk data warehouse, yaitu : Langkah 1 : Pemilihan proses Data mart yang pertama kali dibangun haruslah data mart yang dapat dikirim tepat

waktu dan dapat menjawab semua pertanyaan bisnis yang penting Pilihan terbaik untuk data mart yang pertama adalah yang berhubungan dengan sales,

misal property sales, property leasing,property advertising. Langkah 2 : Pemilihan sumber Untuk memutuskan secara pasti apa yang diwakili atau direpresentasikan oleh sebuah

tabel fakta. Misal, jika sumber dari sebuah tabel fakta properti sale adalah properti sale individual

maka sumber dari sebuah dimensi pelanggan berisi rincian pelanggan yang membeli properti utama

Langkah 3 : Mengidentifikasi dimensi Set dimensi yang dibangun dengan baik, memberikan kemudahan untuk memahami dan

menggunakan data mart Dimensi ini penting untuk menggambarkan fakta-fakta yang terdapat pada tabel fakta Misal, setiap data pelanggan pada tabel dimensi pembeli dilengkapi dengan

id_pelanggan,no_pelanggan,tipe_pelanggan,tempat_tinggal, dan lain sebagainya. Jika ada dimensi yang muncul pada dua data mart,kedua data mart tersebut harus

berdimensi sama,atau paling tidak salah satunya berupa subset matematis dari yang lainnya.

Jika sebuah dimensi digunakan pada dua data mart atau lebih,dan dimensi ini tidak disinkronisasi,maka keseluruhan data warehouse akan gagal, karena dua data mart tidak bisa digunakan secara bersama-sama

Langkah 4 : Pemilihan fakta Sumber dari sebuah tabel fakta menentukan fakta mana yang bisa digunakan dalam

data mart. Semua fakta harus diekspresikan pada tingkat yang telah ditentukan oleh sumber Langkah 5 : Menyimpan pre-kalkulasi di tabel fakta Hal ini terjadi apabila fakta kehilangan statement Langkah 6 : Melengkapi tabel dimensi Pada tahap ini kita menambahkan keterangan selengkap-lengkapnya pada tabel dimensi Keterangannya harus bersifat intuitif dan mudah dipahami oleh pengguna Langkah 7 : Pemilihan durasi database Misalnya pada suatu perusahaan asuransi, mengharuskan data disimpan selama 10

tahun atau lebih Langkah 8 : Menelusuri perubahan dimensi yang perlahan Ada tiga tipe perubahan dimensi yang perlahan, yaitu :

Tipe 1. Atribut dimensi yang telah berubah tertulis ulang Tipe 2. Atribut dimensi yang telah berubah menimbulkan sebuah dimensi baru Tipe 3. Atribut dimensi yang telah berubah menimbulkan alternatif sehingga nilai atribut

lama dan yang baru dapat diakses secara bersama pada dimensi yang sama.

14

Langkah 9 : Menentukan prioritas dan mode query Pada tahap ini kita menggunakan perancangan fisik. Dengan langkah-langkah tadi, seharusnya kita bisa membangun sebuah data warehouse yang baik.

1.9. Model untuk Data Warehouse

Berikut di bawah ini adalah penjelasan dari model untuk data warehouse

a. Model Dimensional

Model dimensional merupakan rancangan logikal yang bertujuan untuk menampilkan data dalam bentuk standar dan intuitif yang memperbolehkan akses dengan performa yang tinggi. Model dimensional menggunakan konsep model hubungan antar entity (ER) dengan beberapa batasan yang penting. Setiap model dimensi terdiri dari sebuah tabel dengan sebuah komposit primary key, disebut dengan table fakta, dan satu set table yang lebih kecil disebut table dimensi. Setiap table dimensi memiliki sebuah simple primary key yang merespon tepat pada satu komponen primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri dari dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau join bintang. Fitur terpenting dalam model dimensional ini adalah semua natural keys diganti dengan kunci pengganti(surrogate keys). Maksudnya yaitu setiap kali join antar table fakta dengan table dimensi selalu didasari kunci pengganti. Kegunaan dari kunci pengganti adalah memperbolehkan data pada data warehouse untuk memiliki beberapa kebebasan dalam penggunaan data, tidak seperti halnya yang diproduksi oleh sistem OLTP. Sebuah sistem OLTP memerlukan normalisasi untuk mengurangi redudansi, validasi untuk input data, mendukung volume yang besar dari transaksi yang bergerak sangat cepat. Model OLTP sering terlihat seperti jaring laba-laba yang terdiri atas ratusan bahkan ribuan tabel sehingga sulit untuk dimengerti. Sebaliknya, dimension model yang sering digunakan pada data warehouse adalah skema bintang atau snowflake yang mudah dimengerti dan sesuai dengan kebutuhan bisnis, mendukung query sederhana dan menyediakan performa query yang superior dengan meminimalisasi tabel-tabel join. Berikut contoh perbandingan diagram antara model data OLTP dengan dimension table data warehouse :

15

Gambar 1. 9. Model data OLTP

Gambar 1. 10. Dimension Model

16

Schema Bintang

Skema bintang merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data.

Jenis-jenis Skema Bintang

1. Skema bintang sederhana Dalam skema ini, setiap table harus memiliki primary key yang terdiri dari satu kolom atau lebih. Primary key dari table fakta terdiri dari satu atau lebih foreign key.Foreign key merupakan primary key pada table lain.

17

2. Skema bintang dengan banyak table fakta

Skema bintang juga bisa terdiri dari satu atau lebih table fakta. Dikarenakan karena table fakta tersebut ada banyak, misalnya disamping penjualan terdapat table fakta forecasting dan result. Walaupun terdapat lebih dari satu table fakta, mereka tetap menggunakan table dimensi bersama-sama.

Adapun ketentuan dalam pembacaan skema bintang adalah : Bagian yang ada di bawah judul tabel merupakan kolom-kolom tabel tersebut Primary key dan Foreign key diberi kotak Primary key diarsir sedang Foreign key yang bukan primary tidak Foreign key yang berhubungan ditunjukkan dengan garis yang menghubungkan

tabel.

Kolom yang bukan kunci disebut kolom data pada table fakta dan atribut pada table dimensi

b. Snowflake Schema

Merupakan varian dari skema bintang dimana table-table dimensi tidak terdapat data yang di denormalisasi. Dengan kata lain satu atau lebih table dimensi tidak bergabung secara langsung kepada table fakta tapi pada table dimensi lainnya. Sebagai contoh, sebuah dimensi yang mendeskripsikan produk dapat dipisahkan menjadi tiga table (snowflaked) seperti contoh dibawah ini :

18

Snowflake Schemes

1.10. Star atau Snowflake

Keduanya merupakan model-model dimensional, perbedaannya terletak pada implementasi fisikal. Skema snowflake memberi kemudahan pada perawatan dimensi, dikarenakan strukturnya yang lebih normalisasi. Sedangkan skema bintang lebih efisien serta sederhana dalam membuat query dan mudah diakses secara langsung oleh pengguna. Adapun starflake merupakan gabungan diantara keduanya. Keuntungan menggunakan masing-masing model tersebut dalam data warehouse antara lain : Efisien dalam hal mengakses data Dapat beradaptasi terhadap kebutuhan-kebutuhan user Bersifat fleksibel terhadap perubahan yang terjadi khususnya perubahan yang mengarah

pada perkembangan Memiliki kemampuan dalam memodelkan situasi bisnis secara umum Meskipun skema yang dihasilkan sangat kompleks, tetapi pemrosesan query dapat

diperkirakan, hal ini dikarenakan pada level terendah, setiap table fakta harus di query secara independen.

1.11. Kesimpulan Karakteristik dari data warehouse : berorientasi subjek, terintegrasi, perubahan dilakukan

setiap saat, setiap perubahan dicatat dan tidak pernah ada yang dihapus. Arsitektur untuk membangun data warehouse : two tier, three tier, bottom up. Bentuk data multidimensi : dimensi, ukuran, tingkatan, berurutan sesuai tipe data. Operator multidimensi : slice, dice, drill-down, roll-up, pivot

19

BAB 2 DATA MINING

2.1. Pendahuluan

Secara umum, data mining adalah proses dari analisa data dari persfektif yang berbeda dan rangkumannya sehingga menjadi informasi yang sangat berguna. Informasi yang dihasilkan dapat digunakan untuk meningkatkan keuntungan, memotong biaya atau keduanya.

Data mining: adalah proses dari pencarian untuk mengefisienkan pola yang tidak diketahui secara berkelanjutan. Hubungan dan aturan dalam database yang besar dan dalam data warehouse.

Goal: membantu manusia menganalisa data untuk memahaminya. Perangkat lunak data mining adalah salah satu alat analisa yang digunakan untuk menganalisa data. Dengan perangkat lunak data mining pengguna diperbolehkan untuk menganalisa data dari dimensi yang berbeda atau sudut pandang, kategaori dan ringkasan dari hubungan yang teridentifikasi. Secara teknik, data mining adalah proses unutk mencari keterkaitan atau pola diantara beberapa field dalam relasi basis data yang besar.

2.2. Inovasi yang berkelanjutan

Beberapa perusahan telah menggunakan komputer secara maksimal untuk menyaring data supermarket dari sejumlah data dan laporan penelitian pasar selama beberapa tahun belakangan ini. Inovasi yang berkelanjutan dalam pemrosesan dengan menggunakan komputer, kapasitas penyimpanan dan software secara statistik secara dramatis meningkat dalam akurasi dari analisis untuk menurunkan biaya operasional.

Contoh Sebagai contoh, di grocery Timur tengah data mining yang menggunakan oracle digunakan untuk menganalisa pola pembelian didaerahnya. Hasil, analisa menemukan bahwa ketika para pria membeli popok bayi pada hari rabu dan sabtu, mereka juga selalu membeli bir. Selanjutnya analisa tersebut memperlihatkan juga bahwa pembelian banyak dilakukan pada hari Sabtu. Pada hari rabu, mereka hanya membeli sedikit item. Penjual menyimpulkan bahwa mereka membeli bir untuk persiapan akhir minggu.

Dengan penemuan ini, dapat dilakukan berbagai variasi untuk meningkatkan pendapatan. Misalnya, penjual menempatkan display bir dekat dengan popok, dan yakinkan pembeli bahwa mereka membeli popok dan bir dengan harga yang murah.

2.3. Data, Informasi dan Pengetahuan

Data

Data adalah fakta, angka atau teks yang dapat diproses oleh computer. Pada saat ini, perusahaan mengakumulasikan secara cepat sejumlah pertumbuhan dari data dalam format dan database yang berbeda.

Hal ini termasuk data operasional transaksi seperti penjualan, biaya, inventori, penggajian dan akunting, non operasional data seperti data penjualan industri, ramaland ata, data makro

20

ekonomi, meta data - data tentang data itu sendiri seperti perancangan database atau definisi data dictionary. Informasi Pola, keterkaitan atau hubungan diantara semua data sehingga dapat menghasilkan informasi. Sebagai contoh, analisa terhadap data distribusi transaksi point of sale dapat menghasilkan informasi produk apa yang dapat dijual dan kapan waktunya. Pengetahuan Informasi dapat dikonversikan menjadi pengetahuan tentang pola yang telah terjadi dan trend yang akan datang. Sebagai contoh, ringkasan informasi pada distribusi penjualan supermarket dapat dianalisa dengan mudah untuk melakukan usaha promosi yang disesuaikan dengan tingkah laku pembeli. Dengan demikian pabrik dan retailer dapat memperkirakan item apa yang dapat diterima.

2.4. Apa yang dapat dilakukan dengan data mining ?

Data mining pada saat ini menjadi keperluan utama untuk perusahaan yang memperhatikan betul pada konsumennya, finansial, komunikasi dan organisasi pemasarannya.

Dengan data mining, pihak perusahaan dapat menperkirakan hubungan faktor internal perusahaan seperti harga, posisi produk atau kemampuan staff dengan faktor eksternal seperti indikator ekonomi, kompetisi dan demografi konsumen. Data mining juga dapat memperkirakan akibat dari penjualan, kepuasan pelanggan, dll.

Akhirnya, data mining dapat digunakan melakukan proses "drill down" dari informasi yang singkat menjadi transaksi data secara detail.

Dengan data mining, distributor dapat menggunakan pencatatan point-of-sale pembelian para customer untuk mengirim promosi yang targetnnya berdasarkan kepada sejarah pembelanjaan perseorangan.

Dengan menggunakan demografi data mining, distributor dapat mengembangkan produk dan promosinya untuk segmen konsumen tertentu saja.

Sebagai contoh, Blockbuster Entertainment mencari data secara individual untuk orang yang meminjam berdasarkan film kesukaannya. Dalam promosinya, pihak perusahaan dapat memberikan masukan film yang dapat dipilih untuk setiap orang yang ada. Film yang diusulkan adalah hasil pencarian data mining.

Contoh lain, American Express dapat memberikan tawaran jenis barang tertentu kepada pemegang kartunya berdasarkan kebiasaan belanja yang telah dilakukannya.

WalMart adalah model data mining pertama, model ini digunakan untuk mencari segala sesuatu yang berhubungan dengan supplier.

WalMart mengambil transaksi point of sale dari 2900 toko di enam propinsi yang secara berkelanjutan berhubungan data ware house yang berkapasitas 7,5 terabyte. Lebih dari 3500 supplier yang mengakses WalMart untuk mengetahui dan menanalisa produk mereka. Para supplier menggunakan data ini untuk mengidentifkasi pola belanja para kostumer yang membeli produk mereka pada setiap toko. Mereka menggunakan informasi ini untuk mengelola inventori local dan sekaligus mengidentifikasi jenis produk apa dapat dimunculkan untuk kesempatan yang

21

akan datan. Pada tahun 1995, Wal Mart computer memproses lebih dari 1 juta permintaan data yang komplek

2.5. Bagaimana data mining bekerja ?

Sementara teknologi informasi berskala besar menmggunakan sebagaian transaksi dan analisa sistem, data mining menyediakan hubungan antar keduanya.

Software data mining menganalisa hubungan dan pola yang terbentuk dari transaksi data berdasarkan permintaan pengguna. Beberapa software yang tersedia untuk melakukan analissi data misalnya : statistik, mesin pembelajaran, jaringan syraf tiruan. Umumnya, ada empat tipe hubungan antar data

Classes: Data yang tersimpan digunakan untuk membuat pengelompokan perkiraan awal. Sebagai contoh, sebuah restoran dapat mencari data kostumer yang membeli untuk mendapatkan informasi tentang kapan pembeli itu datang dan barang jenis apa yang dibelinya ? Infromasi ini jika dapat diketahui dapat digunakan untuk meningkatkan penjualan pada hari terentu dengan mengubah teknik penjualan dari biasanya.

Clusters: Item data dikelompokan untuk mendapatkan hubungan yang logis atau kesdukaan konsumen. Seabagi contoh, data ditambang sehingga dapat menunjukan segmen pasar atau affinities konsumen yang ada.

Associations: Data yang ditambang dapat digunakan untuk mengidentifikan hubungannya. Bird dan popok bayai adalah sebuah contoh dari hasil penambangan data yang menggunakan Associations.

Sequential patterns: Data ditambang untuk mengantisipasi pola tingkah laku dan tren. Sebagai contoh : distributor perlengkapan kegiatan diluar ruangan dapat memprediksi kebiasaan pembelian tas ransel dilakukan bersamaan dengan pembelian kantung tidur dan sepatu hiking.

Data mining berisi 5 elemen utama :

Pecahkan, transformasikan dan tempatkan data transaksi ke dalam data warehouse Simpan dan kelola data dalam bentuk system multidimensi Sediakan akses data untuk para analis bisnis dan professional dibidang teknologi

informasi Lakukan analisa data dengan software analisa Tampilkan data dalam bentuk yang mudah dimegerti seperti misalnya Grafik atau table.

Perbedaan tingkat dari teknik analisa yang ada :

Artificial neural networks: Model prediksi nonlinear yang mempelajari sesuatu melalui beberapa pengulangan latihan seperti halnya otak manusia.

Genetic algorithms: Teknik optimasi yang menggunakan proses seperti kombinasi genetik, mutasi dan seleksi alam dalam merancang konsepnya seperti evolusi alami.

Decision trees: Struktur pohon digunakan untuk menampilkan sekumpulan keputusan yang harus diambil. Satu keputusan diambil akan membangkitkan aturan untuk mengklasifikasikan sekumpulan himpunan data.

Contoh metoda pengambilan keputusan dengan menggunakan pohon keputusan yang spesifik adalah Classification and Regression Trees (CART) dan Chi Square Automatic

22

Interaction Detection (CHAID) . CART dan CHAID adalah teknik pohon keputusan yang digunakan untuk mengklasifikasikan sekumpulan data.

Teknik tersebut menghasilkan aturan yang dapat digunakan untuk sekumpulan data baru untuk memprediksi rekord mana yang memenuhi syarat.

Segmen CART adalah sekumpulan data yang dibuat melalui pemecahan 2-way selama segmen CHAID menggunakan chi square tests untuk membuat pemecahan multi-way splits. Secara tipikal CART memerlukan sedikit persiapan data jika dibandingkan dengan CHAID.

Nearest neighbor method : Sebuah teknik yang mengklasifikasikan sekumpulan data berdasarkan kombinasi dari beberapa class dari k record yang mirip ke dalam sekumpulan data sebelumnya. Kadang-kadang teknik ini dinamakan k-nearest neighbor.

Rule induction : Mengektraksi penggunaan aturan if-then dari data berdasarkan signifikansi secara statistik.

Data visualization : Interprestasi visualisasi dari sbuah hbungan yang rumit dalam bentuk data multidimensi. Gambar secara Grafis digunakan untuk mengilustrasikan hubungan data yang ada.

2.6. Teknologi infrastruktur seperti apa yang diperlukan ?

Saat ini, aplikasi data mining sudah tersedia untuk berbagai ukuran sistem dan flatform, baik untuk mainframe, client / server dan PC. Harga aplikasi tersebut berkisar dari ribuan dollar sampai dengan jutaan dolar. Aplikasi yang cukup luas biasanya berukuran sekitar 10 gigabiytes sampai dengan lebih dari 11 terabytes.

Ada dua teknologi yang penting untuk mendukung data mining :

Size of the database : semakin banyak data yang diproses dan dipelihara, maka akan menjadi suatu sistem yang sangat diperlukan.

Query complexity : semakin komplek queri dan semakin besar jumlah queri yang diproses, maka akan menjadi suatu sistem yang sangat diperlukan

Teknologi manajemen dan penyimpanan database secara relasional adalah teknologi yang cukup memadai untuk beberapa aplikasi data mining yang mengelola data kurang dari 50 gigabytes. Namun demikian infrastruktur menjadi kebutahan yang sangat signifikan untuk mendukung aplikasi data mining, bahkan beberapa vendor mensyaratkan Massively Parallel Processors (MPP) untuk dapat menjalankan aplikasi data mining yang dibuatnya.

2.7. Aplikasi Data Mining

Structured Data Mining

Database mining Relational data mining Database Document warehouse Data warehouse

Graph mining Molecule mining

23

Sequence mining Data stream mining

Tree mining Decision tree learning

Web mining Concept mining

Unstructured Data Mining

Text mining Image mining

2.8. Kesimpulan

Database mining adalah proses pencarian untuk mengefisienkan pola yang tidak diketahui secara berkelanjutan,

Tujuan data mining adalah untuk membantu manusia menganalisa data agar dapat dengan mudah dipahami karakternya,

Data adalah fakta, angka atau teks yang dapat diproses oleh computer, Pola, keterkaitan atau hubungan diantara semua data,

24

BAB 3. Text Mining

3.1. Pendahuluan

Text Mining (penambangan teks) merupakan salah satu cara yang biasa digunakan pada Data Mining (penambangan data). Text Mining adalah salah satu teknik penambangan untuk jenis data yang berupa teks, dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Pada text mining terdapat tahapan-tahapan yang dilakukan untuk memisahkan kata-kata menjadi kata dasar dari sebuah kalimat yang disebut dengan tahapan pre-processing (Mitchell, 1997). Tahapan-tahapan pre-processing tersebut adalah sebagai berikut:

3.1.1. Case Folding

Case Folding adalah tahapan untuk mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z saja yang dapat diterima. Contoh proses case folding seperti pada gambar 1.1. Semua huruf besar pada bagian sebelum case folding dirubah menjadi huruf kecil. Hasilnya seperti pada bagian hasil case folding.

Gambar 1. 11. Contoh Proses Case Folding

3.1.2. Tokenizing Tokenizing adalah tahapan dimana adanya pemotongan string masukan berdasarkan kata yang menyusunnya. Contoh proses tokenizing seperti pada gambar 1.2. Semua kata pada bagian sebelum tokenizing dipotong-potong sesuai panjang huruf dalam setiap kata yang ditandai dengan spasi. Hasilnya adalah seperti pada bagian Hasil tokenizing.

Gambar 1. 12. Contoh Proses Tokenizing

3.1.3. Filtering Filtering adalah tahapan mengambil kata-kata yang penting dari hasil token sebelumnya. Di dalam tahapan ini dapat digunakan algoritma pembuangan kata yang kurang penting (stoplist) atau menyimpan kata penting (wordlist). Contoh proses filering seperti pada gambar

Sebelum Case Folding

Program Studi Ilmu Komputer /Informatika Universitas JenderalAchmad Yani

Hasil Case Folding

program studi ilmu komputer /informatika universitas jenderal achmadyani

Sebelum Tokenizing

Program Studi Ilmu Komputer / InformatikaUniversitas Jenderal Achmad Yani

Hasil Tokenizing

program studi ilmukomputer informatika universitasjenderal achmad yani

25

1.3. Semua kata yang tidak penting pada bagian sebelum filtering dibuang (kata dan). Hasilnya adalah seperti pada bagian Hasil filtering. Kata yang tidak penting (stoplist) disimpan dalam satu tempat khusus untuk digunakan pada saat proses perbandingan kata dalam dokumen uji dilakukan. Apabila dalam dokumen uji terdapat kata yang sama dengan kata yang tersimpan dalam stoplist, maka kata tersebut diabuang. Kata yang tidak ada dalam stoplist dijadikan kata hasil filtering.

Gambar 1. 13. Contoh Proses Filtering

3.1.4. Analyzing Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata pada dokumen yang ada. Tabel pertama menampilkan jumlah kemunculan kata dalam dokumen. Contoh table 1.1. Dalam dokumen 1 terdapat 1 kata program, 1 kata studi, 1 kata ilmu, 2 kata computer, 3 kata informatika

Tabel 1. 5. Frequensi Kemunculan Kata pada Dokumen

Kata Dokumen tf Kata Dokumen tf Program 1 1 Komputer 1 2 Studi 1 1 Informatika 1 3 Ilmu 1 1

Tabel kedua menampilkan jumlah dokumen yang mengandung kata kunci. Contoh table 1.2., kata tumpang muncul dalam 1 dokumen, kata tindih muncul dalam 2 dokumen, kata tugas muncul dalam 1 dokumen, kata jalan muncul dalam 4 dokumen, kata penyatuan muncul dalam 1 dokumen, dan kata sistem muncul dalam 3 dokumen.

Tabel 1. 6. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama

Kata df Kata df Tumpang 1 Jalan 4 Tindih 2 Penyatuan 1 Tugas 1 Sistem 3

Pada implementasinya, tahapan di atas tidak selalu digunakan seluruhnya, bergantung kepada kebutuhan dari output yang ingin dihasilkan.

Sebelum Filtering

program studi ilmukomputer dan informatika

Hasil Filtering

program studi ilmukomputer informatika

26

3.2. (TF-IDF) Term Frequency-Inverse Frequency Document

Metode TF-IDF merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen (Robertson, 2004). Hasil dengan menggunakan metode TF-IDF adalah nilai similaritas terhadap suatu dokumen dengan kata yang dimasukan. Metode ini menggambungkan dua konsep perhitungan bobot, yaitu perhitungan untuk mencari frekuensi sebuah kata di dalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut.

= ( , )... Persamaan 2.1. Dimana : t = Kata d = dokumen Berikut adalah rumus untuk mencari nilai IDF (Defeng & Intan, 2006) :

= ( / ) .. Persamaan 2.2 Dimana : t = Kata ke-t dari kata kunci df = Jumlah dokumen yang mengandung kata ke-t dari kata kunci D = Jumlah semua dokumen yang ada di dalam database IDF = Rasio frekuensi dokumen pada kata ke-t dari kata kunci Untuk mengetahui nilai dari df, dapat dicari dari banyak-nya dokumen yang mengandung kata kunci yang dimasukan. Setiap kata akan dicari keberadaanya pada dokumen, kemudian akan dihitung jumlah dokumen yang mengandung kata tersebut sebagai nilai dari df. Sedangkan rumus untuk mencari bobot pada TF-IDF adalah sebagai berikut :

, = , ... Persamaan 2.3 Dimana: d = Dokumen ke-d t = Kata ke-t dari kata kunci tf = Frekuensi banyak-nya kata ke-t dari kata kunci pada dokumen ke-d W = Bobot dokumen ke-d terhadap kata kunci ke-t IDF = Rasio frekuensi dokumen pada kata ke-t dari kata kunci Untuk mengetahui nilai dari tf, dapat dicari dari jumlah kata pada dokumen yang mengandung kata kunci dari masukan. Dokumen yang mengandung kata kunci akan diambil kemudian akan melalui pre-processing yang akan menghasilkan kata dasar dan setiap kemunculannya akan dihitung sebagai nilai tf. Setelah hasil pembobotan dokumen selesai dan dokumen sudah diketahui bobot masing-masingnya, maka dilakukan proses pengurutan untuk mengetahui similaritasnya dengan acuan semakin besar nilai W maka semakin besar similaritas dokumen tersebut.

Studi Kasus 1 (Nugraha, 2012)

Permasalahan dalam studi kasus ini adalah mencari suatu kalimat yang berisi beberapa kata kunci tentang audit keuangan. Pencarian dilakukan untuk mendapatkan dokumen yang mana yang paling mendekati dengan kata kunci yang di cari. Contoh penyelesaiannya adalah seperti di bawah ini. Misalnya terdapat beberapa dokumen seperti di bawah ini :

27

Kategori : Pemisahan Fungsi Departemen PDE dan non PDE D1 : Terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi. D2 : Terdapat prosedur yang dari departemen pemakai yang tidak menjamin independensi. D3 : Terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak

jalan. Kategori : Fungsi dalam Departemen PDE D4 : Terjadi penyatuan fungsi sistem dan pemrograman D5 : Analisis sistem dan pemrogram memiliki kebebasan dalam mengakses piranti keras D6 : Struktur organisasi tidak berjalan dengan semestinya dan terjadi penyimpangan fungsi D7 : kontrol group bercampur dalam kelompok sistem dan operasi.

Preprosesing

Case Folding

Pada proses case folding, setiap kata yang terdapat huruf kapital di dalam-nya akan dirubah menjadi huruf kecil.

Gambar 2. 1. Case Folding D1





Terdapat tumpang tindih tugas setelahdilakukan penelaahan pada baganorganisasi.

Hasil Case Folding

terdapat tumpang tindih tugas setelahdilakukan penelaahan pada baganorganisasi


Terdapat prosedur yang dari departemenpemakai yang tidak menjaminindependensi.

Hasil Case Folding

terdapat prosedur yang dari departemenpemakai yang tidak menjaminindependensi


Terdapat penyimpangan fungsi padapemrograman dan struktur organisasi yangtidak jalan

Hasil Case Folding

terdapat penyimpangan fungsi padapemrograman dan struktur organisasi yangtidak jalan


Terjadi penyatuan fungsi sistem danpemrograman.

Hasil Case Folding

terjadi penyatuan fungsi sistem danpemrograman

28




Tokenizing

Pada tahapan tokenizing, dokumen yang di dalam-nya terdapat kalimat dan sudah dibuat huruf kecil pada proses case folding akan dipotong menjadi kata-kata yang menyusun-nya.

Gambar 2. 8. Tokenizing D1




Analisis sistem dan pemrogram memilikikebebasan dalam mengakses piranti keras.

Hasil Case Folding

analisis sistem dan pemrogram memilikikebebasan dalam mengakses piranti keras


Struktur organisasi tidak berjalan dengansemestinya dan terjadi penyimpanganfungsi.

Hasil Case Folding

struktur organisasi tidak berjalan dengansemestinya dan terjadi penyimpanganfungsi


kontrol group bercampur dalam kelompoksistem dan operasi

Hasil Case Folding

kontrol group bercampur dalam kelompoksistem dan operasi.

Sebelum Tokenizing

terdapat tumpang tindih tugas setelah dilakukanpenelaahan pada bagan organisasi

Hasil Tokenizing

terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi

Sebelum Tokenizing

terdapat prosedur yang dari departemen pemakai yangtidak menjamin independensi

Hasil Tokenizing

terdapat prosedur yang dari departemen pemakai yang tidak menjamin independensi

Sebelum Tokenizing

terdapat penyimpangan fungsi pada pemrograman danstruktur organisasi yang tidak jalan

Hasil Tokenizing

terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak jalan

29





Filtering

Tahapan filtering merupakan tahapan untuk menghilangkan kata-kata yang tidak penting dari dokumen.

Gambar 2. 15. Filtering D1


Sebelum Tokenizing

terjadi penyatuan fungsi sistem danpemrograman

Hasil Tokenizing

terjadi penyatuan fungsisistem dan pemrograman

Sebelum Tokenizing

analisis sistem dan pemrogram memiliki kebebasandalam mengakses piranti keras

Hasil Tokenizing

analisis sistem dan pemrogram memiliki kebebasan dalam mengakses piranti keras

Sebelum Tokenizing

struktur organisasi tidak berjalan dengan semestinya dan terjadipenyimpangan fungsi

Hasil Tokenizing

struktur organisasi tidak berjalan dengan semestinya dan terjadi penyimpangan fungsi

Sebelum Tokenizing

kontrol group bercampur dalam kelompoksistem dan operasi.

Hasil Tokenizing

kontrol group bercampurdalam kelompok sistemdan operasi.

Sebelum Filtering

terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi

Hasil Filtering

tumpang tindih tugas bagan organisasi

Sebelum Filtering

terdapat prosedur yang daridepartemen pemakai yang tidakmenjamin independensi

Hasil Filtering

prosedur departemen pemakaitidak independensi

30






Analyzing

Tahapan analyzing adalah tahapan untuk mencari dan menghitung keterkaitan antara kata dengan dokumen yang mengandung kata tersebut. Perhitungan dilakukan dengan

Sebelum Filtering

terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak jalan

Hasil Filtering

penyimpangan fungsi pemrograman struktur organisasi tidak jalan

Sebelum Filtering

terjadi penyatuan fungsi sistemdan pemrograman

Hasil Filtering

penyatuan fungsi sistem pemrograman

Sebelum Filtering

analisis sistem danpemrogram memiliki kebebasandalam mengakses pirantikeras

Hasil Filtering

analisis sistem danpemrogram memiliki kebebasandalam mengakses pirantikeras

Sebelum Filtering

struktur organisasi tidakberjalan dengan semestinyadan terjadi penyimpanganfungsi

Hasil Filtering

struktur organisasi tidakberjalan dengan semestinyadan terjadi penyimpanganfungsi

Sebelum Filtering


Hasil Filtering


31

menggunakan persamaan 1 dan persamaan 2 di atas. Hasil perhitungannya adalah seperti pada table 2.1, 2.2, 2.3.

Tabel 2. 1. Frequensi Kemunculan Kata pada Dokumen

Kata Dokumen tf Kata Dokumen tf Tumpang 1 1 Analisis 5 1 Tindih 1 1 Sistem 5 1 Tugas 1 1 Pemrogram 5 1 Bagan 1 1 Mengakses 5 1 Organisasi 1 1 Piranti keras 5 1 Prosedur 2 1 Kebebasan 5 1 Departemen 2 1 Struktur 6 1 Pemakai 2 1 Organisasi 6 1 Tidak 2 1 Tidak 6 1 Independensi 2 1 Berjalan 2 1 Penyimpangan 3 1 Penyimpangan 6 1 Fungsi 3 1 Fungsi 6 1 Pemrograman 3 1 kontrol 7 1 Struktur 3 1 Group 7 1 Organisasi 3 1 Kelompok 7 1 Tidak 3 1 Sistem 7 1 Jalan 3 1 Operasi 7 1 Penyatuan 4 1 Bercampur 7 1 Fungsi 4 1 Analisis 5 1 Sistem 4 1 Pemrograman 4 1

Tabel 2. 2. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama

Kata df Kata df Tumpang 1 Jalan 1 Tindih 1 Penyatuan 1 Tugas 1 Sistem 3 Bagan 1 Analisis 1 Organisasi 3 Pemrogram 1 Prosedur 1 Mengakses 1 Departemen 1 piranti keras 1 Pemakai 1 Berjalan 1 Tidak 3 Control 1 Independensi 1 Group 1 Penyimpangan 2 Kelompok 1 Fungsi 3 Operasi 1 Pemrograman 2 Kebebasan 1 Struktur 2 Bercampur 1

Tabel 2. 3. Perhitungan TF-IDF

Kata k tf d D/df

IDF W D D D D D D D kk D1 D2 D3 D4 D5 D6 D7

tumpang 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 tindih 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 tugas 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 bagan 0 1 0 0 0 0 0 0 1 7 0.845 0 0.845 0 0 0 0 0 0

32

Kata k tf d D/df

IDF W D D D D D D D kk D1 D2 D3 D4 D5 D6 D7

organisasi 0 1 0 1 0 0 1 0 3 2.3 0.36 0 0.36 0 0.36 0 0 0.36 0 prosedur 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0

departemen 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0 pemakai 0 0 1 0 0 0 0 0 1 1 0.845 0 0 0.845 0 0 0 0 0 tidak 0 0 1 1 0 0 1 0 3 2.3 0.36 0 0 0.36 0.36 0 0 0.36 0 independensi 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0 penyimpanga

n 0 0 0 1 0 0 1 0 2 3.5 0.54 0 0 0 0.54 0 0 0.54 0

fungsi 0 0 0 1 1 0 1 0 3 2.3 0.36 0 0 0 0.36 0.36 0 0.36 0 pemrograma

n 0 0 0 1 1 0 0 0 2 3.5 0.54 0 0 0 0.54 0.54 0 0 0

struktur 0 0 0 1 0 0 1 0 2 3.5 0.54 0 0 0 0.54 0 0 0.54 0 jalan 0 0 0 1 0 0 0 0 1 7 0.845 0 0 0 0.845 0 0 0 0 penyatuan 0 0 0 0 1 0 0 0 1 7 0.845 0 0 0 0 0.845 0 0 0 sistem 0 0 0 0 1 1 0 1 3 2.3 0.36 0 0 0 0 0.36 0.36 0 0.36 analisis 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 pemrogram 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 mengakses 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 Piranti keras 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 berjalan 0 0 0 0 0 0 1 0 1 7 0.845 0 0 0 0 0 0 0.845 0 kontrol 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 group 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 kelompok 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 operasi 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 kebebasan 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 bercampur 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845

Input kata yang dicari : Terdapat tumpang tindih tugas Kata tersebut akan diproses terlebih dahulu menggunakan pre-prosesing, pada pre-processing ini tahapan-nya dilakukan sampai pada filtering saja. Hasil filtering ini akan menjadi kunci untuk perhitungan dalam TF-IDF. Hasil dari tahapan ini adalah sebagai berikut : - Tumpang - Tindih - Tugas Maka berdasarkan perhitungan yang terdapat pada tabel 1.3, bobot untuk masing-masing dokumen terhadap kata tumpang, tindih, tugas adalah sebagai berikut: W untuk D1 = 0.845+0.845+0.845 = 1.845 W untuk D2 = 0+0+0 = 0 W untuk D3 = 0+0+0 = 0 W untuk D4 = 0+0+0 = 0 W untuk D5 = 0+0+0 = 0 W untuk D6 = 0+0+0 = 0 W untuk D7 = 0+0+0 = 0 Hasil dari perhitungan bobot tersebut diketahui bahwa dokumen ke satu memiliki similaritas yang paling tinggi diantara dokumen lainnya. Jika kata kunci yang dicari adalah departemen, pemakai, prosedur, maka berdasarkan perhitungan yang terdapat pada tabel 1.3, bobot untuk masing-masing dokumen terhadap kata departemen, pemakai, prosedur adalah sebagai berikut:

33

W untuk D1 = 0+0+0 = 0 W untuk D2 = 0.845+0.845+0.845 = 1.845 W untuk D3 = 0+0+0 = 0 W untuk D4 = 0+0+0 = 0 W untuk D5 = 0+0+0 = 0 W untuk D6 = 0+0+0 = 0 W untuk D7 = 0+0+0 = 0 Hasil dari perhitungan bobot tersebut diketahui bahwa dokumen ke dua memiliki similaritas yang paling tinggi diantara dokumen lainnya. Demikian pula untuk kata selanjutnya.

Studi Kasus 2 (Utama, 2012)

Kasus lain implementasi TF-Idf adalah memberikan rating satu Judul Film layar lebar. Rating tersebut dilakukan dengan membandingkan isi ulasan yang pernah ada dengan ulasan baru. Ulasan yang ada telah memiliki ratingnya masing-masing. Rating untuk Judul Film baru diambil dari Hasil perhitungan TF-Idf yang terdekat antara Ulasan Film lama dengan Ulasan Film baru. Contohnya misalnya ulasan yang sdh tersimpan adalah seperti di bawah ini.

Dokumen 1 Judul : Reel Steel Nilai : Bintang 4 Isi : Plot cerita membantu karena jalinan kisahnya cukup mudah diikuti dan jelas. Film

ini pun dilengkapi dengan efek - efek animasi yang memukau.

Dokumen 2 Judul : The Adventure of Tintin Nilai : Bintang 3 Isi : Tintin bukanlah film yang dengan cerita yang begini -begitu . Tetapi harus diakui

secara efek filmografi,dan juga animasi adalah yang terbaik, mereka yang bergelut menghasilkan produk tontonan yang berkualitas.

Dokumen 3 Judul : 30 Minutes or Less Nilai : Bintang 2 Isi : 30 Minutes ternyata hadir jauh dari perkiraan. Film ini sama sekali menawarkan

cerita dengan alur yang membosankan. Setelah melalui tahapan pre processing, didapat kata atau token, seperti pada Tabel 2.4.

Tabel 2. 4. Frekuensi kemunculan kata dalam dokumen

Token TF DF D1 D2 D3

plot 1 0 0 1 cerita 1 1 1 3 bantu 1 0 0 1 jalinan 1 0 0 1 kisahnya 1 0 0 1 cukup 1 0 0 1 mudah 1 0 0 1 diikuti 1 0 0 1 jelas 1 0 0 1

34

efek 2 1 0 2 animasi 1 1 0 2 memukau 1 0 0 1 tintin 0 1 0 1 bukanlah 0 1 0 1 begini 0 1 0 1 begitu 0 1 0 1 tetapi 0 1 0 1 diakui 0 1 0 1 filmografi 0 1 0 1 terbaik 0 1 0 1 bergelut 0 1 0 1 menghasilkan 0 1 0 1 produk 0 1 0 1 tontonan 0 1 0 1 berkualitas 0 1 0 1 30 minutes 0 0 1 1 hadir 0 0 1 1 jauh 0 0 1 1 perkiraan 0 0 1 1 film 1 1 1 3 sama 0 0 1 1 sekali 0 0 1 1 menawarkan 0 0 1 1 alur 0 0 1 1 membosankan 0 0 1 1

Contoh Dokumen yang akan diberi nilai Judul : Toy Story 3 Nilai : belum ditetapkan Isi : Toy Story 3 merupakan film dengan alur yang jelas pada setiap plot cerita

yang dilengkapi dengan efek animasi yang memukau di tahun 2010. Hasil pre - processing untuk dokumen kata kunci dapat dilihat pada Tabel 2.5 di halaman selanjutnya.

Tabel 2. 5. Hasil pre - processing dokumen kata kunci

Token toy story merupakan film alur jelas setiap plot cerita dilengkapi

35

efek animasi memukau tahun

Hasil perhitungan TF-Idf seperti pada tablec2.6.

Tabel 2. 6. Hasil perhitungan TF -IDF

Token TF DF D/DF IDF W

kk D1 D2 D3 D1 D2 D3 plot 1 1 0 0 1 3 0.477 0.477 0 0 cerita 1 1 1 1 3 1 0 0 0 0 bantu 0 1 0 0 1 3 0.477 0.477 0 0 jalinan 0 1 0 0 1 3 0.477 0.477 0 0 kisahnya 0 1 0 0 1 3 0.477 0.477 0 0 cukup 0 1 0 0 1 3 0.477 0.477 0 0 mudah 0 1 0 0 1 3 0.477 0.477 0 0 diikuti 0 1 0 0 1 3 0.477 0.477 0 0 jelas 1 1 0 0 1 3 0.477 0.477 0 0 efek 1 2 1 0 2 1,5 0.176 0.352 0.176 0 animasi 1 1 1 0 2 1,5 0.176 0.176 0.176 0 memukau 1 1 0 0 1 3 0.477 0.477 0 0 tintin 0 0 1 0 1 3 0.477 0 0.477 0 bukanlah 0 0 1 0 1 3 0.477 0 0.477 0 begini 0 0 1 0 1 3 0.477 0 0.477 0 begitu 0 0 1 0 1 3 0.477 0 0.477 0 tetapi 0 0 1 0 1 3 0.477 0 0.477 0 diakui 0 0 1 0 1 3 0.477 0 0.477 0 filmografi 0 0 1 0 1 3 0.477 0 0.477 0 terbaik 0 0 1 0 1 3 0.477 0 0.477 0 bergelut 0 0 1 0 1 3 0.477 0 0.477 0 menghasilkan 0 0 1 0 1 3 0.477 0 0.477 0 produk 0 0 1 0 1 3 0.477 0 0.477 0 tontonan 0 0 1 0 1 3 0.477 0 0.477 0 berkualitas 0 0 1 0 1 3 0.477 0 0.477 0 30minutes 0 0 0 1 1 3 0.477 0 0 0.477 hadir 0 0 0 1 1 3 0.477 0 0 0.477 jauh 0 0 0 1 1 3 0.477 0 0 0.477 perkiraan 0 0 0 1 1 3 0.477 0 0 0.477 film 1 1 1 1 3 1 0 0 0 0 sama 0 0 0 1 1 3 0.477 0 0 0.477 sekali 0 0 0 1 1 3 0.477 0 0 0.477 menawarkan 0 0 0 1 1 3 0.477 0 0 0.477 alur 1 0 0 1 1 3 0.477 0 0 0.477 membosankan 0 0 0 1 1 3 0.477 0 0 0.477

Maka pembobotan masing - masing dokumen setelah diakumulasikan adalah :

36

D1 : 0,477+0,477+0,352+0,176+0,477 = 1,959 D2 : 0,176 + 0,176 = 0,352 D3 : 0,477

Pada contoh kasus di atas dapat diketahui dokumen uji (film Toy Story 3) mempunyai relevansi / tingkat kemiripan dengan dokumen 1 (film Reel Steel) yang mempunyai penilaian yang sama dalam plot cerita serta animasi. Dapat terlihat pada hasil akumulasi yaitu D1 mempunyai nilai 1,959. Dari hasil perhitungan dapat diambil kesimpulan bahwa dokumen uji (film Toy Story 3) mempunyai rating bintang 4 dengan mereferensikan dokumen ke-1 (D1) sebagai acuan referensi penilaian.

37

3.3. CF-IDF (Concept Frequency-Inverse Document Frequency)

Untuk menentukan nilai kecocokan antara dokumen pengetahuan dan keyword diperlukan pembobotan. Pembobotan atau disebut juga weighting merupakan pemberian bobot terhadap kata/frase yang telah dihasilkan dari tahap sebelumnya. Model pembobotan tersebut dapat dengan pembobotan global, lokal atau pun kombinasi dari keduanya. Salah satu pembobotan kombinasi tersebut adalah CF-IDF (Concept Frequency-Inverse Document Frequency). Metode ini merupakan pengembangan dari metode TF-IDF (Term Frequency-Inverse Document Frequency) yang lebih dahulu populer. Pada metode ini tidak dilakukan perhitungan terhadap term (seperti pada TF-IDF) namun dengan menghitung key concept yang ditemukan dalam teks. Pada CF-IDF, dilakukan pendekatan representasi isi dokumen dengan menggunakan jaringan semantik yang disebut dokumen inti semantik. Dokumen tersebut kemudian dipetakan dalam jaringan semantik yang disebut Wordnet dan dikonversikan dari sekumpulan terms menjadi sekumpulan konsep (concept). Pendekatan ini membuat konsep dari CF-IDF terlihat lebih cerdas dibandingkan TF-IDF. Concept yang dimaksud dalam metode ini adalah kata atau pun istilah majemuk yang kombinasi katanya dapat memiliki banyak arti dan menimbulkan ambiguitas dalam pembacaannya. Dalam mendeteksi concept dari dokumen dapat dilakukan dengan dua cara yaitu dengan memproyeksikan ontologi ke dalam dokumen dengan mengekstrak semua kata dan frase (istilah majemuk) dari ontologi kemudian mengidentifikasikan kemunculanya dalam dokumen. Cara yang kedua adalah dengan memproyeksikan dokumen ke dalam ontology, untuk setiap calon frase yang terbentuk (yang dideteksi dari kedekatan kata atau adjacent). Belum banyak penelitian yang menggunakan CF-IDF sebagai solusi. Sebagian besar penelitian mengenai CF-IDF baru sebatas perbandingan dengan metode lama, TF-IDF. Frank Goossen, Wouter IJntema, Flavius Frasincar, Frederik Hogenboom, Uzay Kaymak dalam penelitiannya yang berjudul News Personalization using the CF-IDF Semantic Recommender (Kaymak, 2011) menggunakan algoritma CF-IDF dalam aplikasi news-recommender Hermes. Selain itu algoritma tersebut kemudian dibandingkan dengan algoritma TF-IDF dalam beberapa kasus yang sama. Hasilnya, nilai akurasi, presisi, recall dan F-1 dari algoritma CF-IDF jauh lebih baik dari algoritma TF-IDF. Selain itu Mustapha Baziz, Mohand Boughanem dan Salam Traboulsi juga melakukan penelitian penggunaan CF-IDF dalam aplikasi information retrieval atau sistem temu balik dalam penelitiannya, A Concept-based Approach for Indexing Documents in IR (Robertson, n.d.). Dalam penelitian ini, dilakukan pengindeksan dokumen berdasarkan semantiknya. Hasilnya, metode tersebut mampu melakukan pengindeksan dokumen dan meningkatkan akurasi pengambilan kembali informasi. Selanjutnya Aceng Nursamsudin dalam penelitiannya yang berjudul Penerapan Konsep Knowledge Management System (KMS) untuk Pengelolaan Hasil Proyek Konsultasi Menggunakan Algoritma Text Mining (Nursamsudin, 2011), telah berhasil membuktikan penggunaan text mining di dalam sistem KMS. Di dalam penelitian ini, digunakan metode TF-IDF dan VSM (Vector Space Model) untuk melakukan pencarian dokumen-dokumen konsultasi yang memiliki tingkat kemiripan dengan kata dengan kata kunci yang dimasukan. Penelitian ini berhasil memberikan hasil pencarian dokumen-dokumen yang memiliki tingkat kemiripan dengan kata kunci pencarian. Penelitian mengenai penggunaan metode text mining dalam pencarian teks dokumen dalam penerapan KMS juga dilakukan oleh Robert J Watts dan Alan L. Porter dalam penelitiannya yang berjudul Mining Conference Proceedings for Corporate Technology Knowledge Management (Porter, 2007). Dalam penelitian itu, diterapkan salah satu algoritma dalam text mining yaitu NLP (Natural Language Processed) dalam KM pengelolaan dokumen proceedings. Hasilnya algoritma tersebut dapat melakukan pengelompokan data proceedings dengan baik. Untuk membentuk concept, terlebih dahulu harus dibentuk kandidat -kandidat concept dari dokumen. Kandidat-kandidat dibedakan menjadi kata (mono word) dan frase (multi words). Frase atau multi words merupakan gabungan dari beberapa kata yang memiliki arti. Pada

38

penelitian ini, pembentukan frase maksimal adalah terdiri dari gabungan tiga kata. Pembentukan kandidat kata berdasarkan kemunculan setiap kata di dalam dokumen sementara pembentukan kandidat frase dilakukan berdasarkan kedekatan kata berurutan dari kiri ke kanan (sesuai dengan tata cara penulisan). Pembobotan dalam CF-IDF dilakukan dengan menghitung CF (Concept Frequency):

= , ,

. Persamaan 2.1

Dimana,

= rasio frekuensi concept pada dokumen , = jumlah kemunculan concept dalam dokumen

, = total kemunculan seluruh concept dalam dokumen Setelah itu, dilakukan perhitungan nilai IDF dengan membagi jumlah total dokumen dengan jumlah dokumen yang terdapat kemunculan konsep (Ci).