SSIS menghasilkan Decision Tree dengan SQL Server Data Tools

Sama seperti artikel sebelumnya, untuk menjalankan decision tree kita akan menggunakan Adventure Works 2012. Sebelumnya kita coba mengenal apa itu decision tree.

Decision tree adalah salah satu tools yang digunakan untuk membantu dalam pengambilan keputusan dengan model seperti pohon yang akan menampilkan keputusan serta konsekuensinya termasuk kemungkinan terjadinya. Dalam kasus kita, kita melakukan yang namanya data mining. Jadi kemungkinan terjadi pembelian diprediksi dari data yang kita miliki. Inilah yang kita sebut dengan data mining. Sehingga definisi decision tree dengan apa yang akan kita lakukan akan berbeda sedikit. Tapi cara ini juga digunakan untuk meningkatkan efisiensi. Misal dari hasil data mining semua yang membeli mobil adalah pria dengan 2 anak, maka fokus marketing akan diarahkan ke sana saja.





Pertama buka SQL Server Data Tools, buat solution baru dengan nama Decision Tree, untuk projectnya sendiri gunakan Analysis Services Multidimensional and Data Mining Project Template.

Pada bagian kanan ada solution explorer, klik kanan di sana dan pilih New Data Source Option, pada welcome page click next dan kemudian kita mendefinisikan koneksi yang akan kita gunakan. Sekali lagi di sini jangan menggunakan koneksi yang ada di list, buatlah koneksi baru. Pada Connection Manager Pilih yang Native OLE DBSQL Server Native Client 11.0 Kemudian pilihlah server name yang kamu gunakan. Di sini jangan menggunakan Windows Authentication, gunakan SQL Server Authentication dan masukan user name password dari akun SQL yang kamu gunakan, Akun yang kamu gunakan sebaiknnya memiliki permission untuk membaca dan menulis ke dalam database Adventure Works DW 2012. kemudian pilih database, lakukan test connection lalu tekan ok bila koneksi sudah berhasil. Untuk nama biarkan default saja.

Berikutnya pada solution explorer klik kanan di data source view dan pilih buat data source baru(New Data Source View). Pada welcome page klik next. Lalu pilih data source yang telah kamu buat.dan tekan next. Dalam select table dan view pilih vTargetMail lalu tekan next.

vTargetMail adalah view bawaan dari AdventureWorksDW2012 yang digunakan untuk mengumpulkan informasi dari orang-orang yang membeli sebuah sepeda. Sehingga kita tidak perlu memikirkan query yang harus dibentuk. Apabila kamu mau mengimplementasikan dalam data yang kamu miliki. Pastikan kamu memiliki hal yang sama dengan struktur view ini. vTargetMail menekankan pada orang yang membeli sepeda, dan data mereka seperti gender, jumlah anak, jarak transportasi atau faktor yang dikira mempengaruhi seseorang dalam membeli sepeda.

Apabila sudah selesai klik kanan mining structure, pilih new mining structure, klik next pada halaman welcome. Kemudian di halaman berikutnya pilih from relational database or data warehouse kalau sudah klik next dan akan ada halaman berikutnya yang meminta kita memilih mining structure. Pilih Create mining structure with a mining model dan pada combobox pilih microsoft decision trees dan  klik next. Setelah itu pilih sumber data yang kamu buat, dalam hal ini Adventure Works DW 2012, klik next. Halaman berikutnya kita pilih input tables pilih vTargetMail dan centang case(Ini adalah default utama). Pada halaman berikutnya akan ditampilkan list kolom yang ada dalam vTargetMail.

Di sini kita memilih mana yang akan menjadi kolom yang akan kita prediksi. Untuk pertama, pilih customer key sebagai key column(ini default awal), kemudian bike buyer sebagai predictable column, kemudian pilih commutedistance, englisheducation, englishoccupation, gender, houseownerflag, maritalstatus, NumberCarsOwned, NumberChildrenAtHome, Region and TotalChildren sebagai kolom input(input columns) lalu pilih next dan ubah semua content type menjadi discrete. Samakan hasil seperti gambar berikut. Sekali lagi karena decision tree digunakan untuk memprediksi discrete dan continuous variables. Di mana discrete variable adalah sebuah variable yang memiliki value lebih dari 2 batasan, contohnya adalah 1,2,3 dan 4(ini adalah contoh discrete variable) karena isinya tidak hanya 1 atau 2. Sedangkan continous berlawanan dengan discrete variable dalam hal value yang dimiliki karena continuous memiliki jumlah value yang tak terbatas(Infinite), bila kamu membuka data yang dimiliki, semua data yang digunakan lebih dari 2 pilihan dan dapat dihitung. Sehingga semuanya masuk ke dalam kategori variable discrete.

Setelah itu klik next, di halaman berikutnya kita aka  menspesifikkan persentase data untuk melakukan testing. Karena kita menggunakan decision tree maka kita tidak perlu testing data, sehingga ganti angkanya menjadi 0%, setelah itu klik next Masukan TM sebagai nama mining structure dan TMDT sebagai nama model. Setelah itu klik finish dan save solution yang kamu buat. Kemudian pada solution explorer yang di sebelah kanan, cari nama project klik kanan pilih deploy.

Bila terjadi error
"You cannot deploy the model because the localhost deployment server is not running in multidimensional mode"
maka yang harus kamu lakukan adalah masuk ke
C:\Program Files\Microsoft SQL Server\MSAS

Nama msas akan tergantung dengan instalasi, klik folder OLAP pilih config dan buka msmdsrv.ini dan cari deployment mode pindah jadi 0.
lalu buka services dan restart SQL Server Analysis Service

Kalau sudah selesai maka close deployment progress windows lalu masuklah ke dalam data mining designer dan klick tab Mining model viewer maka akan ditampilkan decision tree dalam bentuk model yang otomatis terbuat.



Cara membacanya cukup mudah semakin gelap warnanya maka dia adalah orang yang membeli sepeda. di sisi kiri paling gelap, berarti semua yang beli sepeda expand berikutnya dapat kita lihat bahwa region north america jauh lebih banyak membeli sepeda daripada Europe. begitu masuk ke tahap 3 akan ada perbedaan yang signifikan. Misalh dalam north america menggunakan commute distance dan dalam europe menggunakan total children, ini adalah penentu yang paling dekat dengan alasan orang tersebut dalam sebuah region membeli sepeda. Karena perbedaan warna tidak mencolok bisa disimpulkan bahwa dari tahap ke 3 tidak memberikan pengaruh yang terlalu besar. 

Dari data ini dapat ditarik kesimpulan bermacam-macam. Ini sangat tergantung pengalaman dan karakteristik dari data tersebut. Misal dengan melihat bahwa pembeli sepeda lebih banyak di North america maka seseorang bisa mengambil kesimpulan untuk meningkatkan stok di amerika, bisa juga turunkan stok, karena pengguna sepeda sudah banyak. Atau kesimpulan yang lain seperti tingkatkan marketing di region europe terutama dengan target pasar keluarga, karena yang mempengaruhi europe adalah jumlah anak, sedangkan north amerika akan melakukan marketing dengan pendekatan pada jarak trasnportasi umum(Commute distance) yang ada.





Sehingga sekali lagi saya tekankan dalam melakukan Data Warehousing, menggunakan SSIS, dan melakukan mining pada data diperlukan pemilik data tersebut agar kita bisa memaksimalkan penggunaan data dan bisa mengerti dengan jelas kegunaan data. Berhati-hatilah dengan project yang tidak memiliki tujuan yang jelas. Ketika tujuan tidak jelas atau data tidak jelas maka bisa jadi apa yang kamu kerjakan bukan sesuatu yang bisa meningkatkan kinerja perusahaan atau sesuatu yang berguna bagi perusahaan. Kenapa pemilik data diikutkan, hal ini adalah karena mereka yang menggunakan data tersebut dan mereka yang paling kenal dengan data mereka.

Komentar

Posting Komentar