Data Warehouse ETL : Extract Transform Load

Sekarang kita akan mengenali ETL dan guna dari ETL. Seperti yang ada di judul ETL adalah akronim dari Extract Transform dan Load. Digunakan untuk mendefinisikan standart prosedur perpindahan data dari OLTP menuju Data warehouse. Perpindahan ini memberikan beberapa aturan.



Extract Transform Load(ETL)
Extract, membuat aturan dan koneksi untuk mengambil data dari berbagai sumber yang dimiliki oleh perusahaan. Misalkan, kita perlu membuat koneksi ke beberapa database seperti sistem ERP atau sistem penjualan. Cara koneksi berbeda-beda sehingga di bagian extract ini akan menyimpan cara kita mengkoneksikan data warehouse dengan sumber-sumber data tersebut. Keuntungannya adalah setiap kali kita ingin mengambil data kita tidak perlu melakukan koneksi ulang.
 

Sourcing

Pada Extract ada istilah Sourcing di mana sebuah datawarehouse mampu mengenali berbagai macam sumber data dari data base yang ada. Hal ini akan memudahkan kita untuk melakukan koneksi pada database lain. Perlu diketahui yang paling susah adalah koneksi pada database yang sudah sangat tua. Besar kemungkinan anda harus membuat program sendiri atau melakukan export dan memasukan data secara manual pada datawarehouse.
Bentuk Sourcing dalam Database


Transformation

Setelah ekstrasi data berhasil maka data itu perlu divalidasi dan di standard-kan inilah langkah kedua yaitu transformation, seperti mengkonversi unit dalam artian penggunaan mata uang atau penggunaan ukuran. Contoh ukuran barang ada yang dalam bentuk cm, m dan mm. ketiga unit ukuran ini dijadikan 1 saja yakni cm. Selain itu kita juga harus menghidari duplikasi data, data yang tidak benar dan data yang salah. Di akhir dari transformation kita juga mengubah bentuk data menjadi sesuai dengan struktur yang disediakan oleh data warehouse dan memasukan data yang telah distandarkan dan dibersihkan menuju ke dalam data warehouse.

Load

Data biasanya dimasukan dalam jumlah besar ke dalam data warehouse inilah yang disebut load, tidak seperti OLTP yang hanya memasukan 1 record dalam sebuah waktu. Ketiga hal ini, yakni membersihkan, mengubah dan mengisi data ke dalam tabel dimensi dan tabel fact disebut proses ETL dalam SQL Server. Proses ini ditangani oleh SQL Server Integration Services atau SSIS.
 

Clean Up

Selain mengubah ada juga istilah Clean Up. Clean up digunakan untuk membersihkan data yang diambil dari data yang tidak valid. Misalkan data customer ada 12.851 baris. Setelah  di clean up data customer ada 10.261 baris. Kenapa bisa ada beberapa baris yang hilang? bisa jadi customer yang hilang adalah customer yang pernah mendaftar sebagai member tetapi tidak pernah berbelanja. Data seperti ini dapat mengubah hasil akhir laporan menjadi kurang akurat. Sehingga perlu dilakukan Clean Up.

SQL Server Integration Service
Mungkin ada yang bertanya bagaimana cara menggunakan atau menemukan SSIS ini di mana karena sudah install SQL server tapi tidak menemukannya.  Pertama pastikan yang kamu install adalah SQL server yang lengkap. Saya menggunakan SQL server 2012 developer edition. Ada berita yang menyatakan bahwa SQL server untuk developer sekarang free. Tapi saya tidak mengetahui kebenarannya karena saya sudah memiliki SQL server 2012. Kemudian untuk menggunakan SSIS kamu harus menginstall hampir seluruh tambahan yang ada dalam SQL server jadi pastikan Harddisk yang kamu miliki cukup. Terakhir saya akan memberikan contoh dalam SQL server 2012. Meski versi 2012, saya yakin bahwa cara menggunakan tidak akan jauh berbeda. Bila anda memiliki versi yang lebih baik dan menemukan perbedaan dari yang saya bagikan, cobalah melakukan google search terlebih dahulu.

Sebelum membahas praktik dari SSIS kita akan belajar membentuk struktur data warehouse yakni mengetahui dimension table dan fact table terlebih dahulu.

Komentar