Posted: 17 Oktober 2013 22:25:41 by valen BeritaNet.com | Dilihat 4081 kali

Data mining sering membutuhkan integrasi data penggabungan data dari menyimpan data ganda. Data juga mungkin perlu untuk diubah menjadi bentuk yang sesuai untuk pertambangan. bagian ini menjelaskan transformasi baik integrasi data dan data.

Data Integration

Kemungkinan bahwa data tugas analisis Anda akan melibatkan integrasi data, yang menggabungkan data dari berbagai sumber ke dalam menyimpan data koheren, seperti dalam data warehouse. sumber-sumber ini dapat mencakup beberapa database, kubus data atau flat file.

Ada beberapa isu yang perlu dipertimbangkan pada saat integrasi data berlangsung. Bisa saja schema integration  menjadi rumit. Bagaimana bisa setara dengan entity pada dunia nyata dari sumber multiple data akan cocok? Hal ini disebut identifikasi masalah entitas. Misalnya bagaimana analisis data atau komputer yang sudah dipastikan bahwa pelanggan berada dalam satu database, dan cust_number yang lainya merujuk pada entitas yang sama. Database dan gudang data biasanya memiliki tipe metadata. Beberapa metadata dapat digunakan untuk membantu menghindari kesalahan pada saat schema integration.

Redundancy merupakan masalah yang penting. Attribute dapat redundant jka diturunkan dari tabel lain, misalnya pendapatan tahunan. Attribute yang tidak konsisten atau penamaan dimensi bisa menyebabkan redudansi. Beberapa redudansi bisa diketahui dengan analisis korelasi, misalnya memberikan 2 atribut, analisis tersebut bisa mengukur kekuatan satu atribut dibanding dengan yang lain berdasarkan data yang tersedia.


Komentar Anda

Artikel terkait