Sebuah pendekatan untuk mengatasi permasalahan yang sulit dari pembelajaran database yang berukuran besar adalah memilih sebagian kecil dari data untuk dipelajari. Database sering mengandung data yang redundant. Hal tersebut akan menjadi lebih mudah apabila suatu database yang berukuran besar dapat digantikan dengan sebagian kecil dari perwakilan pola-pola sehingga keakuratan penilaian diambil dari suatu set yang dikurangi harus sebanding pada data yang diambil dengan menggunakan keseluruhan data set.
Dalam tugas skhir ini pembahasannya adalah pada pembentukan sub sampel data. Prinsip dasar algoritma DBMDC (Density-Based Multiscale Data Condensation) adalah mengurutkan titik-titik berdasarkan estimated densities, memilih titik-titik yang padat dan menghapus titik lain yang berada dalam jarak tertentu dari titik yang dipilih sebagai bagian dari sampel data. Sehingga sampel data yang berukuran besar tersebut dapat digantikan dengan sebagian kecil dari perwakilan pola-pola sub sampel data yang memiliki informasi yang sama dengan data yang sebenarnya.