Mengoptimalkan Model Machine Learning: Teknik Data Preprocessing yang Wajib Dikuasai

foto : Morfogenesis Teknologi Indonesia Creative Team

Machine Learning (ML) telah menjadi tulang punggung transformasi digital berbagai industri, mulai dari perbankan hingga kesehatan. Namun, banyak praktisi baru yang terlalu fokus pada pemilihan algoritma canggih, lupa bahwa kualitas data yang masuk menentukan setengah keberhasilan model. Data preprocessing adalah fondasi yang memastikan algoritma menerima input berkualitas tinggi, sehingga mampu belajar secara optimal tanpa terpengaruh noise, missing value, atau skala yang tidak sesuai.

Proses preprocessing bukan sekadar pembersihan data, melainkan rangkaian strategi yang dirancang untuk mengubah data mentah menjadi informasi yang siap diproses. Tanpa langkah ini, bahkan model sekuat Gradient Boosting atau Deep Neural Network bisa menghasilkan prediksi yang bias, overfitting, atau bahkan sama sekali tidak akurat. Studi dari MIT menunjukkan bahwa 60% waktu proyek ML dihabiskan untuk preprocessing, menggambarkan betapa krusial tahap ini dalam pipeline data science.

1. Handling Missing Value
Missing value bisa muncul karena kesalahan input, kerusakan sensor, atau proses ETL yang tidak sempurna. Teknik penanganannya bergantung pada mekanisme hilangnya data: Missing Completely at Random (MCAR), Missing at Random (MAR), atau Missing Not at Random (MNAR). Deletion (listwise atau pairwise) cocok untuk MCAR dengan proporsi kecil. Imputasi mean atau median efektif untuk data numerik simetrik, sedangkan imputasi modus digunakan untuk kategorik. Untuk hubungan kompleks antara fitur, algoritma K-Nearest Neighbors (KNN) atau Multiple Imputation by Chained Equations (MICE) mampu memprediksi nilai yang hilang dengan lebih akurat.

2. Outlier Detection dan Treatment
Outlier bisa menjadi sinyal penting atau noise yang merusak distribusi. Metode statistik seperti IQR (Interquartile Range) dan Z-score efektif untuk data univariat. IQR mendefinisikan outlier sebagai titik di luar 1,5 kali IQR dari Q1 atau Q3. Untuk multivariat, teknik berbasis jarak seperti Mahalanobis Distance atau Isolation Forest memanfaatkan hubungan antar fitur. Setelah terdeteksi, outlier bisa dihapus, diwinsorize, atau ditransformasi. Penting untuk mengevaluasi dampaknya terhadap performa model; kadang outlier justru mengandung informasi penting, misalnya pada deteksi penipuan.

3. Encoding Kategorikal
Algoritma ML bekerja pada vektor numerik, sehingga fitur kategorik harus dikonversi. Label Encoding cocok untuk fitur ordinal (misalnya tingkat pendidikan), tetapi bisa menimbulkan bias hubungan ordinal pada fitur nominal. One-Hot Encoding menghasilkan vektor biner, ideal untuk nominal, namun memicu curse of dimensionality jika kardinalitas tinggi. Alternatif modern adalah Target Encoding yang menggantikan kategori dengan rata-rata target, namun perlu diperhatikan overfitting dengan teknik regularisasi seperti cross-validation atau smoothing.

4. Feature Scaling
Algoritma berbasis jarak seperti K-Means, SVM, atau Neural Network sangat sensitif terhadap skala. Min-Max Scaling memampatkan data ke rentang [0, 1], cocok untuk distribusi tersimpan. StandardScaler mengubah data menjadi mean 0 dan varians 1, ideal untuk distribusi mendekati normal. RobustScaler menggunakan median dan IQR, lebih tahan terhadap outlier. Pilihan scaler harus diselaraskan dengan distribusi data dan tipe model; contohnya, StandardScaler sering meningkatkan konvergensi pada model linear.

5. Transformasi Distribusi
Distribusi data yang miring atau heavy-tailed bisa menghambat konvergensi model. Log Transform meredam skewness positif dan meminimalkan efek heteroskedastisitas. Box-Cox menawarkan parameter λ yang dioptimasi untuk memaksimalkan normalitas, tetapi hanya untuk data positif. Yeo-Johnson adalah varian yang memperluas cakupan ke data non-positif. Untuk fitur dengan banyak nol, transformasi seperti square root atau cube root bisa dipertimbangkan. Evaluasi normalitas bisa menggunakan Shapiro-Wilk atau Kolmogorov-Smirnov, namun pada data besar, visualisasi Q-Q plot sering lebih informatif.

6. Dimensionality Reduction
High dimensionality meningkatkan risiko overfitting dan kompleksitas komputasi. Principal Component Analysis (PCA) memproyeksikan data ke sumbu dengan varians maksimal, sering mempertahankan 95% informasi dengan jauh lebih sedikit komponen. Alternatif non-linear seperti t-SNE atau UMAP cocok untuk visualisasi, tetapi tidak untuk modeling karena tidak memiliki fungsi inverse. Untuk dataset dengan fitur berkorelasi tinggi, teknik berbasis filter (correlation threshold) atau embedded (Lasso, Ridge) bisa menghapus fitur redundant tanpa kehilangan performa prediktif.

Contoh Kasus: Dataset Penjualan E-commerce
Dataset berisi 1 juta transaksi dengan fitur: usia, gender, jumlah produk, kategori, harga, metode pembayaran, dan label konversi. Missing value di kolom usia (8%) diisi dengan median per kelompok gender. Outlier harga di atas 3 IQR dipangkas menggunakan capping. Gender diubah dengan One-Hot, kategori dengan Target Encoding berkat kardinalitas 500+ label. Harga dan jumlah produk distandardisasi, sedangkan distribusi usia diputarkan menggunakan Box-Cox. Akhirnya, 60 fitur dikurangi menjadi 15 komponen PCA. Hasilnya, AUC model XGBoost meningkat dari 0,82 menjadi 0,91 hanya karena preprocessing yang tepat.

Kesimpulan dan Praktik Terbaik
Data preprocessing bukan tugas sekali selesai, tetapi proses iteratif yang memerlukan eksperimen berkelanjutan. Selalu mulai dengan eksplorasi menyeluruh: profil statistik, visualisasi distribusi, dan matriks korelasi. Dokumentasikan setiap transformasi untuk reproduktivitas. Gunakan pipeline otomatisasi seperti Scikit-learn Pipeline atau PySpark Pipeline agar proses training dan inference konsisten. Terakhir, evaluasi dampak setiap langkah terhadap metrik bisnis, bukan hanya metrik teknis, karena tujuan akhir adalah menciptakan nilai nyata bagi organisasi.

Ingin mengoptimalkan model machine learning Anda tanpa pusing membangun pipeline preprocessing dari nol? Morfotech.id hadir sebagai developer aplikasi berpengalaman yang siap merancang solusi end-to-end, mulai dari data ingestion, preprocessing otomatis, hingga deployment model. Konsultasikan kebutuhan Anda melalui WhatsApp +62 811-2288-8001 atau kunjungi https://morfotech.id untuk mendapatkan demo langsung dan estimasi waktu pengembangan.

Sumber:

AI Morfotech - Morfogenesis Teknologi Indonesia AI Team

Rabu, September 24, 2025 4:11 AM