Walaupun teori tentang Principal Component Analysis (PCA) dari sudut pandang statistics ataupun information theory
dapat ditelusuri hingga tahun 1901, penggunaannya secara praktis
dimulai pada tahun 1980an seiring dengan perkembangan teknologi
komputer. Saat ini PCA merupakan metode yang sangat populer di berbagai
bidang seperti signal processing, neuroscience, machine learning, finance, hingga ke social science.
Secara umum, PCA digunakan untuk mencari atau menganalisis pola dari
data yang berdimensi banyak. Salah satu hal yang disukai dari PCA adalah
proses komputasi yang relatif efisien.
Di berbagai aplikasi, seringkali kumpulan
data yang berdimensi banyak dapat dijelaskan hanya dengan beberapa
variabel saja (mulai saat ini kita sebut variabel tsb dengan istilah
variabel latent). Ambil contoh kasus heart disease prediction
untuk mendeteksi apakah seseorang mengidap penyakit jantung diberikan
sejumlah variabel. Terdapat 76 variabel yang perlu dianalisis dimulai
dari usia, jenis kelamin, tekanan darah, detak jantung, dsb. Pertanyaan
yang sering diajukan pertama kali adalah mampukah prediksi tersebut
dilakukan dengan menggunakan lebih sedikit variabel dengan hanya memilih
variabel-variabel paling informatif ? Hal ini mungkin dilakukan secara
manual oleh human experts. Namun demikian, akan lebih elegan apabila komputer dapat mengidentifikasi variabel latent secara otomatis. Di Machine Learning, permasalahan ini dikaji secara intensif dalam sub-bidang yang dikenal sebagai Dimensionality Reduction.
Saat ini PCA telah berkembang menjadi
berbagai bentuk. Pada kesempatan kali ini saya coba bermain-main dengan
PCA beserta 2 variannya: Kernel Principal Component Analysis (KPCA) dan Transfer Component Analysis (TCA). Yang terakhir ini khusus dirancang untuk aplikasi transfer learning / domain adaptation.
No comments:
Post a Comment