Bab 11 Korelasi Antarvariabel Metrik
Capaian Pembelajaran
Setelah mempelajari bab ini, Anda diharapkan mampu memaknai hasil analisis korelasi pasangan variabel bertingkat pengukuran metrik dengan tepat STP-11.1
Setelah mempelajari korelasi antara dua variabel nominal dan ordinal, pada bab ini kita akan membahas bentuk pengujian asosiasi yang lebih kompleks, yaitu pengujian pada pasangan variabel berjenis metrik. Variabel metrik mencakup data dengan skala pengukuran interval maupun rasio. Variabel jenis ini memiliki nilai yang beragam dan bersifat numerik, sehingga dapat langsung diolah secara matematis.
Dalam analisis asosiasi, pengujian hubungan antarvariabel metrik dapat memberikan informasi yang lebih lengkap, meliputi (1) kekuatan hubungan, (2) arah hubungan (positif/searah atau negatif/berlawanan arah), dan (3) pola hubungan (linear atau non-linear).
Untuk asosiasi antarvariabel metrik, kita akan mempelajari dua koefisien, yaitu koefisien korelasi \(\rho\) (rho) Spearman dan koefisien \(r\) Pearson. Kedua ukuran ini didasarkan pada logika pengurangan kesalahan prediksi (Proportional Reduction of Error, PRE), seperti halnya \(\lambda\) pada ukuran asosiasi antarvariabel nominal dan pada ukuran-ukuran asosiasi antarvariabel ordinal. Artinya, pengujian dilakukan untuk melihat sejauh mana informasi dari satu variabel dapat mengurangi kesalahan prediksi terhadap nilai variabel lainnya.
11.1 Koefisien Korelasi \(\rho\) Spearman
Koefisien \(\rho\) Spearman digunakan untuk mengukur tingkat asosiasi antara dua variabel interval (atau bisa salah satunya saja) dan tidak mensyaratkan distribusi data yang normal. Kondisi ini menjadikan pengukuran asosiasi menggunakan \(\rho\) Spearman lebih fleksibel, karena dapat diterapkan tanpa perlu terlebih dahulu mengidentifikasi bentuk distribusi datanya.
Catatan
Ingat kembali perbedaan mendasar antara tingkat pengukuran variabel interval dan rasio, yakni bahwa variabel interval adalah variabel angka yang titik nolnya tidak absolut.
Yang dimaksud dengan “tidak absolut” adalah tidak ada posisi nilai nol mutlak yang berarti untuk variabel tersebut. Contoh paling mudah adalah variabel rating yang memiliki rentang panjang, seperti 0 hingga 10 (apalagi jika menggunakan desimal).Tidak ada makna nol absolut dalam sebuah rating, karena rating bersifat subjektif tidak bisa dibuat titik nol universal.
Contoh lain adalah temperatur/suhu, yang memiliki titik nol berbeda-beda tergantung dari termometernya, serta tahun, tergantung dari kalendernya
Secara konseptual, logika pengukuran \(\rho\) Spearman serupa dengan koefisien \(\gamma\), \(d\) Sommer, maupun \(\tau_b\) Kendall, yaitu dengan mempertimbangkan urutan (peringkat) pasangan kasus untuk mengetahui ada tidaknya hubungan antara dua variabel. Dalam analisis ini, nilai setiap variabel terlebih dahulu diubah menjadi peringkat sebelum dilakukan perhitungan asosiasinya.
Koefisien \(\rho\) Spearman ini dapat diukur dengan rumus:
\[ \rho = 1 - \frac{6 \sum D_i^2}{n(n^2 - 1)} \tag{11.1} \]
dengan:
- \(D_i\) adalah selisih peringkat antara dua variabel
- \(n\) adalah jumlah pasangan kasus
Nilai koefisien \(\rho\) Spearman berkisar antara 0 hingga 1, yang menggambarkan kekuatan hubungan antardua variabel (lihat Tabel 9.13 untuk pedoman interpretasi kekuatan hubungan koefisien korelasi). Selain itu, nilai \(\rho\) Spearman dapat bernilai positif (+) maupun negatif (−), yang menunjukkan arah hubungan antar kedua variabel.
Hasil kuadrat dari koefisien \(\rho\) Spearman (\(\rho^2\)) menggambarkan besarnya kemampuan peningkatan keakuratan prediksi suatu variabel berdasarkan informasi dari variabel lainnya. Dengan kata lain, semakin besar nilai \(\rho^2\), semakin tinggi pula kemampuan satu variabel dalam menjelaskan variasi yang terjadi pada variabel pasangannya.
Mari pelajari kasus berikut untuk lebih memahami penggunaan koefisien korelasi \(\rho\) Spearman.
Studi Kasus: Mengukur Asosiasi Antarvariabel Metrik dengan \(\rho\) Spearman
Agar proses perhitungan \(\rho\) Spearman lebih mudah dipahami, kita akan menggunakan data sampel berukuran kecil. Dari 12 mahasiswa, kita mendapatkan data berupa jarak tempuh tempat tinggal ke kampus (dalam km) dan skor kepuasan berkuliah dari 0 sampai 20. Datanya ditampilkan dalam Tabel 11.1.
| Mahasiswa | Jarak Tempuh (km) | Skor Kepuasan Berkuliah |
|---|---|---|
| 1 | 2 | 18 |
| 2 | 5 | 15 |
| 3 | 3 | 17 |
| 4 | 10 | 10 |
| 5 | 8 | 12 |
| 6 | 1 | 19 |
| 7 | 15 | 8 |
| 8 | 12 | 9 |
| 9 | 7 | 13 |
| 10 | 4 | 16 |
| 11 | 9 | 11 |
| 12 | 6 | 14 |
Langkah awal untuk menghitung koefisien \(\rho\) Spearman adalah dengan memberikan peringkat pada setiap nilai dari masing-masing variabel yang akan diuji. Dalam hal ini, seluruh nilai pada kedua variabel diberi peringkat berdasarkan urutannya, dari nilai terkecil hingga terbesar.
| Mahasiswa | Jarak Tempuh (km) | Peringkat Jarak | Skor Kepuasan Berkuliah | Peringkat Skor Kepuasan |
|---|---|---|---|---|
| 1 | 2 | 2 | 18 | 11 |
| 2 | 5 | 5 | 15 | 8 |
| 3 | 3 | 3 | 17 | 10 |
| 4 | 10 | 10 | 10 | 3 |
| 5 | 8 | 8 | 12 | 5 |
| 6 | 1 | 1 | 19 | 12 |
| 7 | 15 | 12 | 8 | 1 |
| 8 | 12 | 11 | 9 | 2 |
| 9 | 7 | 7 | 13 | 6 |
| 10 | 4 | 4 | 16 | 9 |
| 11 | 9 | 9 | 11 | 4 |
| 12 | 6 | 6 | 14 | 7 |
Setelah proses pemberian peringkat dilakukan, langkah berikutnya adalah menghitung selisih peringkat (\(D\)) antara kedua variabel untuk setiap responden. Untuk meringkas demonstrasi, kolom nilai asli disembunyikan sehingga kita fokus pada peringkat dan selisihnya.
| Mahasiswa | Peringkat Jarak | Peringkat Skor Kepuasan | Selisih Peringkat (D) | Kuadrat Selisih Peringkat (D^2) |
|---|---|---|---|---|
| 1 | 2 | 11 | -9 | 81 |
| 2 | 5 | 8 | -3 | 9 |
| 3 | 3 | 10 | -7 | 49 |
| 4 | 10 | 3 | 7 | 49 |
| 5 | 8 | 5 | 3 | 9 |
| 6 | 1 | 12 | -11 | 121 |
| 7 | 12 | 1 | 11 | 121 |
| 8 | 11 | 2 | 9 | 81 |
| 9 | 7 | 6 | 1 | 1 |
| 10 | 4 | 9 | -5 | 25 |
| 11 | 9 | 4 | 5 | 25 |
| 12 | 6 | 7 | -1 | 1 |
Dari Tabel 11.3 kolom terakhir, dapat kita hitung bahwa total kuadrat selisih peringkat (\(\sum D^2\)) adalah sebesar 572. Dengan persamaan (11.1), maka koefisien korelasi \(\rho\) Spearman dapat dihitung sebagai berikut.
\[ \begin{aligned} \rho &= 1 - \frac{6 \sum D_i^2}{n(n^2 - 1)} \\ &= 1 - \frac{6 \times 572}{12(12^2 - 1)} \\ &= 1 - \frac{3432}{12(144 - 1)} \\ &= 1 - \frac{3432}{12(143)} \\ &= 1 - \frac{3432}{1716} \\ &= 1 - 2 \\ &= -1 \end{aligned} \]
Berdasarkan hasil perhitungan, diketahui bahwa nilai \(\rho = -1{,}00\) yang menunjukkan hubungan sempurna antara jarak tempuh dan tingkat kepuasan. Nilai koefisien ini juga bernilai negatif yang menunjukkan arah yang berlawanan antara kedua variabel tersebut. Interpretasinya adalah apabila jarak perjalanan semakin jauh maka tingkat kepuasan akan semakin rendah.
11.2 Koefisien Korelasi \(r\) Pearson
Sebelum mempelajari lebih lanjut tentang koefisien korelasi \(r\) Pearson, mari kita pahami terlebih dahulu konsep dari kovariansi. Perlu dipahami terlebih dahulu bahwa kovariansi digunakan untuk mengukur hubungan antara dua variabel dengan skala interval maupun rasio (Chan 2021b). Dalam hubungan antara dua variabel metrik, kita menilai bahwa ada hubungan antara kedua variabel tersebut berdasarkan adanya kovariansi (covariance).
11.2.1 Dari Variansi ke Kovariansi
Untuk memahami kovariansi, ingatlah kembali konsep varians. Varians mengukur sejauh mana data dalam satu variabel menyebar dari nilai rata-ratanya. Jika kita memiliki variabel \(X\), maka varians (\(s^2\)) dihitung dengan menjumlahkan kuadrat selisih antara setiap data (\(x_i\)) dengan rata-ratanya (\(\bar{x}\)):
\[ s^2_x = \frac{\sum (x_i - \bar{x})^2}{n-1} \]
Sekarang, bayangkan kita memiliki dua variabel, \(x\) dan \(y\). Kita ingin tahu apakah ketika \(x\) menyimpang dari rata-ratanya, \(y\) juga cenderung menyimpang dalam arah yang sama atau berlawanan. Konsep ini disebut kovariansi.
Secara matematis, alih-alih menguadratkan selisih satu variabel, kita mengalikan selisih \(x\) dengan selisih \(y\):
\[ cov(x, y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1} \tag{11.2} \]
Logika kovariansi:
- Positif: Jika saat \(x\) berada di atas rata-rata, \(y\) juga cenderung berada di atas rata-rata, maka hasil perkaliannya positif. Jika keduanya di bawah rata-rata, hasil perkaliannya juga positif. Ini menunjukkan hubungan searah.
- Negatif: Jika saat \(x\) di atas rata-rata, \(y\) justru di bawah rata-rata, hasil perkaliannya menjadi negatif. Ini menunjukkan hubungan berlawanan arah.
- Mendekati Nol: Jika tidak ada pola yang konsisten, nilai positif dan negatif akan saling meniadakan saat dijumlahkan, menghasilkan kovariansi yang mendekati nol.
11.2.2 Masalah pada Kovariansi: Skala dan Unit
Kovariansi sangat berguna untuk mengetahui arah hubungan, namun ia memiliki kelemahan besar: besaran nilainya sangat bergantung pada unit pengukuran.
Jika kita mengukur jarak dalam meter alih-alih kilometer, nilai kovariansinya akan melonjak drastis meskipun hubungan aslinya tidak berubah. Hal ini membuat kita sulit menentukan seberapa “kuat” hubungan tersebut hanya dengan melihat angka kovariansi.
Studi Kasus: Masalah Skala dan Unit pada Kovariansi
Seorang perencana ingin menguji hubungan antara Jarak ke Taman Kota (\(x\)) dan Indeks Kualitas Udara (\(y\)) di 5 lokasi. Data awalnya adalah sebagai berikut:
| Lokasi | Jarak (km) | Kualitas Udara (Indeks) |
|---|---|---|
| A | 0,5 | 80 |
| B | 1,2 | 75 |
| C | 2,5 | 60 |
| D | 3,0 | 55 |
| E | 4,5 | 40 |
Perhitungan kovariansi untuk data tersebut kita mulai dengan perhitungan rata-rata dari masing-masing variabel. Untuk variabel jarak tempuh dalam kilometer, rata-ratanya adalah \(\bar{x} = \frac{0{,}5 + 1{,}2 + 2{,}5 + 3{,}0 + 4{,}5}{5} = 2,34\) kilometer. Sementara itu, rata-rata kualitas udara adalah \(\bar{y} = \frac{80 + 75 + 60 + 55 + 40}{5} = 62\).
Sekarang kita akan menghitung kovariansinya menggunakan persamaan (11.2):
\[ \begin{aligned} \text{cov}(X, Y) &= \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} \\ &= \frac{(0{,}5 - 2,34)(80 - 62) + (1,2 - 2,34)(75 - 62) + \dots}{5-1} \\ &= \frac{-100,4}{4} \\ &= -25,1 \end{aligned} \]
Bagaimana jika kita mengubah satuan jarak tempuh dari kilometer menjadi meter? Berikut adalah dataset yang kita miliki:
| Lokasi | Jarak (meter) | Kualitas Udara (Indeks) |
|---|---|---|
| A | 500 | 80 |
| B | 1.200 | 75 |
| C | 2.500 | 60 |
| D | 3.000 | 55 |
| E | 4.500 | 40 |
Rata-rata jarak tempuh dalam meter sekarang adalah \(2.340\) meter. Dan ketika kita menghitung kovariansinya, nilainya menjadi:
\[ \begin{aligned} \text{cov}(X, Y) &= \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} \\ &= \frac{(500 - 2.340)(80 - 62) + (1200 - 2.340)(75 - 62) + \dots}{5-1} \\ &= \frac{-100.400}{4} \\ &= -25.100 \end{aligned} \]
Karena nilai selisih \((x_i - \bar{x})\) membesar 1000 kali lipat, maka nilai total kovariansi juga akan membesar 1000 kali lipat. Hal ini menunjukkan bahwa kovariansi tidak stabil terhadap perubahan unit pengukuran.
11.2.3 Standardisasi Kovariansi dengan Koefisien Korelasi \(r\) Pearson
Untuk mengatasi masalah unit tersebut, Karl Pearson (1895) mengusulkan agar kovariansi “distandarisasi”. Caranya adalah dengan membagi kovariansi dengan hasil kali standar deviasi kedua variabel (\(s_x\) dan \(s_y\)). Indeks hasil standardisasi ini dikenal sebagai Koefisien Korelasi Pearson (\(r\)):
\[ r = \frac{Cov(x,y)}{s_x s_y}\tag{11.3} \]
dengan:
- \(Cov(x,y)\) adalah kovariansi antara variabel x dan y
- \(s_x\) adalah simpangan baku variabel x
- \(s_y\) adalah simpangan baku variabel y
atau jika kita nyatakan dalam bentuk variabel-variabel yang dianalisis, maka persamaannya adalah:
\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}\tag{11.4} \]
dengan:
- \(x_i\) adalah nilai variabel x ke-i
- \(y_i\) adalah nilai variabel y ke-i
- \(\bar{x}\) adalah rata-rata variabel x
- \(\bar{y}\) adalah rata-rata variabel y
- \(n\) adalah jumlah observasi
Interpretasi dari nilai ini juga lebih sederhana: rentang nilai \(r\) selalu berada di antara \(-1{,}00\) sampai dengan \(+1{,}00\), yang berarti jika tandanya positif maka kedua variabel bergerak searah, sedangkan jika tandanya negatif maka kedua variabel bergerak berlawanan arah. Semakin mendekati nilai mutlak 1, maka semakin kuat hubungan antara kedua variabel tersebut.
Studi Kasus: Menghitung Korelasi Pearson
Kita akan menggunakan kembali data Jarak ke Taman Kota (\(x\)) dalam kilometer dan Indeks Kualitas Udara (\(y\)) dari contoh sebelumnya. Kita telah mengetahui bahwa:
-
\(Cov(x,y) = -25,1\)
-
\(\bar{x} = 2,34\)
-
\(\bar{y} = 62\)
-
\(s_x = 1,566206\)
- \(s_y = 16,04681\)
Dengan menggunakan persamaan (11.3), kita dapat menghitung nilai korelasi sebagai berikut:
\[ \begin{aligned} r &= \frac{Cov(x,y)}{s_x s_y} \\ &= \frac{-25,1}{1,566206 \times 16,04681} \\ &= \frac{-25,1}{25,1326} \\ &= -0,9987029 \end{aligned} \]
Bila dihitung menggunakan persamaan dalam bentuk variabel-variabel yang dianalisis seperti pada (11.4), maka hasilnya adalah:
\[ \begin{aligned} r &= \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} \\ &= \frac{(0{,}5 - 2,34)(80 - 62) + (1{,}2 - 2,34)(75 - 62) + \dots}{\sqrt{((0{,}5 - 2,34)^2 + (1{,}2 - 2,34)^2 + \dots)} \sqrt{((80 - 62)^2 + (75 - 62)^2 + \dots)}} \\ &= \frac{-0,9987029}{25,1326} \\ &= -0,9987029 \end{aligned} \]
Untuk memudahkan pengecekan, berikut adalah hasil pengolahan dari data mentah yang kita miliki:
| Lokasi | Jarak (km) | Kualitas Udara (Indeks) |
|---|---|---|
| A | 0,5 | 80 |
| B | 1,2 | 75 |
| C | 2,5 | 60 |
| D | 3,0 | 55 |
| E | 4,5 | 40 |
Nilai koefisien korelasi Pearson adalah -0,9987029, yang menunjukkan adanya hubungan linear negatif yang kuat antara jarak ke taman kota dan kualitas udara. Semakin jauh jarak ke taman kota, semakin rendah kualitas udaranya.
11.3 Pola Hubungan Data Metrik
Pola hubungan data metrik adalah bentuk visual dari titik-titik yang ada dalam scatter plot antara variabel-variabel metrik yang kita analisis. Dari pola dalam scatter plot kita juga sebenarnya dapat menelaah elemen-elemen hubungan lainnya: keberadaan dan kekuatan serta arah hubungan. Gambar 11.1 menjelaskan maksud hal tersebut.

Gambar 11.1: Pola Hubungan Linear dan Ketiadaan Hubungan pada Scatter Plot
Grafik (a) dan (b) menunjukkan pola hubungan linear karena sebaran titik-titik membentuk pola garis lurus yang berarti keberadaan hubungan antara variabel-variabel metrik yang dianalisis dapat dikonfirmasi. Sementara itu, ketiadaan hubungan diperlihatkan oleh grafik (c) dan (d) yang kumpulannya tidak membentuk pola apapun (tidak beraturan).
Kekuatan hubungan dilihat dari kerapatan titik-titik. Titik-titik yang mengumpul dengan rapat menandakan hubungan yang kuat, sementara hubungan yang lemah diperlihatkan oleh kumpulan titik-titik yang renggang.
Arah hubungan dilihat dari arah kemiringan garis. Kemiringan ke atas menandakan hubungan yang positif atau searah. Hal ini dapat dilihat dari titik-titik yang berada di bawah garis merah (horizontal)—lebih kecil—juga berada di kiri garis biru (vertikal)—lebih kecil juga. Di sisi lain, kemiringan ke bawah menandakan hubungan yang negatif atau berlawanan. Titik-titik yang berada di bawah garis merah (horizontal)—lebih kecil—berada di kanan garis biru (vertikal)—lebih besar.
Pola hubungan lain adalah nonlinear. Hubungan nonlinear adalah hubungan yang, seperti namanya, tidak linear. Hubungan-hubungan nonlinear ini biasanya mengandung fungsi-fungsi matematis nonlinear seperti fungsi kuadrat (quadratic, \(x^2\)), kubik (cubic, \(x^3\)), eksponensial (exponential, \(e^x\)) atau sinusoidal (\(sin(x)\)). Hal ini diperjelas dengan ilustrasi yang ada di Gambar 11.2 berikut.

Gambar 11.2: Pola Hubungan Linear dan Ketiadaan Hubungan pada Scatter Plot
Studi Kasus: Pola Hubungan Jarak dengan IKU
Untuk memahami gambaran hubungan antarvariabel metrik secara lebih luas, mari kita perhatikan hasil pengolahan data jarak ke taman dan kualitas udara dari 30 lokasi yang disajikan dalam Gambar 11.3.

Gambar 11.3: Scatter Plot Hubungan Jarak ke Taman dengan IKU
Berdasarkan pengamatan visual terhadap titik-titik koordinat tersebut, kita dapat menelaah elemen hubungan sebagai berikut:
- Keberadaan: Terdapat pola yang jelas di mana titik-titik tersebut tidak menyebar secara acak, melainkan mengikuti kecenderungan arah tertentu. Hal ini mengonfirmasi adanya hubungan antara jarak ke taman dan kualitas udara.
- Kekuatan: Hubungan ini dapat dikategorikan cukup kuat hingga kuat karena kumpulan titik-titik tersebut mengelompok dengan relatif rapat mengikuti satu garis imajiner, bukan menyebar luas secara berjauhan.
- Arah: Hubungan bersifat negatif atau berlawanan arah. Hal ini ditunjukkan oleh kemiringan pola yang menurun dari kiri atas ke kanan bawah, yang berarti semakin jauh jarak ke taman (nilai \(x\) membesar), maka kualitas udara cenderung semakin rendah (nilai \(y\) mengecil).
- Pola: Secara visual, sebaran titik-titik tersebut lebih mendekati bentuk garis lurus (linear) daripada bentuk melengkung (nonlinear). Oleh karena itu, kita dapat menyimpulkan bahwa hubungan kedua variabel ini mengikuti pola hubungan linear.
Kerjakanlah soal-soal berikut untuk menguji pemahaman Anda mengenai korelasi variabel metrik.
Soal Evaluasi 13
Perhatikan tabel terkait jarak rumah ke fasilitas kesehatan, frekuensi kunjungan per tahun, dan tingkat kepuasan terhadap fasilitas kesehatan berikut. Lakukanlah pengujian asosiasi pada masing-masing variabel berikut: (i) jarak dan frekuensi kunjungan; dan (ii) frekuensi kunjungan dan kepuasan.
| Responden | Jarak (km) | Frekuensi Kunjungan | Tingkat Kepuasan terhadap Faskes (0-20) |
|---|---|---|---|
| 1 | 1,2 | 10 | 18 |
| 2 | 2,5 | 8 | 16 |
| 3 | 3,8 | 7 | 15 |
| 4 | 5,0 | 6 | 14 |
| 5 | 0,8 | 12 | 19 |
| 6 | 4,5 | 7 | 15 |
| 7 | 6,2 | 4 | 12 |
| 8 | 2,0 | 9 | 17 |
| 9 | 3,2 | 8 | 15 |
| 10 | 5,5 | 6 | 13 |
| 11 | 7,0 | 3 | 11 |
| 12 | 1,0 | 11 | 18 |
| 13 | 4,0 | 7 | 15 |
| 14 | 6,8 | 4 | 12 |
| 15 | 3,5 | 8 | 16 |
- Tentukan koefisien yang pas digunakan untuk menyatakan korelasi kedua variabel pada masing-masing pasangan korelasi variabel (i, ii) (\(\rho\) Spearman atau \(r\) Pearson).
- Hitung dan interpretasikan nilai-nilai tersebut sesuai makna koefisien tersebut dalam konsepnya (Tuliskan langkah-langkah sesuai penjelasan pada bagian konsep).
- Apa yang bisa kita simpulkan dari hasil perhitungan koefisien-koefisien tersebut?