Analisis korelasi adalah metode statistik yang digunakan untuk mengukur kekuatan dan arah hubungan antara dua variabel numerik. Koefisien korelasi adalah nilai numerik yang meringkas hubungan ini.
Apa itu Korelasi?
Korelasi mengukur sejauh mana dua variabel bergerak bersama.
- Korelasi Positif: Ketika satu variabel meningkat, variabel lainnya cenderung meningkat.
- Korelasi Negatif: Ketika satu variabel meningkat, variabel lainnya cenderung menurun.
- Tidak Ada Korelasi: Tidak ada pola pergerakan bersama yang jelas antara dua variabel.
Penting untuk diingat bahwa korelasi tidak menyiratkan sebab-akibat (causation). Dua variabel mungkin berkorelasi kuat karena kebetulan atau karena keduanya dipengaruhi oleh variabel ketiga (variabel perancu).
Jenis Korelasi Umum
Dua jenis koefisien korelasi yang paling umum digunakan adalah:
- Korelasi Pearson (\(r\)): Mengukur hubungan linier.
- Korelasi Spearman (\(\rho\) atau \(r_s\)): Mengukur hubungan monotonik.
Korelasi Pearson (Product-Moment Correlation Coefficient)
Deskripsi
- Mengukur kekuatan dan arah hubungan linier antara dua variabel numerik kontinu (skala interval atau rasio).
- Nilai koefisien korelasi Pearson (\(r\)) berkisar antara -1 dan +1.
- \(r = +1\): Korelasi linier positif sempurna.
- \(r = -1\): Korelasi linier negatif sempurna.
- \(r = 0\): Tidak ada hubungan linier.
-
Semakin dekat $$ r $$ ke 1, semakin kuat hubungan liniernya.
- Sensitif terhadap outlier (nilai ekstrem).
- Paling umum digunakan.
Syarat Penggunaan Korelasi Pearson:
- Skala Data: Kedua variabel harus berskala interval atau rasio.
- Hubungan Linier: Diasumsikan ada hubungan linier antara variabel. Visualisasikan dengan scatter plot.
- Normalitas (Idealnya): Untuk inferensi (uji signifikansi korelasi), idealnya kedua variabel berdistribusi normal. Namun, untuk deskripsi saja, ini kurang krusial.
- Tidak Banyak Outlier: Outlier dapat sangat memengaruhi nilai \(r\).
- Homoskedastisitas: Varians dari satu variabel sebaiknya konstan di semua level variabel lainnya (terlihat pada scatter plot).
Rumus Korelasi Pearson (\(r\)):
\(r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}}\) Atau, menggunakan kovariansi dan simpangan baku: \(r = \frac{\text{Cov}(X, Y)}{s_X s_Y}\) Dimana:
- \(X_i, Y_i\) adalah nilai individu dari variabel X dan Y.
- \(\bar{X}, \bar{Y}\) adalah rata-rata dari variabel X dan Y.
- \(s_X, s_Y\) adalah simpangan baku sampel dari variabel X dan Y.
- \(\text{Cov}(X, Y)\) adalah kovariansi antara X dan Y.
- \(n\) adalah jumlah pasangan data.
Interpretasi Nilai \(r\):
- \(r > 0\): Hubungan positif (semakin besar X, semakin besar Y).
- \(r < 0\): Hubungan negatif (semakin besar X, semakin kecil Y).
- \(r \approx 0\): Tidak ada hubungan linier (mungkin ada hubungan non-linier).
Contoh Kasus Perhitungan Korelasi Pearson:
Misalkan kita memiliki data Jam Belajar (X) dan Nilai Ujian (Y) untuk 5 siswa:
| Jam Belajar (X) | Nilai Ujian (Y) |
|---|---|
| 1 | 50 |
| 2 | 60 |
| 3 | 65 |
| 4 | 70 |
| 5 | 80 |
Langkah-Langkah Perhitungan:
- Hitung rata-rata (\(\bar{X}, \bar{Y}\)):
- \[\bar{X} = (1+2+3+4+5)/5 = 15/5 = 3\]
- \[\bar{Y} = (50+60+65+70+80)/5 = 325/5 = 65\]
-
Buat tabel untuk menghitung komponen rumus:
\(X_i\) \(Y_i\) \(X_i - \bar{X}\) \(Y_i - \bar{Y}\) \((X_i - \bar{X})(Y_i - \bar{Y})\) \((X_i - \bar{X})^2\) \((Y_i - \bar{Y})^2\) 1 50 -2 -15 30 4 225 2 60 -1 -5 5 1 25 3 65 0 0 0 0 0 4 70 1 5 5 1 25 5 80 2 15 30 4 225 Sum ย ย ย 70 10 500 - Masukkan ke rumus Pearson:
- \[\sum(X_i - \bar{X})(Y_i - \bar{Y}) = 70\]
- \[\sum(X_i - \bar{X})^2 = 10\]
- \[\sum(Y_i - \bar{Y})^2 = 500\]
Hasil: \(r \approx 0.99\). Ini menunjukkan hubungan linier positif yang sangat kuat antara jam belajar dan nilai ujian.
```r
Data contoh
X_data <- c(1, 2, 3, 4, 5) Y_data <- c(50, 60, 65, 70, 80)
Hitung korelasi Pearson di R
pearson_r <- cor(X_data, Y_data, method = โpearsonโ) print(paste(โKorelasi Pearson (r):โ, round(pearson_r, 2))) Use code with caution. Output R: [1] โKorelasi Pearson (r): 0.99โ Use code with caution. Korelasi Spearman (Rank Correlation Coefficient) Deskripsi Mengukur kekuatan dan arah hubungan monotonik antara dua variabel. Hubungan monotonik adalah hubungan di mana saat satu variabel meningkat, variabel lainnya secara konsisten meningkat atau secara konsisten menurun, tetapi tidak harus dengan laju yang konstan (tidak harus linier). Bekerja pada peringkat (rank) dari data, bukan nilai aktualnya. Ini membuatnya kurang sensitif terhadap outlier. Cocok untuk data ordinal atau data interval/rasio yang tidak memenuhi asumsi Pearson (misalnya, hubungan non-linier tapi monotonik, atau ada outlier signifikan). Nilai koefisien korelasi Spearman ( ฯ ฯ atau r s r s โ
) juga berkisar antara -1 dan +1, dengan interpretasi serupa Pearson namun untuk hubungan monotonik. Tidak memerlukan asumsi distribusi normal.
Kiri: Data dengan hubungan linier (cocok untuk Pearson). Kanan: Data dengan hubungan non-linier tapi monotonik (cocok untuk Spearman). Rumus Korelasi Spearman ( ฯ ฯ ): Jika tidak ada nilai yang sama (no ties) dalam peringkat: ฯ = 1 โ 6 โ d i 2 n ( n 2 โ 1 ) ฯ=1โ n(n 2 โ1) 6โd i 2 โ
โ
Dimana: d i d i โ
adalah selisih antara peringkat pasangan data ke- i i ( Rank ( X i ) โ Rank ( Y i ) Rank(X i โ )โRank(Y i โ ) ). n n adalah jumlah pasangan data. Jika ada nilai yang sama (ties) dalam peringkat: Cara paling umum adalah dengan memberikan peringkat rata-rata pada nilai yang sama, kemudian menghitung koefisien korelasi Pearson pada data peringkat tersebut. Jadi, rumusnya menjadi: ฯ = โ i = 1 n ( R ( X i ) โ R ( X ) โพ ) ( R ( Y i ) โ R ( Y ) โพ ) โ i = 1 n ( R ( X i ) โ R ( X ) โพ ) 2 โ i = 1 n ( R ( Y i ) โ R ( Y ) โพ ) 2 ฯ= โ i=1 n โ (R(X i โ )โ R(X) โ ) 2 โ i=1 n โ (R(Y i โ )โ R(Y) โ ) 2
โ
โ i=1 n โ (R(X i โ )โ R(X) โ )(R(Y i โ )โ R(Y) โ ) โ
Dimana: R ( X i ) , R ( Y i ) R(X i โ ),R(Y i โ ) adalah peringkat dari X i X i โ
dan Y i Y i โ
. R ( X ) โพ , R ( Y ) โพ R(X) โ , R(Y) โ
adalah rata-rata dari peringkat X dan Y. Contoh Kasus Perhitungan Korelasi Spearman (Tanpa Ties): Data nilai Matematika (X) dan Bahasa Inggris (Y) untuk 5 siswa. Siswa Math (X) English (Y) Rank X Rank Y d i = R ( X ) โ R ( Y ) d i โ =R(X)โR(Y) d i 2 d i 2 โ
A 86 92 2 1 1 1 B 97 89 1 2 -1 1 C 85 85 3 3 0 0 D 80 82 4 4 0 0 E 70 78 5 5 0 0 Sum d i 2 d i 2 โ
2 Peringkat: Nilai tertinggi mendapat peringkat 1. n = 5 n=5 โ d i 2 = 1 + 1 + 0 + 0 + 0 = 2 โd i 2 โ =1+1+0+0+0=2 Menggunakan rumus Spearman (tanpa ties): ฯ = 1 โ 6 ร 2 5 ( 5 2 โ 1 ) = 1 โ 12 5 ( 24 ) = 1 โ 12 120 = 1 โ 0.1 = 0.9 ฯ=1โ 5(5 2 โ1) 6ร2 โ =1โ 5(24) 12 โ =1โ 120 12 โ =1โ0.1=0.9
Hasil: ฯ = 0.9 ฯ=0.9 . Ini menunjukkan hubungan monotonik positif yang sangat kuat antara nilai Matematika dan Bahasa Inggris.
Data contoh Spearman
math_scores <- c(86, 97, 85, 80, 70) english_scores <- c(92, 89, 85, 82, 78)
Hitung korelasi Spearman di R
spearman_rho <- cor(math_scores, english_scores, method = โspearmanโ) print(paste(โKorelasi Spearman (rho):โ, round(spearman_rho, 2))) Use code with caution. R Output R: [1] โKorelasi Spearman (rho): 0.9โ Use code with caution. Contoh Kasus Perhitungan Korelasi Spearman (Dengan Ties): Misalkan data X (Maths) memiliki nilai yang sama: X (Maths): [70, 70, 60, 50, 40] Y (English): [80, 75, 65, 60, 45] (Tidak ada ties di Y untuk simplifikasi) Assign Ranks: Untuk X (Maths): Nilai 70 muncul dua kali, seharusnya menempati peringkat 1 dan 2. Peringkat rata-ratanya adalah ( 1 + 2 ) / 2 = 1.5 (1+2)/2=1.5 . Nilai 60 mendapat peringkat 3. Nilai 50 mendapat peringkat 4. Nilai 40 mendapat peringkat 5. Ranks X: [1.5, 1.5, 3, 4, 5] Untuk Y (English): Ranks Y: [1, 2, 3, 4, 5] (karena tidak ada ties dan sudah terurut menurun dari nilai tertinggi) Tabel Perhitungan (Menggunakan metode Pearson pada rank): X Y R(X) R(Y) R ( X ) โ R ( X ) โพ R(X)โ R(X) โ
R ( Y ) โ R ( Y ) โพ R(Y)โ R(Y) โ
Produk Deviasi ( R ( X ) โ R ( X ) โพ ) 2 (R(X)โ R(X) โ ) 2
( R ( Y ) โ R ( Y ) โพ ) 2 (R(Y)โ R(Y) โ ) 2
70 80 1.5 1 -1.5 -2 3.0 2.25 4 70 75 1.5 2 -1.5 -1 1.5 2.25 1 60 65 3 3 0.0 0 0.0 0.00 0 50 60 4 4 1.0 1 1.0 1.00 1 40 45 5 5 2.0 2 4.0 4.00 4 Sum: 9.5 Sum: 9.5 Sum: 10 R ( X ) โพ = ( 1.5 + 1.5 + 3 + 4 + 5 ) / 5 = 15 / 5 = 3 R(X) โ =(1.5+1.5+3+4+5)/5=15/5=3 R ( Y ) โพ = ( 1 + 2 + 3 + 4 + 5 ) / 5 = 15 / 5 = 3 R(Y) โ =(1+2+3+4+5)/5=15/5=3 Masukkan ke rumus Pearson (pada rank): ฯ = 9.5 9.5 ร 10 = 9.5 95 = 9.5 9.747 โ 0.975 ฯ= 9.5ร10 โ
9.5 โ = 95 โ
9.5 โ = 9.747 9.5 โ โ0.975
Hasil: ฯ โ 0.975 ฯโ0.975 . Hubungan monotonik positif yang sangat kuat.
Data contoh Spearman dengan ties di X
X_math_ties <- c(70, 70, 60, 50, 40) Y_english_no_ties <- c(80, 75, 65, 60, 45)
Hitung korelasi Spearman di R
spearman_rho_ties <- cor(X_math_ties, Y_english_no_ties, method = โspearmanโ) print(paste(โKorelasi Spearman (dengan ties, rho):โ, round(spearman_rho_ties, 3))) Use code with caution. R Output R: [1] โKorelasi Spearman (dengan ties, rho): 0.975โ Use code with caution. Kapan Menggunakan Pearson vs Spearman? Gunakan Pearson jika: Kedua variabel kontinu (interval/rasio). Hubungan diasumsikan linier. Data (relatif) bebas dari outlier signifikan. Data (idealnya) berdistribusi normal jika ingin melakukan uji signifikansi. Gunakan Spearman jika: Setidaknya satu variabel adalah ordinal. Hubungan tidak linier tetapi monotonik. Ada outlier signifikan dalam data kontinu. Asumsi Pearson tidak terpenuhi (misalnya, normalitas untuk inferensi).
Memilih metode korelasi yang tepat akan memberikan pemahaman yang lebih akurat tentang hubungan antar variabel dalam data Anda.