Bir veri kümesinin ortalama değeri yeterli bir istatistiksel gösterici değildir çünkü ortalama aykırı değerlerden etkilenir. Medyan ise veriyi tam ortadan ikiye böler ve veri kümesi hakkında daha sağlıklı bilgi verir.

Çalışmalarımızın sonuçlarına hangi istatistiksel testleri uygulayacağımız bir muammadır. Medyan kullanılarak yapılacak analizler için parametrik olmayan (non-parametric) istatistiksel testler yapmamız gerekir. Parametrik testler verinin normal olarak dağıldığını varsayarak, parametrik olmayan testler içinse verinin bağımsız bir dağılımda olduğu kabul edilir.

Veri kümesi hakkında kesin bilgilere sahip olunmadığı durumlarda (dağılım gibi.) parametrik olmayan testler yapılır.

Parametrik olmayan(non-parametric) istatistiksel testleri ne zaman uygulamalıyım?

1-Bir yarışta kazananlar bitiş çizgisini geçen kişiler olarak belirlenmiştir. İlk geçen 1. olmuş, ikinci geçen 2.olmuştur. Peki 1. ve 2. arasında ne kadar fark vardır? Bu bilgi elimizde yoktur.

2-Çoktan seçmeli cevapların bulunduğu anket gibi bilgi toplama araçları ile elde edilmiş veri kümelerine uygulanır. Örneğin bir hastaya sorulan hastalığınız nasıl gidiyor sorusuna aşağıdaki cevaplardan birini işaretlemesi istenirse:
-Kötüye gidiyor
-Daha az kötüye gidiyor
-Değişmedi
-Daha az iyiye gidiyor
-İyiye gidiyor

Buradaki cevapların ölçeklenebilir olmadığı görülüyor. Yani hastanın tecrübesine bağlı olarak cevaplar değişebilir. Birisinin daha az kötü dediğine diğeri direk kötü diyebilir. Ayrıca nominal bir veri için, herhangi bir parametrik test yoktur.

3-Tespit edilmesi için belli bir eşik değeri konulmuş değerler için. Örneğin viral yük, kanınızdaki HIV miktarıdır. Bir viral yük, algılama sınırının ötesinde olabilir veya daha yüksek bir değer olabilir.

4-Aykırı veri, veri kümesi içindeki diğer verilere anormal uzaklıktaki veridir. Örneğin asgari ücretli çalışanların oluşturduğu kümeye, halkın emeğini çalarak zengin olmuş aylık gelirinin haddi hesabı olmayan bir kapitalist eklenirse, o aykırı olur.

Hangi veri kümesine parametrik olmayan(non-parametric) istatistiksel testler uygulanacak diye özetleyecek olursak:
-Veriler herhangi bir olasılık dağılımını takip etmiyorsa,
-Veriler, sıralı değerler veya dereceler oluşturuyorsa,
-Verilerde belirsizlikler varsa,
-Verilerin algılanma limiti varsa.

DİKKAT: Eğer bir problem için parametrik bir test varsa, parametrik olmayan testleri kullanmak, oldukça yanlış cevaplar verecektir.

Parametrik olmayan testleri kullanmanın olumlu ve olumsuz yönleri

Avantajları:
-Örnek sayısı az ise daha doğru sonuçlar verir.
-Normallik varsayımlarının ihlal edildiği durumlarda parametrik testlerden daha güçlüdür.
-Nominal, sıralı, aralıklı veya aykırı değerleri bulunan tüm veri kümeleri için uygundur.

Dezavantajları:
-Veri kümesine uygulanabilir parametrik test olduğu halde, parametrik olmayan test yapılması ölümcül bir hata olur.
-Parametrik olmayan testler için kritik değer tabloları pek çok bilgisayar yazılım paketine dahil değildir; bu nedenle bu testler daha manuel hesaplamalar gerektirir.

Parametrik olmayan testlerle hipotez testi

Burada sıfır hipotez(null hypothesis), verilen iki veri kümesinin eşit olmasıdır.

Hipotez nedir? Hipotez bir olay ile ilgili görüştür. Örneğin Ahmet yarışı kazanacak bir görüştür. Bir de Ahmet yarışı kazanamayacak görüşü vardır. Bunların ikisi de hipotezdir. Alternatif hipotezimizi Ahmet yarışı kazanacak şeklinde kurarız, yani ispatlamak istediğimiz durumdur. Sıfır hipotezi ise bunun tersidir.

Sıfır hipotezi: Örneğin ortalaması ile anakütlenin ortalaması arasında anlamlı bir fark yoktur.
Alternatif hipotez: Örneğin ortalaması ile anakütlenin ortalaması arasında anlamlı bir fark vardır.

Önem Derecesi (Level of significance): Yanlış karar verme olasılığı.

Parametrik olmayan bir testte, test hipotezi, araştırmanın ilgisine bağlı olarak bir kuyruklu (one tailed) veya iki kuyruklu (two tailed) olabilir.

Test istatistiğini ayarlama

İstatistiği bir örnek ile açıklayacak olursak, A sınıfındaki öğrencilerin not ortalaması 36 olsun. Bir öğretmen B, C ve D sınıflarındaki öğrencilerin ortalaması bilmeden sadece A sınıfındaki öğrencilerin not ortalaması bilgisi ile bir yorum yapıyorsa bu duruma istatistik denir.

Parametrik olmayan bir testte, gözlemlenen değer derecelere dönüştürülür ve daha sonra sıralar bir test istatistiği olarak ele alınır.

Karar kuralı(decision rule), sıfır hipotezinin ne zaman reddedeceğinizi söyleyen bir deyimdir.

Parametrik olmayan testlerde, test istatistiğini hesaplamak için sıralamayı kullanırız.

Mann Whitney U testi

Mann Whitney Wilcoxon veya Wilcoxon sıra toplamı testi olarak da bilinir ve bağımsız örneklem t-testine bir alternatiftir. Bunu bir örnek yardımı ile anlayalım.

Bir ilaç firması uyurgezerlik tedavisi için yeni bir ilaç üretir ve bir ay süreyle 5 hasta üzerinde sonucu gözlemler. Başka bir grup üzerinde eski ilaç bir aylığına deneniyor. Ortaya çıkan sonuç:

Eski ilacın frekans grafiği:

Yeni ilacın frekans grafiği:

Yeni ilaç alındığı zaman uyurgezerlik oranının azaldığı görülmektedir.

Bu örnek üzerinde Mann Whitney U testi nasıl çalışır inceleyelim:

H0: İki grup aynı sonuçları veriyor.
H1: İki grup farklı sonuçları veriyor.

%5 güven aralığında hipotezimizin doğru olup olmadığını inceleyeceğiz.

U ifadesi U1 VE U2’nin hangisi küçükse onu belirtir.

R1: Birinci grubun dereceleri toplamı
R2: İkinci grubun dereceleri toplamı
n1: Birinci grubun büyüklüğü
n2: İkinci grubun büyüklüğü

Değerleri yerine koyarak sonucu hesaplıyoruz.

Derecelendirme (ranking) nasıl yapılır?

Derecelendirme , parametrik olmayan testlerin çok önemli bir bileşenidir ve bu nedenle, bir örneğe derecenin nasıl atanacağını öğrenmek oldukça önemlidir. Dereceleri nasıl atayacağımızı öğrenelim.

1.adım: İki örneği birleştirip artan düzende sıralayacağız. Sırasıyla Eski İlaç(Old Drug) için OD ve Yeni İlaç(New Drug) için ND kullanalım.

Burada en düşük değere 1, ikinci en düşük değere 2 vererek derecelendirme yapılır.

1, 4 ve 8 sayılarının birden fazla kez göründüğüne dikkat edin. Böylece derecelendirme yanlış olmuş oluyor. Bu sorunu çözmek için aynı değere sahip verilerin derecelerinin ortalamasını alarak yeniden derecelendirme yapıyoruz.

Derecelerin toplamı 1’den n’e kadar sayıların toplamı olan n(n+1)/2 formülüne eşittir.

Derece toplamlarını gruplara göre hesapladığımızda:

R1 = 15.5
R2 = 39.5

Formül ile U1 ve U2 hesaplandığında:

U1 = 24.5
U2 = 0.5

U = min(U1, U2) = 0.5 bulunur.

Mann Whitney U testi için U değeri (0, n1 * n2) aralığındadır; burada 0, iki grubun birbirinden tamamen farklı olduğunu ve n1 * n2’nin iki grup arasındaki ilişkiyi gösterir. Ayrıca, U1 + U2 daima n1 * n2’ye eşittir.
U değerinin 0,5 yani 0’a çok yakın olduğuna dikkat edin.

Peki %5 güven aralığı ifadesi ile nasıl bir yorum yapacağız.

Mann Whitney U testi için kritik değerler tablosu:

critical-values-Mann-Whitney-U-test

H0: U <= Kritik Değer - Ret H0: U > Kritik Değer – Kabul

Tablodan n1=5, n2=5, çift kuyruklu test kısmından p=2 değeri okunur.

U=0.5 < 2 Kritik değer böylece H0 hipotezi reddedilir. İki grubun aynı sayıda uyurgezerlik vakası bildirdiğine ilişkin önemli bir kanıt bulunmadığı sonucuna varıyoruz. Aynı işlemleri Çevrim içi bu testi yapan bir kaynakta yaptığımızda da aynı sonucu elde ettik.

Burada ayrıca Z-Score -2.40227 olarak elde edildi ve p değeri .0164 olarak bulundu.

Sample 1
Sum of ranks: 15.5
Mean of ranks: 3.1
Expected sum of ranks: 27.5
Expected mean of ranks: 5.5
U-value: 24.5
Expected U-value: 12.5

Sample 2
Sum of ranks: 39.5
Mean of ranks: 7.9
Expected sum of ranks: 27.5
Expected mean of ranks: 5.5
U-value: 0.5
Expected U-value: 12.5

Sample 1 & 2 Combined
Sum of ranks: 55
Mean of ranks: 5.5
Standard Deviation: 4.7871

Matlab ile bu işlemi yapmak için veriler a ve b değişkenleri içerisine aktarılır. Aşağıda komut çalıştırılır.

a=[7 8 4 9 8];
b=[3 4 2 1 1];
[p,h,stats] = ranksum(a,b);

Çıktı:
p = 0.0159
h = 1
ranksum: 39.5000
h = 1 {Sıfır hipotezini reddeder.}

Matlab ile diğer servisin bulduğu p değerleri arasındaki farkın nedeni örnek sayısı az olduğundan z değerinin kestirimi sırasındaki farklılık olduğunu söyleyebiliriz.

Daha iyi anlamak ve Matlab sonuçlarını yorumlamak için:

x=[1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31];
y=[2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32];
[p,h,stats] = ranksum(x,y)

yaptığımızda:

p = 0.7774
h = 0
zval: -0.2827
ranksum: 256

Burada h = 0 demek, H0 hipotezi kabul edilir anlamındadır.

Hesaplama detayları:

Sample 1
Sum of ranks: 256
Mean of ranks: 16
Expected sum of ranks: 264
Expected mean of ranks: 16.5
U-value: 136
Expected U-value: 128

Sample 2
Sum of ranks: 272
Mean of ranks: 17
Expected sum of ranks: 264
Expected mean of ranks: 16.5
U-value: 120
Expected U-value: 128

Sample 1 & 2 Combined
Sum of ranks: 528
Mean of ranks: 16.5
Standard Deviation: 26.533

The U-value is 120. The critical value of U at p < .05 is 75. Therefore, the result is not significant at p < .05. The Z-Score is -0.28267. The p-value is .77948. The result is not significant at p < .05. Burada 32 adet değer olduğundan hem Matlab hem diğer araç aynı Z değerini hesaplamıştır. Wilcoxon Sign-Rank Test (Wilcoxon İşaret Sırası Testi)

Bu test, veri kümesi normal dağılım varsayımlarını ihlal ettiğinde eşleştirilmiş t-testi yerine kullanılabilir.

Örnek üzerinden inceleyelim:

Bir öğretmen 6 öğrenciye ani bir test yapar ve aşağıdaki notları verir.

Daha sonra 1 hafta süre vererek yeniden test yapar:

Peki 1 hafta süre öğrencilerin gelişimine nasıl etki etmiş?

Görüleceği üzere bazı öğrencilere çalışmak fayda verse de bazılarına fayda vermemiştir. Bu değişimin rastgele mi yoksa testle mi alakalı olduğunu analiz edelim.

Bir sonraki adım, farklılıkların mutlak değerine sıralar atamaktır. Bunun yalnızca veri artan düzende düzenlenmesinden sonra yapılabileceğini unutmayın.

Wilcoxon işaret sıralaması testinde, temel olarak, farkla ilişkili işareti aşağıda gösterildiği gibi sıralamaya atayan işaretli sıralara ihtiyacımız vardır.

Hipotezimizi kuralım.

H0: Medyan farkı sıfırdır.
H1: Medyan farkı pozitiftir.

%5 güven aralığında tek yönlü bir test uygulayalım. (Çift yönlü de seçilebilir.)

W1: Pozitif derecelerin toplamı
W2: Negatif derecelerin toplamı
W=min(W1,W2)

W1 = 17.5
W2 = 3.5
W = min(W1, W2 ) = 3.5

W1=W2 ise sıfır hipotezi kabul edilir.Aksi halde sıfır hipotezi reddedilir. Bu örnekte de sıfır hipotezi reddedilmiştir.

Critical Values of the Wilcoxon Signed Ranks Test:

Ret : H0 <= W kritik değer Kabul : H0 > W kritik değer

Burada, W> kritik değer = 2, dolayısıyla sıfır hipotezi kabul edilir ve iki testin işaretleri arasında anlamlı bir farklılığın bulunmadığı sonucuna varırız.

Matlab’da Wilcoxon signed rank testini signrank komutu ile yapabilirsiniz.

a=[8 6 4 2 5 6];
b=[6 8 8 9 4 10];
[p,h,stats] = signrank(a,b);

p = 0.1875
h = 0
signedrank: 3.5000

Sign Test (İşaret Testi)

Bu test Wilcoxon işaret sırası testine benzer ve veriler normal dağılmıyorsa eşleştirilmiş t-testi yerine kullanılabilir. Wilcoxon işaret sırası testinde kullandığım örneği, normal dağılımı takip etmediğini varsayarak işaret testi içinde kullanacağım.

İşaret testinde farkların işaretleri dikkate alınır. İşaret testinde, büyüklükler göz önüne alınmamakta, yani sayılar dikkate alınmamaktadır. Hipotez önceki gibidir.

Burada, benzer sayıda pozitif ve negatif fark görürsek sıfır hipotezi doğrudur. Aksi takdirde, daha fazla pozitif işaret görürsek, sıfır hipotez yanlıştır.

RET – H0: Artı(+) veya eksi(-) olanlardan küçük olanın sayısı <= Kritik Değer KABUL - H0: Artı(+) veya eksi(-) olanlardan küçük olanın sayısı > Kritik Değer

Burada 2 eksi, 4 artı olduğundan, 2<4 olur ve Kritik değer aşağıdaki tablodan bulunur.

Tablodan 6 eleman için kritik değer 6 bulunacağından, 2<6 olduğundan H0 ret edilir. Dolayısıyla, sıfır hipotezini reddediyoruz ve ortanca farkın sıfır olduğunu belirten önemli bir kanıt bulunmadığı sonucuna varıyoruz. Bu testi Matlab'ta signtest komutu ile yapabilirsiniz.

Z değeri elde etmek için:

[p,h,stats] = signtest(x,y,’method’,’approximate’) komutu çalıştırılabilir.

Kruskal-Wallis Testi

Kruskal-Wallis testi, 2’den fazla bağımsız grupla uğraşırken ve k adet popülasyon arasında medyan karşılaştırdığında son derece yararlıdır. Bu test, veriler normal dağılmıyorsa ve örnek büyüklüğü çok küçük olduğunda Tek yönlü ANOVA’ya alternatiftir.

Not: Kruskal-Wallis testi, sürekli ve sıra-bazlı bağımlı değişkenler için kullanılabilir.

Bir örnekle testi inceleyelim:

Bir grup hasta 3 gruba ayrılıp, 3 farklı tedavi yöntemi uygulandıktan sonra araştırılan madde miktarları aşağıdadır:

Örneklem sayılarının farklı olduğuna da dikkat edelim.

Tedavi 1; n1 = 5
Tedavi 2; n2 = 3
Tedavi 3; n3 = 4
n = n1 + n2 + n3 = 5+3+4 = 12

%5 güven aralığı ile hipotezlerimiz:

H0: 3 popülasyonun medyanları aynıdır.
H1: 3 popülasyonun medyanları farklıdır.

Örnekleri küçükten büyüğe sıralayarak aşağıdaki şekilde derecelendiriyoruz.

Derecelerin toplamı = 78.

3 popülasyon medyanı arasında bir fark olup olmadığını kontrol etmeliyiz, dolayısıyla örnek bilgilerini sıralar üzerinde bir test istatistiği yaparız. Burada, test istatistiği H ile gösterilir ve aşağıdaki formüle göre hesaplanır:

Elde edilen değerin kritik değer karşılığını aşağıdaki tablodan bulalım.

Kruskal-Wallis-H-Table

RET : H >= Kritik Değer
KABUL : H < Kritik Değer H=6.0778 ve kritik değer=5.656 olarak çıkıyor. Dolayısıyla, sıfır hipotezimizi reddediyoruz ve üç popülasyonun medyanının aynı olduğunu belirtmek için önemli bir kanıt bulunmadığı sonucuna varıyoruz. Not: Bir Kruskal-Wallis testinde, her grupta 5 veya daha fazla gözlem içeren 3 veya daha fazla bağımsız karşılaştırma grubu varsa, test istatistiği H, k-1 serbestlik derecesine sahip bir ki-kare dağılımına yaklaşır. Bu nedenle, böyle bir durumda, kritik değerler için ki-kare dağılım tablosunda testin kritik değerini bulabilirsiniz. Matlab'ta kruskalwallis komutu ile bu testi yapabilirsiniz. Not: Burada bulduğum değerler ile Matlab'ın verdiği değerler farklı çıktı. Bu kısmı anlayamadım.

data =

42000 67000 78000
48000 57000 89000
57000 79000 67000
69000 NaN 80000
45000 NaN NaN

Spearman Rank Correlation

Örneğin, bir etek satın almak için pazara gittim ve tesadüfen arkadaşımda başka bir pazardan aynı eteği satın aldı, ancak onun için daha yüksek bir fiyat ödedi. Arkadaşımın bulunduğu yerin yakınındaki pazar benimkiyle karşılaştırıldığında daha pahalıdır. Bir bölge bir metanın fiyatını etkiliyor mu? Eğer öyleyse, bölge ile emtia fiyat arasında bir bağ vardır. İki veri kümesi arasında korelasyon olup olmadığını belirlemek için Spearman sıra korelasyonunu kullanıyoruz.

Sebzelerin fiyatları bölgelere göre değişir. Spearman sıra korelasyonunu kullanarak sebze ve bölge fiyatı arasında bir ilişki olup olmadığını kontrol edebiliriz. Buradaki hipotez:

H0: Bölge ile sebze fiyatları arasında bağlantı yoktur.
H1: Bölge ile sebze fiyatları arasında bağlantı vardır.

Burada trend çizgisi, sebze fiyatı ve alan fiyatı arasında pozitif bir ilişki olduğunu göstermektedir. Bununla birlikte, korelasyonun yönünü ve gücünü kontrol etmek için Spearman’ın sıra korelasyon yöntemi kullanılmalıdır.

Spearman sıra korelasyonu, Pearson korelasyon katsayısına parametrik olmayan bir alternatiftir ve rs ile gösterilir. Rs değeri (-1,1) aralığında bulunur; burada:

-1, dereceler arasında negatif bir korelasyon gösterir
0, dereceler arasında korelasyon göstermez
1, dereceler arasında pozitif bir korelasyon göstermektedir.

Örneğe derece atadıktan sonra, Spearman sıra korelasyon katsayısını hesaplamak için aşağıdaki formülü kullanın.

Bir örnek ile bu formülün uygulanmasını anlamaya çalışalım. Aşağıdaki tabloda öğrencilerin matematik ve fen notları bulunmaktadır.

Şimdi sıralamaları arasındaki fark olan rank’ı ve d’yi hesaplarken, n, örnek büyüklüğü = 10’dur. Bu, aşağıdaki şekilde yapılır:

Şimdi, Spearman sıra korelasyon katsayısını hesaplamak için formülü kullanın. Dolayısıyla, Spearman sırası korelasyonu 0.67 olarak çıkıyor; bu, matematik ve fen testinde elde edilen dereceler arasında olumlu bir ilişki olduğunu gösteriyor; bu, matematikte sıralamanızın yüksekliğiyle fende sıralamada o derece yüksek olduğunuzu ima ediyor.

Elde edilen değerin kritik değeri aşağıda tablodan bulunabilir:

Spearman-Ranked-Correlation-Table

RET – |rs|>=Kritik Değer
KABUL – |rs|a=[56 75 45 71 62 64 56 80 76 61]; b=[66 70 40 60 65 56 59 77 67 63]; [RHO,PVAL] = corr(a’,b’,’Type’,’Spearman’);

Ana Kaynak:
https://www.analyticsvidhya.com/blog/2017/11/a-guide-to-conduct-analysis-using-non-parametric-tests/
Bu içerik yukarıdaki bağlantıdan Türkçe’ye çevrilmiştir. Birebir çeviri değildir. Kendime not niteliğindedir.

Kaynaklar:

http://www.socscistatistics.com/tests/mannwhitney/Default.aspx
http://www.p005.net/spsste-mann-whitney-u-testi
https://www.mathworks.com/help/stats/ranksum.html
https://www.mathworks.com/help/stats/signrank.html
https://www.mathworks.com/help/stats/kruskalwallis.html
https://www.mathworks.com/help/stats/corr.html

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir