Kİ-KARE TESTİ NEDİR?
1. Giriş
Hipotez testleri istatistik biliminin en önemli konularından birisini oluşturur. Elimizdeki herhangi bir istatistiksel yargının (hipotezin) doğru ve geçerli olup olmadığını, geçerliyse geçerliliğine ne kadar güvenebileceğimizi hipotez testlerinin yardımıyla bulabiliriz. Herhangi bir üretim, pazarlama, ya da benzer bir süreçte ana kütleye ait bir değerin, öngörülen ya da tahmin edilen bir değere eşit olup olmadığı bu testler yardımıyla tespit edilir. Örneğin elektrik ampulü üreten bir fabrika için ürettiği ampullerin ortalama ömrünün istenen standartta olması çok önemli olabilir. Ya da üretim sürecinin baştan sona tekrar düzenlenmesini gerektirecek kadar büyük hatalar olup olmadığı öğrenilmek istenebilir. üretim sürecinin sonucunda elde edilen mamulün –örneğin ekmek- ortalama maliyetinin belirlenmesi için ağırlığı ya da başka bir değeri hakkında hipotez testlerine ihtiyaç duyarız. Ancak bu tespiti elde edilen tüm ürünler için yapmamız bazen imkânsız, bazense çok zor ve maliyetli olabilir. Bu yüzden sözkonusu tespiti ana kütleden (üretilen malların tamamı) belirli yöntemlerle seçilen ve ana kütleyi mümkün olan en iyi şekilde temsil ettiği düşünülen bir örnekle yapılır. Ancak seçilen örnek ne kadar iyi olursa olsun, bir hata riski her zaman için mevcuttur. Bu yüzden testi yaparken belirli bir hata yapma riskini peşinen kabul etmiş oluruz. Yaptığımız testin önemine göre bu hata olasılığını kendimiz seçebiliriz. Örneğin bir deterjan fabrikası işletmesi için hazırladığı ambalajların ortalama ağırlığının istenen değere eşit olup olamadığını yüzde 85’lik bir olasılıkla bilmek yeterli olabilirken bir ilaç fabrikası için ilacın muhtemel etkileri konusunda yüzde 99’luk bir olasılık bile çok yüksek bir belirsizlik anlamına gelebilir.
Daha terimsel bir açıklama yapacak olursak; ana kütle parametreleri hakkında bir varsayımın belirli bir anlamlılık seviyesinde geçerliliğinin, örnek istatistiklerinden hareketle araştırılmasına hipotez testi denir. Bu tanıma ek olarak, test edilebilecek konular arasına, birden fazla ana kütlenin parametreleri arasındaki ilişkinin öngörülen şekilde olup olmadığını da katabiliriz.
Hipotez testleri, aralık ve oran ölçülerine dayanan, ana kütle dağılımları hakkında belirli varsayımların geçerli olmasını gerektiren parametrik hipotez testleri ve genellikle nominal ve sıralama bildiren değerlere dayalı olarak yapılan, ana kütle dağılımı hakkında herhangi bir varsayımın geçerliliğinden bağımsız olarak gerçekleştirilebilen parametrik olmayan hipotez testleri olarak ikiye ayrılabilir. Bu çalışmada ikinci tür testler, yani parametrik olmayan hipotez testleri incelenecektir.
Parametrik olsun ya da olmasın, hipotez testleri dört aşamada yapılır:
· Hipotezlerin oluşturulması
· Anlamlılık seviyesinin belirlenmesi
· Örnek istatistiğinin standart rassal değişkene dönüştürülmesi
· Karar aşaması
Hipotez testi sonucunda belli bir hata yapma riskinin bulunduğundan yukarıda bahsedilmişti. Şimdi yapılması muhtemel olan hata türlerini inceleyelim:
Hipotez testinin ilk aşamasında bir hipotez oluşturulur ve daha sonraki aşamalar gerçekleştirildikten sonra bu hipotezin doğru olup olmadığı belirli bir olasılıkla tespit edilir. Oluşturulan hipotez için iki olasılık vardır: Hipotez doğru olabilir; hipotez yanlış olabilir. Temel hipotezimiz (H0) doğru olduğu halde test sonucunda hipotez reddedilmişse, I. tip hata (a tipi hata) yapılmış olur. Temel hipotez (H0) yanlış olduğu halde reddedilmezse II. tip hata (b tipi hata) yapılmış demektir.
Bir tabloyla gösterecek olursak:
|
H0 Reddedilmez
|
H0 Reddedilir
|
H0 Doğru
|
Doğru Karar
(1-a)
|
Yanlış Karar
(a tipi hata)
|
H0 Yanlış
|
Yanlış Karar
(b tipi hata)
|
Doğru Karar
(1-b)
|
Yapacak olduğumuz testi tasarlarken hangi tür hatanın bizim için daha zararlı olduğunu tespit edip hata yapma olasılıklarımızı (dolayısıyla testin güven olasılığını) önceden belirleriz.
2. Parametrik olmayan Hipotez Testleri
Parametrik testlerin aralık ya da oran ölçeğine göre elde edilmiş verilerle ve ana kütlenin dağılımı hakkında belirli varsayımların geçerliliği altında yapılabildiğinden yukarıda bahsedilmişti. Parametrik testlerin uygulanabilmesi için örnek sayısı da önemli bir faktördür. Bu bilgiler ışığında şu sonuca varabiliriz: bir parametrik testin uygulanabilmesi için şu kısıtlar söz konusudur:
· Veri türü
· Dağılım türü
· Örnek sayısı
Eğer bu şartları sağlayan bir ana kütle ve örnek varsa parametrik bir test uygulanabilir ve ana kütlenin bir parametresine ilişkin bazı sonuçlara varılabilir. Ancak her zaman istenen dağılımda, bir ana kütlemiz, istenen türde verilerimiz ve yeterli sayıda örneğimiz olmayabilir. Böyle durumlarda parametrik olmayan testlere başvurulur.
Parametrik olmayan testler nominal değerler, sıralama bildiren değerler ve farkları anlamlı olmayan değerler için kullanılabilir. Elimizde bir grup bebeğin ağırlıklarını gösteren bir dağılım olsun; bu dağılımdan rastgele seçtiğimiz iki değer arasındaki fark, iki bebek arasındaki ağırlık farkını göstrecektir. Dolayısıyla seçtiğimiz sayılar farkları anlamlı olan iki sayıdır. Elimizde bu türden bir seri olduğunda, diğer koşullar da sağlanıyorsa parametrik bir test yapabiliriz. Bu defa da elimizde bir yarışı tamamlayan yarışmacıların sıralamalarının olduğunu varsayalım; Bu durumda rastgele seçtiğimiz iki değer arasındaki fark (örneğin ikinci ile beşinci arasındaki fark), rastgele seçilen diğer bir ikilinin farkına (örneğin yedinci ile onuncu arasındaki fark) gerçekte hiçbir benzerlik olmadığı halde eşitmiş gibi bulunabilecektir. Bu tür veriler farkları anlamlı olmayan veriler olarak adlandırılır. Elimizde bu tür veriler bulunduğunda da gerçekleştirilmesi için çok fazla kısıtın bir arada sağlanması gerekmeyen parametrik olmayan hipotez testlerine başvurulur.
Parametrik olmayan hipotez testleri, parametrik testler kadar hassas sonuçlar ve kesin değerler vermek yerine değerler hakkında genel bilgilere sahip olmamızı sağlarlar. Bu yüzden, yapacağımız çalışalarda, eğer mümkün olabiliyorsa, parametrik testleri uygulmayı tercih etmeliyiz.
Ki-Kare (c2) Testleri
Bu testin beş farklı uygulama alanı vardır:
1. Nicel ya da nitel özellikler ya da değişkenler arasında bağımlılık olup olmadığının araştırılması (ki-kare bağımsızlık testi);
2. Örnek sonuçlarının belirli bir teorik ihtimal dağılımına uygun olup olmadığının araştırılması (ki-kare uygunluk testi);
3. İki ya da daha fazla örneğin aynı ana kütleden gelip gelmediğinin araştırılması (bağdaşıklık testi);
4. Ana kütle varyanslarının testleri ve tahminleri;
5. ikiden fazla ana kütle oranının birbirine eşi olup olmadığının ve çeşitli ana kütle oranlarının birbirine eşit olup olmadığının araştırılması.
Bu bölümde c2 bağımsızlık, homojenlik ve uygunluk testleri incelenecektir.
2.8.1 c2 Bağımsızlık Testi
yukarıda bahsedildiği gibi iki değişken arasında ilişki ve bağımlılık olup olmadığının tespit edilmesinde kullanılır.
Değişkenlerin biri nitel, biri nicel olabileceği gibi, her ikisi nitel, her ikisi nicel de olabilir. Testin gerçekleştirilmesi için önce bir tablo oluşturulur ve değişkenlerden biri satırlara, diğeri de sütunlara yerleştirilir.
Testin Aşamaları
1. Hipotezin oluşturulması
Bu testte iki değişken arasında bağımlılık olup olmadığını test edeceğimiz için hipotezlerimiz:
H0: İki değişken bağımsızdır
H1: İki değişken birbirine bağımlıdır.
şeklinde oluşturulur.
2. a Anlamlılık seviyesinin belirlenmesi
3. c2 Test istatistiğinin hesaplanması
Bunun için;
n
c2 = S(fi – Npi)2 / Npi
i=1
= S(fi – f’i)2/ f’i
formülü kullanılır. Bu formülde;
fi: Gerçek frekansları;
f’i: Teorik frekansları
göstermektedir.
c2 istatistiği hesaplandıktan sonra karar verme aşamasına geçilebilir. Burada örnek sayısı 30’dan büyükse normal dağılım, yani Z tablosundan, 30’dan küçükse c2 tablosundan elde edilen değer esas alınarak karşılaştırma yapılr ve karar verilir.
c2 < c2a ise H0 reddedilemez (bağımsızlık vardır);
c2 > c2a ise H0 reddedilir (bağımsızlık yoktur).
2.8.2 c2 Homojenlik Testi
c2 bağımsızlık testi iki değişken arasında bağımsızlık olup olmadığının araştırılmasına dayanırken homojenlik testleri iki ya da daha fazla bağımsız rassal örneğin aynı ana kütleden gelip gelmediğinin test edilmesinde kullanılır.
Test için hipotezler şu şekilde oluşturulur:
H0: Homojenlik vardır (örnekler aynı ana küleden gelmiştir).
H1: Homojenlik yoktur (örnekler farklı ana külelerden gelmiştir).
Karar aşamasında, c2 bağımsızlık testinde olduğu gibi hareket edilir. Yani;
c2 < c2a ise H0 reddedilemez (homojenlik vardır);
c2 > c2a ise H0 reddedilir (homojenlik yoktur).
2.8.3 c2 Uygunluk Testi
c2 uygunluk testinde teorik frekanslara göre hesaplanan dağılımın, gerçek frekans, yani gözlemlenen frekanslara ait olup olmadığı araştırılır. Eğer gerçek frekanslarla teorik frekanslar birbirine yakınsa c2 istatistiğinin değeri küçük çıkacak, dolayısıyla testin sonucunda seçilen dağılımın teorik dağılımla uyumlu olduğu sonucuna varılacaktır.
Bu test için hipotezler;
H0: Uygunluk vardır (gerçek frekanslarla teorik frekanslar birbirine yakındır)
H1: Uygunluk yoktur (gerçek frekanslarla teorik frekanslar birbirinden farklıdır)
Şeklinde oluşturulur.
Uygun olan hata payı da belirlendikten sonra yukarıda formülü verilmiş olan c2 istatistiği hesaplanır ve yine yukarıda incelenen homojenlik ve bağımsızlık testleindeki şekilde kara verilir. Buna göre;
c2 < c2a ise H0 reddedilemez (uygunluk vardır);
c2 > c2a ise H0 reddedilir (uygunluk yoktur).
KAYNAKÇA
Bowen, Earl K. & Starr, Martin K.(1982). Basic Satistics for Business and Economics. Mc Graw-Hill. 1st edition. Singapore
Orhunbilge, Neyran (1997). Örnekleme Yöntemleri ve Hipotez Testleri. İ.Ü. İşletme Fakültesi Yayın No: 270: İstanbul
Turanlı, Münevver & Güriş, Selahattin. (2000). Temel İstatistik. Der Yayınları. İstanbul. 1. Baskı