Cara memproses data menggunakan kaedah khi kuasa dua. Syarat dan had untuk menggunakan ujian khi kuasa dua Pearson

Ujian khi kuasa dua ialah kaedah universal untuk menyemak persetujuan antara keputusan eksperimen dan model statistik yang digunakan.

Jarak Pearson X 2

Pyatnitsky A.M.

Universiti Perubatan Negeri Rusia

Pada tahun 1900, Karl Pearson mencadangkan cara yang mudah, universal dan berkesan untuk menguji persetujuan antara ramalan model dan data eksperimen. "Ujian khi kuasa dua" yang dicadangkannya adalah ujian statistik yang paling penting dan paling biasa digunakan. Kebanyakan masalah yang berkaitan dengan menganggar parameter model yang tidak diketahui dan menyemak persetujuan antara model dan data eksperimen boleh diselesaikan dengan bantuannya.

Biarkan terdapat model apriori ("pra-eksperimen") bagi objek atau proses yang sedang dikaji (dalam statistik mereka bercakap tentang "hipotesis nol" H 0), dan keputusan eksperimen dengan objek ini. Adalah perlu untuk memutuskan sama ada model itu mencukupi (adakah ia sesuai dengan realiti)? Adakah keputusan eksperimen bercanggah dengan idea kami tentang cara realiti berfungsi, atau dengan kata lain, adakah H0 harus ditolak? Selalunya tugas ini boleh dikurangkan untuk membandingkan frekuensi purata kejadian yang diperhatikan (O i = Observed) dan dijangka mengikut model (E i = Expected). Adalah dipercayai bahawa frekuensi yang diperhatikan diperolehi dalam satu siri pemerhatian bebas N (!) yang dibuat dalam keadaan malar (!). Hasil daripada setiap pemerhatian, satu daripada peristiwa M direkodkan. Peristiwa ini tidak boleh berlaku serentak (ia tidak serasi secara berpasangan) dan satu daripadanya semestinya berlaku (gabungan mereka membentuk peristiwa yang boleh dipercayai). Keseluruhan semua pemerhatian dikurangkan kepada jadual (vektor) frekuensi (O i )=(O 1 ,… O M ), yang menerangkan sepenuhnya keputusan eksperimen. Nilai O 2 =4 bermakna peristiwa nombor 2 berlaku 4 kali. Jumlah frekuensi O 1 +… O M =N. Adalah penting untuk membezakan antara dua kes: N – tetap, bukan rawak, N – pembolehubah rawak. Untuk jumlah tetap eksperimen N, frekuensi mempunyai taburan polinomial. Mari kita gambarkan skema umum ini dengan contoh mudah.

Menggunakan ujian khi kuasa dua untuk menguji hipotesis mudah.

Biarkan model (hipotesis nol H 0) adalah bahawa dadu adalah saksama - semua muka kelihatan sama kerap dengan kebarangkalian p i =1/6, i =, M=6. Satu eksperimen telah dijalankan di mana dadu dibaling sebanyak 60 kali (N = 60 ujian bebas telah dijalankan). Mengikut model, kami menjangkakan bahawa semua frekuensi yang diperhatikan O i kejadian 1,2,... 6 mata sepatutnya hampir dengan nilai puratanya E i =Np i =60∙(1/6)=10. Menurut H 0, vektor frekuensi purata (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hipotesis di mana frekuensi purata diketahui sepenuhnya sebelum permulaan eksperimen dipanggil mudah.) Jika vektor yang diperhatikan (O i ) adalah sama dengan (34,0,0,0,0,26), maka ia adalah serta-merta jelas bahawa model itu salah - tulang tidak boleh betul, kerana hanya 1 dan 6 dilempar 60 kali Kebarangkalian kejadian sedemikian untuk dadu yang betul boleh diabaikan: P = (2/6) 60 =2.4*10 -29. Walau bagaimanapun, kemunculan percanggahan yang jelas antara model dan pengalaman adalah pengecualian. Biarkan vektor frekuensi yang diperhatikan (O i ) sama dengan (5, 15, 6, 14, 4, 16). Adakah ini konsisten dengan H0? Jadi, kita perlu membandingkan dua vektor frekuensi (E i) dan (O i). Dalam kes ini, vektor frekuensi jangkaan (Ei) tidak rawak, tetapi vektor frekuensi yang diperhatikan (Oi) adalah rawak - semasa eksperimen seterusnya (dalam siri baharu 60 lontaran) ia akan berubah menjadi berbeza. Adalah berguna untuk memperkenalkan tafsiran geometri masalah dan menganggap bahawa dalam ruang frekuensi (dalam kes ini 6 dimensi) dua titik diberikan dengan koordinat (5, 15, 6, 14, 4, 16) dan (10, 10, 10, 10, 10, 10). Adakah jaraknya cukup jauh untuk dianggap tidak serasi dengan H 0 ? Dengan kata lain, kita memerlukan:

  1. belajar untuk mengukur jarak antara frekuensi (titik dalam ruang frekuensi),
  2. mempunyai kriteria untuk jarak yang harus dipertimbangkan terlalu besar ("tidak masuk akal"), iaitu, tidak konsisten dengan H 0 .

Kuasa dua jarak Euclidean biasa akan sama dengan:

X 2 Euclid = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Dalam kes ini, permukaan X 2 Euclid = const sentiasa sfera jika kita menetapkan nilai E i dan menukar O i . Karl Pearson menyatakan bahawa penggunaan jarak Euclidean dalam ruang frekuensi tidak boleh digunakan. Oleh itu, adalah tidak betul untuk mengandaikan bahawa titik (O = 1030 dan E = 1000) dan (O = 40 dan E = 10) berada pada jarak yang sama antara satu sama lain, walaupun dalam kedua-dua kes perbezaannya ialah O -E = 30. Lagipun, semakin tinggi frekuensi yang dijangkakan, semakin besar penyimpangan daripadanya harus dipertimbangkan mungkin. Oleh itu, mata (O =1030 dan E =1000) harus dianggap "dekat", dan mata (O =40 dan E =10) "jauh" antara satu sama lain. Ia boleh ditunjukkan bahawa jika hipotesis H 0 adalah benar, maka turun naik kekerapan O i relatif kepada E i adalah daripada susunan punca kuasa dua(!) E i . Oleh itu, Pearson mencadangkan, apabila mengira jarak, untuk mengkuadratkan bukan perbezaan (O i -E i), tetapi perbezaan ternormal (O i -E i)/E i 1/2. Jadi inilah formula untuk mengira jarak Pearson (ia sebenarnya kuasa dua jarak):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Dalam contoh kami:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

Untuk acuan biasa, semua frekuensi dijangka E i adalah sama, tetapi biasanya ia berbeza, jadi permukaan yang jarak Pearson adalah malar (X 2 Pearson =const) bertukar menjadi elips, bukan sfera.

Sekarang bahawa formula untuk mengira jarak telah dipilih, adalah perlu untuk mengetahui jarak mana yang harus dianggap "tidak terlalu besar" (selaras dengan H 0 Jadi, sebagai contoh, apa yang boleh kita katakan tentang jarak yang kita hitung 15.4). ? Dalam peratusan kes (atau dengan kebarangkalian berapa) kita akan mendapat jarak yang lebih besar daripada 15.4 apabila menjalankan eksperimen dengan dadu biasa? Jika peratusan ini kecil (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Penjelasan. Bilangan ukuran O i jatuh ke dalam sel jadual dengan nombor i mempunyai taburan binomial dengan parameter: m =Np i =E i,σ =(Np i (1-p i)) 1/2, di mana N ialah nombor bagi ukuran (N " 1), p i ialah kebarangkalian untuk satu ukuran jatuh ke dalam sel tertentu (ingat bahawa pengukuran adalah bebas dan dijalankan dalam keadaan malar). Jika p i kecil, maka: σ≈(Np i ) 1/2 =E i dan taburan binomial adalah hampir dengan Poisson, di mana purata bilangan cerapan E i =λ, dan sisihan piawai σ=λ 1/2 = E i 1/ 2. Untuk λ≥5, taburan Poisson adalah hampir dengan N normal (m =E i =λ, σ=E i 1/2 =λ 1/2), dan nilai ternormal (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearson mentakrifkan pembolehubah rawak χ 2 n – “khi kuasa dua dengan n darjah kebebasan”, sebagai hasil tambah kuasa dua n pembolehubah rawak biasa piawai bebas:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , mana semua orang T i = N(0,1) - n. O. r. Dengan. V.

Mari cuba memahami dengan jelas maksud pembolehubah rawak yang paling penting ini dalam statistik. Untuk melakukan ini, pada satah (dengan n = 2) atau dalam angkasa (dengan n = 3) kami membentangkan awan titik yang koordinatnya adalah bebas dan mempunyai taburan normal piawaif T (x) ~exp (-x 2/2 ). Pada satah, mengikut peraturan "dua sigma", yang digunakan secara bebas pada kedua-dua koordinat, 90% (0.95*0.95≈0.90) mata terkandung dalam segi empat sama (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

Dengan bilangan darjah kebebasan n (n > 30) yang cukup besar, taburan khi kuasa dua menghampiri normal: N (m = n; σ = (2n) ½). Ini adalah akibat daripada "teorem had pusat": jumlah kuantiti teragih sama dengan varians terhingga menghampiri hukum biasa apabila bilangan sebutan bertambah.

Dalam amalan, anda perlu ingat bahawa kuasa dua purata jarak adalah sama dengan m (χ 2 n) = n, dan variansnya ialah σ 2 (χ 2 n) = 2n. Dari sini adalah mudah untuk membuat kesimpulan nilai khi kuasa dua yang harus dianggap terlalu kecil dan terlalu besar: kebanyakan taburan terletak dalam julat dari n -2∙(2n) ½ hingga n +2∙(2n) ½.

Jadi, jarak Pearson dengan ketara melebihi n +2∙ (2n) ½ harus dianggap tidak munasabah besar (tidak konsisten dengan H 0). Jika hasilnya hampir dengan n +2∙(2n) ½, maka anda harus menggunakan jadual di mana anda boleh mengetahui dengan tepat dalam bahagian mana kes seperti itu dan nilai khi kuasa dua besar boleh muncul.

Adalah penting untuk mengetahui cara memilih nilai yang betul untuk bilangan darjah kebebasan (disingkat sebagai n.d.f.). Nampaknya wajar untuk mengandaikan bahawa n adalah sama dengan bilangan digit: n =M. Dalam artikelnya, Pearson mencadangkan sebanyak itu. Dalam contoh dadu, ini bermakna n =6. Walau bagaimanapun, beberapa tahun kemudian ditunjukkan bahawa Pearson tersilap. Bilangan darjah kebebasan sentiasa kurang daripada bilangan digit jika terdapat hubungan antara pembolehubah rawak O i. Untuk contoh dadu, jumlah O i ialah 60, dan hanya 5 frekuensi boleh ditukar secara bebas, jadi nilai yang betul ialah n = 6-1 = 5. Untuk nilai n ini kita dapat n +2∙(2n) ½ =5+2∙(10) ½ =11.3. Sejak 15.4>11.3, maka hipotesis H 0 - die adalah betul, harus ditolak.

Selepas menjelaskan ralat, jadual χ 2 yang sedia ada perlu ditambah, kerana pada mulanya ia tidak mengandungi kes n = 1, kerana bilangan digit terkecil = 2. Kini ternyata mungkin terdapat kes apabila jarak Pearson mempunyai taburan χ 2 n =1.

Contoh. Dengan 100 lambungan syiling, bilangan kepala ialah O 1 = 65, dan bilangan ekor ialah O 2 = 35. Bilangan digit ialah M = 2. Jika syiling adalah simetri, maka frekuensi yang dijangkakan ialah E 1 =50, E 2 =50.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Nilai yang terhasil hendaklah dibandingkan dengan yang boleh diambil oleh pembolehubah rawak χ 2 n =1, ditakrifkan sebagai kuasa dua nilai normal piawai χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 atau T 1 ≤-3. Kebarangkalian kejadian sedemikian adalah sangat rendah P (χ 2 n =1 ≥9) = 0.006. Oleh itu, syiling tidak boleh dianggap simetri: H 0 harus ditolak. Hakikat bahawa bilangan darjah kebebasan tidak boleh sama dengan bilangan digit adalah jelas daripada fakta bahawa jumlah frekuensi yang diperhatikan sentiasa sama dengan jumlah yang dijangka, contohnya O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Oleh itu, titik rawak dengan koordinat O 1 dan O 2 terletak pada garis lurus: O 1 +O 2 =E 1 +E 2 =100 dan jarak ke pusat ternyata kurang daripada jika sekatan ini tidak wujud dan mereka terletak di seluruh pesawat. Sesungguhnya, untuk dua pembolehubah rawak bebas dengan jangkaan matematik E 1 =50, E 2 =50, jumlah realisasinya tidak semestinya sama dengan 100 - contohnya, nilai O 1 =60, O 2 =55 akan boleh diterima.

Penjelasan. Mari kita bandingkan keputusan kriteria Pearson pada M = 2 dengan apa yang diberikan oleh formula Moivre-Laplace apabila menganggar turun naik rawak dalam kekerapan kejadian ν =K /N mempunyai kebarangkalian p dalam siri N ujian Bernoulli bebas ( K ialah bilangan kejayaan):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Nilai T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) dengan σ(K)=(Npq) ½ ≥3. Kami melihat bahawa dalam kes ini keputusan Pearson betul-betul bertepatan dengan apa yang diberikan anggaran biasa untuk taburan binomial.

Setakat ini kami telah mempertimbangkan hipotesis mudah yang mana frekuensi purata jangkaan E i diketahui sepenuhnya terlebih dahulu. Untuk mendapatkan maklumat tentang cara memilih bilangan darjah kebebasan yang betul untuk hipotesis kompleks, lihat di bawah.

Menggunakan ujian khi kuasa dua untuk menguji hipotesis kompleks

Dalam contoh dengan die dan syiling biasa, frekuensi yang dijangkakan boleh ditentukan sebelum(!) percubaan. Hipotesis sedemikian dipanggil "mudah". Dalam amalan, "hipotesis kompleks" adalah lebih biasa. Selain itu, untuk mencari frekuensi jangkaan E i, adalah perlu untuk menganggarkan satu atau beberapa kuantiti (parameter model) dahulu, dan ini hanya boleh dilakukan menggunakan data eksperimen. Akibatnya, untuk "hipotesis kompleks" frekuensi jangkaan E i ternyata bergantung pada frekuensi yang diperhatikan O i dan oleh itu sendiri menjadi pembolehubah rawak, berbeza-beza bergantung pada keputusan eksperimen. Dalam proses memilih parameter, jarak Pearson berkurangan - parameter dipilih untuk meningkatkan persetujuan antara model dan eksperimen. Oleh itu, bilangan darjah kebebasan harus berkurangan.

Bagaimana untuk menganggar parameter model? Terdapat banyak kaedah anggaran yang berbeza - "kaedah kemungkinan maksimum", "kaedah momen", "kaedah penggantian". Walau bagaimanapun, anda tidak boleh menggunakan sebarang dana tambahan dan mencari anggaran parameter dengan meminimumkan jarak Pearson. Dalam era pra-komputer, pendekatan ini jarang digunakan: ia menyusahkan untuk pengiraan manual dan, sebagai peraturan, tidak dapat diselesaikan secara analitik. Apabila mengira pada komputer, pengecilan berangka biasanya mudah dijalankan, dan kelebihan kaedah ini adalah serba boleh. Jadi, mengikut "kaedah pengecilan chi-square," kami memilih nilai parameter yang tidak diketahui supaya jarak Pearson menjadi yang terkecil. (Dengan cara ini, dengan mengkaji perubahan dalam jarak ini dengan anjakan kecil berbanding dengan minimum yang ditemui, anda boleh menganggarkan ukuran ketepatan anggaran: membina selang keyakinan.) Selepas parameter dan jarak minimum ini sendiri ditemui, ia adalah sekali lagi perlu untuk menjawab soalan sama ada ia cukup kecil.

Urutan umum tindakan adalah seperti berikut:

  1. Pemilihan model (hipotesis H 0).
  2. Pemilihan digit dan penentuan vektor frekuensi yang diperhatikan O i .
  3. Anggaran parameter model yang tidak diketahui dan pembinaan selang keyakinan untuk mereka (contohnya, dengan mencari jarak Pearson minimum).
  4. Pengiraan frekuensi jangkaan E i .
  5. Perbandingan nilai ditemui jarak Pearson X 2 dengan nilai kritikal khi kuasa dua χ 2 crit - yang terbesar, yang masih dianggap munasabah, serasi dengan H 0. Kami mencari nilai χ 2 crit daripada jadual dengan menyelesaikan persamaan

P (χ 2 n > χ 2 crit)=1-α,

dengan α ialah "tahap keertian" atau "saiz kriteria" atau "magnitud ralat jenis pertama" (nilai biasa α = 0.05).

Biasanya bilangan darjah kebebasan n dikira menggunakan formula

n = (bilangan digit) – 1 – (bilangan parameter untuk dianggarkan)

Jika X 2 > χ 2 crit, maka hipotesis H 0 ditolak, jika tidak, ia diterima. Dalam α∙100% kes (iaitu, agak jarang), kaedah menyemak H 0 ini akan membawa kepada "ralat jenis pertama": hipotesis H 0 akan ditolak secara salah.

Contoh. Dalam kajian 10 siri 100 biji, bilangan mereka yang dijangkiti lalat mata hijau dikira. Data diterima: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Di sini vektor frekuensi dijangka tidak diketahui terlebih dahulu. Jika data adalah homogen dan diperoleh untuk taburan binomial, maka satu parameter tidak diketahui: perkadaran p benih yang dijangkiti. Perhatikan bahawa dalam jadual asal sebenarnya bukan 10 tetapi 20 frekuensi yang memenuhi 10 sambungan: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Menggabungkan istilah secara berpasangan (seperti dalam contoh dengan syiling), kami memperoleh bentuk penulisan kriteria Pearson, yang biasanya ditulis dengan serta-merta:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Sekarang, jika jarak Pearson minimum digunakan sebagai kaedah untuk menganggar p, maka perlu mencari p yang X 2 =min. (Model cuba, jika boleh, untuk "melaraskan" kepada data percubaan.)

Kriteria Pearson adalah yang paling universal daripada semua yang digunakan dalam statistik. Ia boleh digunakan untuk data univariate dan multivariate, ciri kuantitatif dan kualitatif. Walau bagaimanapun, tepat kerana serba boleh, seseorang harus berhati-hati untuk tidak membuat kesilapan.

Perkara penting

1.Pemilihan kategori.

  • Jika pengedaran adalah diskret, maka biasanya tidak ada kesewenang-wenangan dalam pilihan digit.
  • Jika pengedaran berterusan, maka sewenang-wenangnya tidak dapat dielakkan. Blok yang setara secara statistik boleh digunakan (semua O adalah sama, contohnya =10). Walau bagaimanapun, panjang selang adalah berbeza. Apabila melakukan pengiraan manual, mereka cuba membuat selang yang sama. Sekiranya selang semasa mengkaji taburan sifat univariat adalah sama? Tidak.
  • Digit mesti digabungkan sedemikian rupa sehingga frekuensi yang dijangkakan (tidak diperhatikan!) tidak terlalu kecil (≥5). Mari kita ingat bahawa ia adalah mereka (E i) yang berada dalam penyebut apabila mengira X 2! Apabila menganalisis ciri satu dimensi, ia dibenarkan melanggar peraturan ini dalam dua digit ekstrem E 1 =E maks =1. Jika bilangan digit adalah besar dan frekuensi jangkaan adalah hampir, maka X 2 ialah anggaran yang baik bagi χ 2 walaupun untuk E i =2.

Anggaran Parameter. Penggunaan kaedah anggaran "buatan sendiri", yang tidak cekap boleh membawa kepada nilai jarak Pearson yang melambung.

Memilih bilangan darjah kebebasan yang betul. Jika anggaran parameter dibuat bukan daripada frekuensi, tetapi terus daripada data (contohnya, min aritmetik diambil sebagai anggaran min), maka bilangan sebenar darjah kebebasan n tidak diketahui. Kami hanya tahu bahawa ia memenuhi ketidaksamaan:

(bilangan digit – 1 – bilangan parameter yang sedang dinilai)< n < (число разрядов – 1)

Oleh itu, adalah perlu untuk membandingkan X 2 dengan nilai kritikal χ 2 crit yang dikira sepanjang julat n ini.

Bagaimana untuk mentafsir nilai khi kuasa dua yang tidak munasabah? Adakah syiling harus dianggap simetri jika, selepas 10,000 lambungan, ia mendarat di jata 5,000 kali? Sebelum ini, ramai ahli statistik percaya bahawa H 0 juga harus ditolak. Sekarang pendekatan lain dicadangkan: terima H 0, tetapi tundukkan data dan metodologi untuk analisisnya kepada pengesahan tambahan. Terdapat dua kemungkinan: sama ada jarak Pearson terlalu kecil bermakna peningkatan dalam bilangan parameter model tidak disertai dengan penurunan yang betul dalam bilangan darjah kebebasan, atau data itu sendiri telah dipalsukan (mungkin diselaraskan secara tidak sengaja kepada yang dijangkakan. hasil).

Contoh. Dua penyelidik A dan B mengira perkadaran homozigot resesif aa dalam generasi kedua silang AA * aa monohibrid. Mengikut undang-undang Mendel, pecahan ini ialah 0.25. Setiap penyelidik menjalankan 5 eksperimen, dan 100 organisma dikaji dalam setiap eksperimen.

Keputusan A: 25, 24, 26, 25, 24. Kesimpulan penyelidik: Hukum Mendel adalah benar(?).

Keputusan B: 29, 21, 23, 30, 19. Kesimpulan penyelidik: Hukum Mendel tidak adil(?).

Walau bagaimanapun, undang-undang Mendel adalah bersifat statistik, dan analisis kuantitatif keputusan membalikkan kesimpulan! Menggabungkan lima eksperimen menjadi satu, kami tiba di taburan khi kuasa dua dengan 5 darjah kebebasan (hipotesis mudah diuji):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Nilai purata m [χ 2 n =5 ]=5, sisihan piawai σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Oleh itu, tanpa merujuk kepada jadual, adalah jelas bahawa nilai X 2 B adalah tipikal, dan nilai X 2 A adalah sangat kecil. Mengikut jadual P (χ 2 n =5<0.16)<0.0001.

Contoh ini ialah penyesuaian kes sebenar yang berlaku pada tahun 1930-an (lihat karya Kolmogorov "On Another Proof of Mendel's Laws"). Menariknya, Penyelidik A adalah penyokong genetik, manakala Penyelidik B menentangnya.

Kekeliruan dalam tatatanda. Adalah perlu untuk membezakan jarak Pearson, yang memerlukan konvensyen tambahan dalam pengiraannya, daripada konsep matematik pembolehubah rawak khi kuasa dua. Jarak Pearson dalam keadaan tertentu mempunyai taburan yang hampir dengan khi kuasa dua dengan n darjah kebebasan. Oleh itu, adalah dinasihatkan untuk TIDAK menyatakan jarak Pearson dengan simbol χ 2 n, tetapi menggunakan tatatanda yang serupa tetapi berbeza X 2. .

Kriteria Pearson bukanlah yang maha kuasa. Terdapat bilangan alternatif yang tidak terhingga untuk H 0 yang dia tidak dapat mengambil kira. Katakan anda sedang menguji hipotesis bahawa ciri tersebut mempunyai taburan seragam, anda mempunyai 10 digit dan vektor frekuensi yang diperhatikan adalah sama dengan (130,125,121,118,116,115,114,113,111,110). Kriteria Pearson tidak boleh "perasan" bahawa frekuensi menurun secara monoton dan H 0 tidak akan ditolak. Jika ia ditambah dengan kriteria siri, maka ya!

1. Penunjuk setanding mesti diukur dalam skala nominal(contohnya, jantina pesakit adalah lelaki atau perempuan) atau dalam ordinal(contohnya, tahap hipertensi arteri, mengambil nilai dari 0 hingga 3).

2. Kaedah ini membolehkan anda menganalisis bukan sahaja jadual empat medan, apabila kedua-dua faktor dan hasilnya adalah pembolehubah binari, iaitu, mereka hanya mempunyai dua nilai yang mungkin (contohnya, lelaki atau perempuan, kehadiran atau ketiadaan penyakit tertentu dalam anamnesis...). Ujian khi kuasa dua Pearson juga boleh digunakan dalam kes menganalisis jadual berbilang medan, apabila faktor dan (atau) hasil mengambil tiga atau lebih nilai.

3. Kumpulan yang dibandingkan mestilah bebas, iaitu, ujian khi kuasa dua tidak boleh digunakan semasa membandingkan pemerhatian "sebelum selepas". Ujian McNemar(apabila membandingkan dua populasi yang berkaitan) atau dikira Ujian Q Cochran(sekiranya perbandingan tiga atau lebih kumpulan).

4. Apabila menganalisis jadual empat bidang nilai yang diharapkan dalam setiap sel mesti ada sekurang-kurangnya 10. Jika dalam sekurang-kurangnya satu sel fenomena yang dijangkakan mengambil nilai dari 5 hingga 9, ujian khi kuasa dua mesti dikira dengan pindaan Yates. Jika dalam sekurang-kurangnya satu sel fenomena yang dijangkakan adalah kurang daripada 5, maka analisis harus digunakan Ujian tepat Fisher.

5. Apabila menganalisis jadual berbilang medan, bilangan pemerhatian yang dijangkakan tidak boleh kurang daripada 5 dalam lebih daripada 20% sel.

Untuk mengira ujian khi kuasa dua yang anda perlukan:

1. Kira bilangan pemerhatian yang dijangkakan bagi setiap sel jadual kontingensi (dengan syarat hipotesis nol tiada hubungan adalah benar) dengan mendarab jumlah baris dan lajur dan kemudian membahagikan hasil darab dengan jumlah bilangan cerapan. Pandangan umum jadual nilai jangkaan dibentangkan di bawah:

Ada hasil (1) Tiada hasil (0) Jumlah
Terdapat faktor risiko (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Tiada faktor risiko (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Jumlah A+C B+D A+B+C+D

2. Mencari nilai bagi kriteria χ 2 mengikut formula berikut:

di mana i– nombor baris (dari 1 hingga r), j– nombor lajur (dari 1 hingga c), O ij– bilangan pemerhatian sebenar dalam sel ij, E ij– jangkaan bilangan cerapan dalam sel ij.

Sekiranya bilangan fenomena yang dijangkakan adalah kurang daripada 10 dalam sekurang-kurangnya satu sel, apabila menganalisis jadual empat medan, ia perlu dikira ujian khi kuasa dua dengan pembetulan Yates. Pindaan ini mengurangkan kemungkinan ralat jenis 1, iaitu, mengesan perbezaan jika tiada. Pembetulan Yates terdiri daripada menolak 0.5 daripada nilai mutlak perbezaan antara bilangan cerapan sebenar dan jangkaan dalam setiap sel, yang membawa kepada penurunan nilai ujian khi kuasa dua.

Formula untuk mengira kriteria χ 2 dengan pembetulan Yates adalah seperti berikut:

3. Menentukan bilangan darjah kebebasan mengikut formula: f = (r – 1) × (c – 1). Sehubungan itu, untuk jadual empat medan dengan 2 baris (r = 2) dan 2 lajur (c = 2), bilangan darjah kebebasan ialah f 2x2 = (2 - 1)*(2 - 1) = 1.

4. Kami membandingkan nilai kriteria χ 2 dengan nilai kritikal pada bilangan darjah kebebasan f (mengikut jadual).

Algoritma ini boleh digunakan untuk kedua-dua jadual empat medan dan berbilang medan.

Bagaimana untuk mentafsir nilai ujian khi kuasa dua Pearson?

Jika nilai yang diperolehi bagi kriteria χ 2 adalah lebih besar daripada nilai kritikal, kami membuat kesimpulan bahawa terdapat hubungan statistik antara faktor risiko yang dikaji dan hasil pada tahap kepentingan yang sesuai.

Contoh pengiraan ujian khi kuasa dua Pearson

Mari kita tentukan kepentingan statistik pengaruh faktor merokok terhadap kejadian hipertensi arteri menggunakan jadual yang dibincangkan di atas:

1. Kira nilai yang dijangkakan untuk setiap sel:

2. Cari nilai ujian khi kuasa dua Pearson:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. Bilangan darjah kebebasan f = (2-1)*(2-1) = 1. Dengan menggunakan jadual, kita dapati nilai kritikal bagi ujian khi kuasa dua Pearson, yang pada aras keertian p=0.05 dan bilangan darjah kebebasan 1 ialah 3.841.

4. Kami membandingkan nilai yang diperolehi bagi ujian khi kuasa dua dengan yang kritikal: 4.396 > 3.841, oleh itu, pergantungan kejadian hipertensi arteri terhadap kehadiran merokok adalah signifikan secara statistik. Tahap kepentingan hubungan ini sepadan dengan p<0.05.

Bilangan darjah kebebasan, f χ 2 pada p=0.05 χ 2 pada p=0.01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Siaran ini tidak menjawab cara mengira kriteria Chi kuasa dua pada dasarnya, tujuannya adalah untuk menunjukkan cara mengautomasikan Pengiraan Chi kuasa dua dalam excel, apakah fungsi untuk mengira kriteria Chi kuasa dua yang ada. Kerana anda tidak selalu mempunyai program SPSS atau R.
Dari satu segi, ini adalah peringatan dan petunjuk kepada peserta seminar Analitis untuk HR, saya harap anda menggunakan kaedah ini dalam kerja anda, siaran ini akan menjadi petunjuk lain.
Saya tidak menyediakan fail dengan pautan muat turun, tetapi anda boleh dengan mudah menyalin jadual contoh yang saya sediakan dan ikuti data dan formula yang saya sediakan

pengenalan

Sebagai contoh, kami ingin menyemak kebebasan (rawak / tidak rawak) pengedaran hasil tinjauan korporat, di mana dalam baris adalah jawapan kepada mana-mana soalan dalam soal selidik, dan dalam lajur adalah pengedaran mengikut panjang perkhidmatan.

Anda pergi untuk mengira Chi kuasa dua melalui jadual pangsi apabila data anda diringkaskan dalam jadual konjugasi, contohnya dalam bentuk ini
Jadual No. 1

kurang dari 1 tahun

Jumlahkan dengan baris

Jumlahkan mengikut lajur

Untuk mengira Chi kuasa dua dalam Excel, terdapat formula berikut

CHI2.UJIAN

Formula CH2.TEST mengira kebarangkalian kebebasan (rawak / bukan rawak) taburan

Sintaksnya adalah seperti ini

CHI2.TEST(selang_sebenar, selang_jangka)

Dalam kes kami, selang sebenar ialah kandungan jadual, i.e.

Itu. Setelah menerima dua jadual - empirikal dan jangkaan (atau frekuensi teori) - kami sebenarnya melepaskan diri kami daripada kerja mendapatkan perbezaan, kuasa dua dan pengiraan lain, serta menyemak dengan jadual nilai kritikal.

Dalam kes kami, CHI2.DIST.PH = 0.000466219908895455, seperti dalam contoh dengan CHI2.TEST

Nota

Formula untuk mengira Chi kuasa dua dalam Excel ini sesuai untuk anda mengira jadual dimensi 2X2, kerana anda sendiri menganggap Chi kuasa dua empirikal dan boleh memperkenalkan pembetulan kesinambungan ke dalam pengiraan.

Nota 2

Terdapat juga formula CHI2.DIST (anda pasti akan melihatnya dalam excel) - ia mengira kebarangkalian sebelah kiri (dalam istilah mudah, yang sebelah kiri dianggap sebagai 1 - yang sebelah kanan, iaitu kita hanya membelok formula berakhir, itulah sebabnya saya tidak memberikannya dalam pengiraan Chi square, dalam contoh kami CHI2.DIST = 0.999533780091105.
Jumlah CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Mengembalikan songsangan kebarangkalian ekor kanan bagi taburan khi kuasa dua (atau hanya nilai khi kuasa dua untuk tahap kebarangkalian tertentu dan bilangan darjah kebebasan)

Sinaksis

CH2.OBR.PH(kebarangkalian;darjah_kebebasan)

Kesimpulan

Sejujurnya, saya tidak mempunyai maklumat yang tepat tentang sejauh mana keputusan yang diperolehi Pengiraan Chi kuasa dua dalam excel berbeza daripada keputusan Chi kuasa dua dalam SPSS. Saya faham betul-betul. bahawa mereka berbeza, jika hanya kerana apabila mengira Chi kuasa dua secara bebas, nilainya dibundarkan dan bilangan tempat perpuluhan tertentu hilang. Tetapi saya tidak fikir ini adalah kritikal. Saya hanya mengesyorkan anda menginsuranskan diri anda dalam kes apabila kebarangkalian taburan Chi kuasa dua hampir dengan ambang (nilai-p) 0.05.

Ia tidak begitu menarik bahawa pembetulan kesinambungan tidak diambil kira - kami mengira banyak dalam jadual 2X2. Oleh itu, kami hampir tidak mencapai pengoptimuman dalam kes pengiraan jadual 2X2

Namun begitu, saya berpendapat bahawa pengetahuan di atas sudah cukup untuk membuat pengiraan Chi square dalam Excel sedikit lebih cepat untuk menjimatkan masa pada perkara yang lebih penting.


Ujian statistik untuk jadual kontingensi - Ujian Khi kuasa dua

Untuk mendapatkan ujian statistik untuk tab silang, klik butang Statistik... dalam kotak dialog Crosstabs. Kotak dialog Tab Silang: Statistik akan dibuka (lihat Rajah 11.9).

nasi. 11.9:

Kotak semak dalam kotak dialog ini membolehkan anda memilih satu atau lebih kriteria.

    Ujian khi kuasa dua ( X 2)

    Perkaitan

    Ukuran ketersambungan untuk pembolehubah pada skala nominal

    Ukuran perkaitan untuk pembolehubah yang berkaitan dengan skala ordinal

    Ukuran ketersambungan untuk pembolehubah skala selang

    Pekali Kappa ( Kepada)

    Ukuran risiko

    Ujian McNemar

    Statistik Cochrane dan Mantel-Haenszel

Kriteria ini dibincangkan dalam dua bahagian seterusnya, dan disebabkan fakta bahawa ujian khi kuasa dua adalah sangat penting dalam pengiraan statistik, bahagian yang berasingan dikhaskan untuknya.

Ujian khi kuasa dua ( X 2)

Semasa menjalankan ujian khi kuasa dua, kebebasan bersama dua pembolehubah dalam jadual kontingensi disemak dan, terima kasih kepada ini, secara tidak langsung pergantungan kedua-dua pembolehubah dijelaskan. Dua pembolehubah dianggap saling bebas jika frekuensi yang diperhatikan (f o) dalam sel bertepatan dengan frekuensi yang dijangkakan (f e).

Untuk melakukan ujian khi kuasa dua menggunakan SPSS, ikuti langkah berikut:

    Pilih Analyze Descriptive Statistics Crosstabs... daripada menu arahan

    Gunakan butang Reset untuk mengosongkan sebarang tetapan yang mungkin.

    Gerakkan pembolehubah seks kepada senarai rentetan, dan pembolehubah jiwa- ke senarai lajur.

    Klik butang Sel...(Sel). Dalam kotak dialog, sebagai tambahan kepada kotak semak lalai Diperhatikan, tandai kotak pilihan Jangkaan dan Standard. Sahkan pilihan anda dengan butang Teruskan.

    Klik butang Statistik...(Statistik). Kotak dialog Crosstabs: Statistik yang diterangkan di atas akan dibuka.

    Tandakan kotak Chi-square. Klik pada butang Teruskan, dan dalam kotak dialog utama klik pada OK.

Anda akan menerima jadual kontingensi berikut.

Jantina * Keadaan mental Jadual kontingensi

Keadaan mental Jumlah
Amat tidak stabil Tak stabil Mampan Sangat stabil
Lantai perempuan Kira 16 18 9 1 44
Kiraan Jangkaan 7,9 16,6 17,0 2,5 44,0
Std. Baki 2,9 ,3 -1,9 -.9
jantan Kira 3 22 32 5 62
Kiraan Jangkaan 11,1 23,4 24,0 3,5 62,0
Std. Baki -2,4 -,3 1,6 ,8
Jumlah Kira 19 40 41 6 106
Kiraan Jangkaan 19,0 40,0 41,0 6,0 106,0

Selain itu, tetingkap pratonton akan menunjukkan keputusan ujian khi kuasa dua:

Ujian Khi Kuasa Dua

Nilai df Asymp. Sig. (2 segi)
(Kepentingan asimptotik (dua belah))
Pearson Chi-Square
(Pearson Chi-square)
22.455 (a) 3 ,000
Nisbah Kemungkinan
(Nisbah kemungkinan)
23,688 3 ,000
Persatuan Linear-by-Linear
(Hubungan linear-linear)
20,391 1 ,000
N Kes Sah
(Bilangan kes yang sah)
106

A. 2 sel (25.0%) telah menjangkakan kiraan kurang daripada 5. Jumlah jangkaan minimum ialah 2.49 (2 sel (25%) mempunyai jangkaan frekuensi kurang daripada 5. Jangkaan kekerapan minimum ialah 2.49.)

Tiga pendekatan berbeza digunakan untuk mengira ujian khi kuasa dua:

  • Formula Pearson;
  • pembetulan kemungkinan;
  • Ujian Mantel-Haenszel.
  • Jika jadual kontingensi mempunyai empat medan (jadual 2 x 2) dan kebarangkalian yang dijangkakan adalah kurang daripada 5, tambahan pula Ujian tepat Fisher.

Biasanya, formula Pearson digunakan untuk mengira ujian khi kuasa dua:

Di sini jumlah kuasa dua baki piawai untuk semua medan jadual kontingensi dikira. Oleh itu, medan dengan baki terpiawai yang lebih tinggi memberikan sumbangan yang lebih ketara kepada nilai berangka ujian khi kuasa dua dan, oleh itu, kepada keputusan yang ketara. Mengikut peraturan yang diberikan dalam Bahagian 8.9, baki piawai 2 (1.96) atau lebih menunjukkan perbezaan yang ketara antara frekuensi yang diperhatikan dan dijangka dalam sel jadual.

Dalam contoh yang sedang dipertimbangkan, formula Pearson memberikan nilai signifikan maksimum bagi ujian khi kuasa dua (ms<0,0001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная jiwa mempunyai makna "amat tidak stabil". Pada wanita nilai ini sangat meningkat, dan pada lelaki ia menurun.

Ketepatan pelaksanaan Ujian khi kuasa dua ditentukan oleh dua keadaan:

  • frekuensi yang dijangkakan< 5 должны встречаться не более чем в 20% полей таблицы;
  • jumlah baris dan lajur mestilah sentiasa lebih besar daripada sifar.

Walau bagaimanapun, dalam contoh yang dipertimbangkan syarat ini tidak dipenuhi sepenuhnya. Seperti yang ditunjukkan oleh nota selepas jadual ujian khi kuasa dua, 25% daripada medan mempunyai jangkaan kekerapan kurang daripada 5. Walau bagaimanapun, memandangkan 20% had yang boleh diterima hanya melebihi sedikit dan medan ini, disebabkan oleh baki piawaian yang sangat kecil, menyumbang bahagian yang sangat kecil kepada nilai ujian chi -persegi, pelanggaran ini boleh dianggap tidak penting.

Alternatif kepada formula Pearson untuk mengira ujian khi kuasa dua ialah pembetulan kemungkinan:

Dengan saiz sampel yang besar, formula Pearson dan formula terlaras memberikan hasil yang hampir sama. Dalam contoh kami, ujian khi kuasa dua yang diperbetulkan kemungkinan ialah 23.688.

Ujian khi kuasa dua.

Ujian khi kuasa dua, tidak seperti ujian z, digunakan untuk membandingkan sebarang bilangan kumpulan.

Data awal: jadual kontingensi.

Contoh jadual kontingensi dengan dimensi minimum 2*2 diberikan di bawah. A, B, C, D – frekuensi sebenar yang dipanggil.

Tanda 1 Tanda 2 Jumlah
Kumpulan 1 A B A+B
Kumpulan 2 C D C+D
Jumlah A+C B+D A+B+C+D

Pengiraan kriteria adalah berdasarkan perbandingan frekuensi sebenar dan frekuensi dijangka, yang dikira di bawah andaian bahawa tidak ada pengaruh bersama ciri-ciri yang dibandingkan antara satu sama lain. Oleh itu, jika frekuensi sebenar dan jangkaan cukup dekat antara satu sama lain, maka tidak ada pengaruh dan ini bermakna ciri-ciri akan diagihkan secara lebih kurang sama merentas kumpulan.

Data awal untuk menggunakan kaedah ini mesti dimasukkan ke dalam jadual kontingensi, lajur dan baris yang menunjukkan nilai varian ciri yang sedang dikaji. Nombor dalam jadual ini akan dipanggil frekuensi sebenar atau eksperimen. Seterusnya, adalah perlu untuk mengira frekuensi jangkaan berdasarkan andaian bahawa kumpulan yang dibandingkan adalah sama rata dalam pengagihan ciri. Dalam kes ini, perkadaran untuk jumlah baris atau lajur "jumlah" mesti dikekalkan dalam mana-mana baris dan lajur. Berdasarkan ini, frekuensi jangkaan ditentukan (lihat contoh).

Kemudian nilai kriteria dikira sebagai jumlah ke atas semua sel jadual kontingensi nisbah kuasa dua perbezaan antara frekuensi sebenar dan kekerapan dijangka kepada kekerapan dijangka:

di manakah kekerapan sebenar dalam sel; - kekerapan dijangka dalam sel.

, Di mana N = A+ B + C + D.

Apabila mengira menggunakan formula asas untuk jadual 2*2 ( hanya untuk meja ini ), ia juga perlu menggunakan pembetulan Yates untuk kesinambungan:

.

Nilai kritikal kriteria ditentukan dari jadual (lihat lampiran) dengan mengambil kira bilangan darjah kebebasan dan tahap keertian. Tahap keertian diambil sebagai standard: 0.05; 0.01 atau 0.001. Bilangan darjah kebebasan ditakrifkan sebagai hasil darab bilangan baris dan lajur jadual kontingensi, setiap satu dikurangkan satu:

,

di mana r– bilangan baris (bilangan penggredan satu ciri), Dengan– bilangan lajur (bilangan penggredan ciri lain). Nilai kritikal ini boleh ditentukan dalam hamparan Microsoft Excel menggunakan fungsi =x2rev( a, f), di mana bukannya a anda perlu memasuki tahap keertian, dan bukannya f– bilangan darjah kebebasan.

Sekiranya nilai ujian khi kuasa dua lebih besar daripada nilai kritikal, maka hipotesis tentang kebebasan ciri-ciri tersebut ditolak dan ia boleh dianggap bergantung pada aras keertian yang dipilih.

Kaedah ini mempunyai had dalam kebolehgunaan: frekuensi yang dijangkakan mestilah 5 atau lebih (untuk jadual 2*2). Untuk jadual sewenang-wenangnya, sekatan ini kurang ketat: semua frekuensi jangkaan mestilah 1 atau lebih besar, dan perkadaran sel dengan frekuensi jangkaan kurang daripada 5 tidak boleh melebihi 20%.

Daripada jadual kontingensi dimensi tinggi, anda boleh "mengasingkan" jadual dimensi yang lebih kecil dan mengira nilai kriteria c 2 untuknya. Ini secara berkesan akan menjadi berbilang perbandingan yang serupa dengan yang diterangkan untuk ujian t Pelajar. Dalam kes ini, ia juga perlu menggunakan pembetulan untuk berbilang perbandingan bergantung pada bilangannya.

Untuk menguji hipotesis menggunakan kriteria c 2 dalam hamparan Microsoft Excel, anda boleh menggunakan fungsi berikut:

HI2TEST(selang_sebenar; selang_jangka).

Di sini actual_interval ialah jadual kontingensi asal dengan frekuensi sebenar (hanya sel dengan frekuensi itu sendiri ditunjukkan tanpa tajuk dan "jumlah"); jangkaan_selang – pelbagai frekuensi dijangka. Oleh itu, frekuensi yang dijangkakan mesti dikira secara bebas.

Contoh:

Wabak penyakit berjangkit telah berlaku di bandar tertentu. Terdapat andaian bahawa punca pencemaran adalah air minuman. Mereka memutuskan untuk menguji andaian ini menggunakan tinjauan sampel penduduk bandar, yang menurutnya adalah perlu untuk menentukan sama ada jumlah air yang diminum mempengaruhi bilangan kes.

Data sumber ditunjukkan dalam jadual berikut:

Mari kita mengira frekuensi yang dijangkakan. Perkadaran mesti kekal sama dalam jadual. Oleh itu, mari kita hitung, sebagai contoh, bahagian yang membentuk garisan dalam jumlah nombor, dan kita akan mendapat pekali untuk setiap baris. Perkadaran yang sama harus muncul dalam setiap sel baris yang sepadan, oleh itu, untuk mengira kekerapan yang dijangkakan dalam sel, kami mendarabkan pekali dengan jumlah dalam lajur yang sepadan.

Bilangan darjah kebebasan ialah (3-1)*(2-1)=2. Nilai Kriteria Kritikal .

Nilai eksperimen adalah lebih besar daripada nilai kritikal (61.5>13.816), iaitu. hipotesis bahawa tiada kesan jumlah air yang diminum terhadap morbiditi ditolak dengan kebarangkalian ralat kurang daripada 0.001. Oleh itu, boleh dikatakan bahawa air yang menjadi punca penyakit itu.

Kedua-dua kriteria yang diterangkan mempunyai had yang biasanya tidak dipenuhi jika bilangan cerapan adalah kecil atau penggredan ciri individu jarang berlaku. Dalam kes ini gunakan Ujian tepat Fisher . Ia berdasarkan pencarian melalui semua pilihan yang mungkin untuk mengisi jadual kontingensi untuk bilangan kumpulan tertentu. Oleh itu, pengiraan manual agak rumit. Untuk mengiranya, anda boleh menggunakan pakej aplikasi statistik.

Ujian z ialah analog daripada ujian Pelajar, tetapi digunakan untuk membandingkan ciri kualitatif. Nilai eksperimen bagi kriteria dikira sebagai nisbah perbezaan perkadaran kepada ralat purata dalam perbezaan perkadaran.

Nilai kritikal bagi kriteria z adalah sama dengan titik yang sepadan dengan taburan normal ternormal: , , .



Ujian khi kuasa dua digunakan untuk membandingkan sebarang bilangan kumpulan mengikut nilai ciri kualitatif. Data sumber mesti dibentangkan dalam bentuk jadual kontingensi. Nilai eksperimen bagi kriteria dikira sebagai jumlah ke atas semua sel jadual kontingensi nisbah kuasa dua perbezaan antara kekerapan sebenar dan kekerapan dijangka kepada kekerapan dijangka. Kekerapan jangkaan dikira di bawah andaian bahawa ciri yang dibandingkan adalah sama dalam semua kumpulan. Nilai kritikal ditentukan daripada jadual taburan khi kuasa dua.

KESUSASTERAAN.

Glanz S. – Bab 5.

Rebrova O.Yu. – Bab 10,11.

Lakin G.F. - Dengan. 120-123

Soalan untuk ujian kendiri pelajar.

1. Dalam kes apakah kriteria z boleh digunakan?

2. Apakah asas untuk mengira nilai eksperimen bagi kriteria z?

3. Bagaimana untuk mencari nilai kritikal bagi kriteria z?

4. Dalam kes apakah kriteria c 2 boleh digunakan?

5. Apakah asas untuk mengira nilai eksperimen bagi kriteria c 2?

6. Bagaimana untuk mencari nilai kritikal bagi kriteria c 2?

7. Apakah lagi yang boleh digunakan untuk membandingkan ciri kualiti jika kriteria z dan c 2 tidak dapat digunakan kerana sekatan?

Tugasan.