Menyelesaikan masalah menggunakan formula kebarangkalian jumlah dan formula Bayes. Formula Bayesian

Siapa Bayes? dan apa kaitannya dengan pengurusan? - soalan yang benar-benar adil mungkin menyusul. Buat masa ini, ambil kata saya: ini sangat penting!.. dan menarik (sekurang-kurangnya kepada saya).

Apakah paradigma di mana kebanyakan pengurus beroperasi: Jika saya memerhati sesuatu, apakah kesimpulan yang boleh saya buat daripadanya? Apa yang Bayes ajar: apa yang mesti ada untuk saya memerhatikan sesuatu ini? Beginilah cara semua sains berkembang, dan dia menulis tentang ini (saya petik dari ingatan): seseorang yang tidak mempunyai teori dalam kepalanya akan menjauhkan diri dari satu idea ke idea yang lain di bawah pengaruh pelbagai peristiwa (pemerhatian). Ia bukan untuk apa-apa yang mereka katakan: tidak ada yang lebih praktikal daripada teori yang baik.

Contoh dari amalan. Orang bawahan saya membuat kesilapan, dan rakan sekerja saya (ketua jabatan lain) mengatakan bahawa adalah perlu untuk memberi pengaruh pengurusan terhadap pekerja yang cuai (dengan kata lain, menghukum/memarahi). Dan saya tahu bahawa pekerja ini melakukan 4–5 ribu jenis operasi yang sama setiap bulan, dan pada masa ini tidak membuat lebih daripada 10 kesilapan. Adakah anda merasakan perbezaan dalam paradigma? Rakan sekerja saya bertindak balas terhadap pemerhatian, dan saya mempunyai pengetahuan priori bahawa pekerja melakukan beberapa kesilapan, jadi satu lagi tidak menjejaskan pengetahuan ini ... Sekarang, jika pada akhir bulan ternyata ada, sebagai contoh, 15 kesilapan sedemikian!.. Ini sudah menjadi alasan untuk mengkaji sebab-sebab ketidakpatuhan piawaian.

Yakin dengan kepentingan pendekatan Bayesian? Tertarik? Harap begitu". Dan kini lalat dalam salap. Malangnya, idea Bayesian jarang diberikan serta-merta. Saya terus terang tidak bernasib baik, sejak saya mengenali idea-idea ini melalui kesusasteraan popular, selepas membaca banyak soalan yang tinggal. Semasa merancang untuk menulis nota, saya mengumpul segala-galanya yang pernah saya ambil nota mengenai Bayes, dan juga mengkaji apa yang ditulis di Internet. Saya sampaikan kepada anda tekaan terbaik saya mengenai topik ini. Pengenalan kepada Kebarangkalian Bayesian.

Terbitan teorem Bayes

Pertimbangkan percubaan berikut: kami menamakan sebarang nombor yang terletak pada segmen dan merekodkan apabila nombor ini, sebagai contoh, antara 0.1 dan 0.4 (Rajah 1a). Kebarangkalian peristiwa ini adalah sama dengan nisbah panjang segmen kepada jumlah panjang segmen, dengan syarat penampilan nombor pada segmen sama-sama berkemungkinan. Secara matematik ini boleh ditulis hlm(0,1 <= x <= 0,4) = 0,3, или кратко R(X) = 0.3, di mana R- kebarangkalian, X– pembolehubah rawak dalam julat, X– pembolehubah rawak dalam julat . Iaitu, kebarangkalian untuk memukul segmen ialah 30%.

nasi. 1. Tafsiran grafik kebarangkalian

Sekarang pertimbangkan kuasa dua x (Rajah 1b). Katakan kita perlu menamakan pasangan nombor ( x, y), setiap satunya lebih besar daripada sifar dan kurang daripada satu. Kebarangkalian itu x(nombor pertama) akan berada di dalam segmen (kawasan biru 1), sama dengan nisbah luas kawasan biru kepada luas keseluruhan persegi, iaitu (0.4 – 0.1) * (1 – 0 ) / (1 * 1) = 0, 3, iaitu 30% yang sama. Kebarangkalian itu y terletak di dalam segmen (kawasan hijau 2) adalah sama dengan nisbah keluasan kawasan hijau ke luas keseluruhan persegi hlm(0,5 <= y <= 0,7) = 0,2, или кратко R(Y) = 0,2.

Apakah yang boleh anda pelajari tentang nilai pada masa yang sama? x Dan y. Sebagai contoh, apakah kebarangkalian bahawa pada masa yang sama x Dan y berada dalam segmen yang diberikan sepadan? Untuk melakukan ini, anda perlu mengira nisbah kawasan kawasan 3 (persimpangan jalur hijau dan biru) dengan luas keseluruhan persegi: hlm(X, Y) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

Sekarang katakan kita ingin tahu apakah kebarangkalian itu y berada dalam selang jika x sudah berada dalam julat . Iaitu, sebenarnya, kita mempunyai penapis dan apabila kita memanggil pasangan ( x, y), maka kami segera membuang pasangan yang tidak memenuhi syarat untuk mencari x dalam selang waktu tertentu, dan kemudian daripada pasangan yang ditapis kita mengira pasangan yang mana y memenuhi keadaan kami dan menganggap kebarangkalian sebagai nisbah bilangan pasangan yang y terletak pada segmen di atas kepada jumlah pasangan yang ditapis (iaitu, yang x terletak pada segmen). Kita boleh menulis kebarangkalian ini sebagai hlm(Y|X di X memukul jarak jauh." Jelas sekali, kebarangkalian ini adalah sama dengan nisbah luas kawasan 3 dengan luas kawasan biru 1. Luas kawasan 3 ialah (0.4 – 0.1) * (0.7 – 0.5) = 0.06, dan luas kawasan biru 1 ( 0.4 – 0.1) * (1 – 0) = 0.3, maka nisbahnya ialah 0.06 / 0.3 = 0.2. Dalam erti kata lain, kebarangkalian mencari y pada segmen dengan syarat itu x tergolong dalam segmen hlm(Y|X) = 0,2.

Dalam perenggan sebelumnya kami sebenarnya merumuskan identiti: hlm(Y|X) = hlm(X, Y) / p( X). Ia berbunyi: “kebarangkalian untuk memukul di dalam julat , dengan syarat itu X memukul julat, sama dengan nisbah kebarangkalian pukulan serentak X ke dalam julat dan di kepada julat, kepada kebarangkalian untuk memukul X ke dalam julat."

Dengan analogi, pertimbangkan kebarangkalian hlm(X|Y). Kami memanggil pasangan ( x, y) dan tapis yang mana y terletak di antara 0.5 dan 0.7, maka kebarangkalian itu x adalah dalam selang yang disediakan itu y tergolong dalam segmen adalah sama dengan nisbah kawasan wilayah 3 dengan luas kawasan hijau 2: hlm(X|Y) = hlm(X, Y) / hlm(Y).

Perhatikan bahawa kebarangkalian hlm(X, Y) Dan hlm(Y, X) adalah sama, dan kedua-duanya adalah sama dengan nisbah luas zon 3 dengan luas seluruh persegi, tetapi kebarangkalian hlm(Y|X) Dan hlm(X|Y) tidak sama; manakala kebarangkalian hlm(Y|X) adalah sama dengan nisbah kawasan wilayah 3 kepada wilayah 1, dan hlm(X|Y) – wilayah 3 hingga wilayah 2. Perhatikan juga bahawa hlm(X, Y) sering dilambangkan sebagai hlm(X&Y).

Jadi kami memperkenalkan dua definisi: hlm(Y|X) = hlm(X, Y) / p( X) Dan hlm(X|Y) = hlm(X, Y) / hlm(Y)

Mari kita tulis semula persamaan ini dalam bentuk: hlm(X, Y) = hlm(Y|X) * p( X) Dan hlm(X, Y) = hlm(X|Y) * hlm(Y)

Oleh kerana bahagian kiri adalah sama, bahagian kanan adalah sama: hlm(Y|X) * p( X) = hlm(X|Y) * hlm(Y)

Atau kita boleh menulis semula kesamaan terakhir sebagai:

Ini adalah teorem Bayes!

Adakah transformasi mudah (hampir tautologi) itu benar-benar menimbulkan teorem yang hebat!? Jangan tergesa-gesa membuat kesimpulan. Mari kita bercakap lagi tentang apa yang kita dapat. Terdapat kebarangkalian awal (a priori) tertentu R(X), bahawa pembolehubah rawak X diedarkan secara seragam pada segmen berada dalam julat X. Satu peristiwa berlaku Y, akibatnya kami menerima kebarangkalian posterior pembolehubah rawak yang sama X: R(X|Y), dan kebarangkalian ini berbeza daripada R(X) mengikut pekali. Peristiwa Y dipanggil bukti, lebih kurang mengesahkan atau menyangkal X. Pekali ini kadangkala dipanggil kuasa bukti. Lebih kukuh bukti, lebih fakta memerhati Y mengubah kebarangkalian terdahulu, lebih banyak kebarangkalian posterior berbeza daripada sebelumnya. Jika bukti lemah, kebarangkalian posterior hampir sama dengan yang terdahulu.

Formula Bayes untuk pembolehubah rawak diskret

Dalam bahagian sebelumnya, kami memperoleh formula Bayes untuk pembolehubah rawak berterusan x dan y yang ditakrifkan pada selang. Mari kita pertimbangkan contoh dengan pembolehubah rawak diskret, setiap satu mengambil dua nilai yang mungkin. Semasa pemeriksaan perubatan rutin, didapati bahawa pada usia empat puluh, 1% wanita mengalami kanser payudara. 80% wanita yang menghidap kanser menerima keputusan mamogram yang positif. 9.6% wanita yang sihat juga menerima keputusan mamogram yang positif. Semasa peperiksaan, seorang wanita dalam kumpulan umur ini menerima keputusan mamografi yang positif. Apakah kemungkinan dia benar-benar menghidap kanser payudara?

Garis penaakulan/pengiraan adalah seperti berikut. Daripada 1% pesakit kanser, mamografi akan memberikan 80% keputusan positif = 1% * 80% = 0.8%. Daripada 99% wanita yang sihat, mamografi akan memberikan 9.6% keputusan positif = 99% * 9.6% = 9.504%. Sebanyak 10.304% (9.504% + 0.8%) dengan keputusan mamografi positif, hanya 0.8% yang sakit, dan 9.504% selebihnya sihat. Oleh itu, kebarangkalian bahawa seorang wanita dengan mamogram positif mempunyai kanser ialah 0.8% / 10.304% = 7.764%. Adakah anda fikir 80% atau lebih?

Dalam contoh kami, formula Bayes mengambil bentuk berikut:

Mari kita bercakap tentang makna "fizikal" formula ini sekali lagi. X– pembolehubah rawak (diagnosis), mengambil nilai: X 1- sakit dan X 2– sihat; Y– pembolehubah rawak (hasil pengukuran – mamografi), mengambil nilai: Y 1- keputusan positif dan Y2- keputusan negatif; p(X 1)– kebarangkalian sakit sebelum mamografi (kebarangkalian priori) bersamaan dengan 1%; R(Y 1 |X 1 ) – kebarangkalian hasil positif jika pesakit sakit (kebarangkalian bersyarat, kerana ia mesti dinyatakan dalam syarat tugas), sama dengan 80%; R(Y 1 |X 2 ) – kebarangkalian keputusan positif jika pesakit sihat (juga kebarangkalian bersyarat) ialah 9.6%; p(X 2)– kebarangkalian bahawa pesakit sihat sebelum mamografi (kebarangkalian priori) ialah 99%; p(X 1|Y 1 ) – kebarangkalian pesakit itu sakit, diberi keputusan mamografi positif (kebarangkalian posterior).

Ia boleh dilihat bahawa kebarangkalian posterior (apa yang kita cari) adalah berkadar dengan kebarangkalian terdahulu (awal) dengan pekali lebih kompleks sedikit. . Biar saya tekankan sekali lagi. Pada pendapat saya, ini adalah aspek asas pendekatan Bayesian. Pengukuran ( Y) menambah sejumlah maklumat kepada perkara yang pada mulanya tersedia (a priori), yang menjelaskan pengetahuan kami tentang objek tersebut.

Contoh

Untuk menyatukan bahan yang telah anda bincangkan, cuba selesaikan beberapa masalah.

Contoh 1. Terdapat 3 tempayan; pada yang pertama terdapat 3 bola putih dan 1 hitam; dalam kedua - 2 bola putih dan 3 hitam; dalam ketiga terdapat 3 bola putih. Seseorang menghampiri salah satu tempayan secara rawak dan mengeluarkan 1 bola daripadanya. Bola ini ternyata berwarna putih. Cari kebarangkalian posterior bahawa bola itu diambil dari urn 1, 2, 3.

Penyelesaian. Kami mempunyai tiga hipotesis: H 1 = (urn pertama dipilih), H 2 = (urn kedua dipilih), H 3 = (urn ketiga dipilih). Oleh kerana urn dipilih secara rawak, kebarangkalian a priori bagi hipotesis adalah sama: P(H 1) = P(H 2) = P(H 3) = 1/3.

Hasil daripada eksperimen, peristiwa A = muncul (bola putih diambil dari urn yang dipilih). Kebarangkalian bersyarat bagi peristiwa A di bawah hipotesis H 1, H 2, H 3: P(A|H 1) = 3/4, P(A|H 2) = 2/5, P(A|H 3) = 1. Sebagai contoh, kesamaan pertama berbunyi seperti ini: "kebarangkalian untuk melukis bola putih jika guci pertama dipilih ialah 3/4 (kerana terdapat 4 bola dalam guci pertama, dan 3 daripadanya berwarna putih)."

Dengan menggunakan formula Bayes, kita dapati kebarangkalian posterior hipotesis:

Oleh itu, berdasarkan maklumat tentang kejadian A, kebarangkalian hipotesis berubah: hipotesis H 3 menjadi paling berkemungkinan, hipotesis H 2 menjadi paling kecil kemungkinannya.

Contoh 2. Dua penembak secara bebas menembak pada sasaran yang sama, masing-masing melepaskan satu pukulan. Kebarangkalian untuk mencapai sasaran untuk penembak pertama ialah 0.8, untuk yang kedua - 0.4. Selepas menembak, satu lubang ditemui pada sasaran. Cari kebarangkalian bahawa lubang ini adalah milik penembak pertama (Hasilnya (kedua-dua lubang bertepatan) dibuang sebagai tidak mungkin diabaikan).

Penyelesaian. Sebelum percubaan, hipotesis berikut adalah mungkin: H 1 = (anak panah pertama atau kedua tidak akan terkena), H 2 = (kedua-dua anak panah akan terkena), H 3 - (penembak pertama akan terkena, tetapi yang kedua tidak ), H 4 = (penembak pertama tidak akan memukul, dan yang kedua akan memukul). Kebarangkalian hipotesis terdahulu:

P(H 1) = 0.2*0.6 = 0.12; P(H2) = 0.8*0.4 = 0.32; P (H 3) = 0.8 * 0.6 = 0.48; P(H 4) = 0.2*0.4 = 0.08.

Kebarangkalian bersyarat bagi peristiwa yang diperhatikan A = (terdapat satu lubang dalam sasaran) di bawah hipotesis ini adalah sama: P(A|H 1) = P(A|H 2) = 0; P(A|H 3) = P(A|H 4) = 1

Selepas eksperimen, hipotesis H 1 dan H 2 menjadi mustahil, dan kebarangkalian posterior hipotesis H 3 dan H 4 mengikut formula Bayes ialah:

Bayes terhadap spam

Formula Bayes telah menemui aplikasi luas dalam pembangunan penapis spam. Katakan anda ingin melatih komputer untuk menentukan e-mel yang spam. Kami akan meneruskan daripada kamus dan frasa menggunakan anggaran Bayesian. Mari kita buat ruang hipotesis dahulu. Marilah kita mempunyai dua hipotesis mengenai mana-mana huruf: H A ialah spam, H B bukan spam, tetapi surat biasa yang diperlukan.

Mula-mula, mari kita "latih" sistem anti-spam masa depan kita. Mari kita ambil semua huruf yang kita ada dan bahagikannya kepada dua "timbunan" 10 huruf setiap satu. Mari letakkan e-mel spam dalam satu dan panggil ia timbunan H A, dalam satu lagi kami akan letakkan surat-menyurat yang diperlukan dan panggil timbunan H B. Sekarang mari kita lihat: apakah perkataan dan frasa yang terdapat dalam spam dan surat yang diperlukan dan dengan kekerapan yang berapa? Kami akan memanggil perkataan dan frasa ini sebagai bukti dan menandakannya E 1 , E 2 ... Ternyata perkataan yang biasa digunakan (contohnya, perkataan "seperti", "anda") dalam timbunan H A dan H B berlaku dengan kira-kira kekerapan yang sama. Oleh itu, kehadiran perkataan-perkataan ini dalam surat tidak memberitahu kita tentang timbunan mana yang akan diberikan (bukti yang lemah). Mari kita berikan perkataan ini skor kebarangkalian "spam" neutral, katakan 0.5.

Biarkan frasa "bahasa Inggeris pertuturan" muncul dalam 10 huruf sahaja dan lebih kerap dalam huruf spam (contohnya, dalam 7 huruf spam daripada semua 10) berbanding huruf yang diperlukan (dalam 3 daripada 10). Mari berikan frasa ini penilaian yang lebih tinggi untuk spam: 7/10 dan penilaian yang lebih rendah untuk e-mel biasa: 3/10. Sebaliknya, ternyata perkataan "buddy" lebih kerap muncul dalam huruf biasa (6 daripada 10). Dan kemudian kami menerima surat pendek: "Kawan saya! Bagaimanakah pertuturan bahasa Inggeris anda?”. Mari cuba menilai "kespaman"nya. Kami akan memberikan anggaran am P(H A), P(H B) bagi huruf yang dimiliki oleh setiap timbunan menggunakan formula Bayes yang agak dipermudahkan dan anggaran anggaran kami:

P(H A) = A/(A+B), di mana A = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n = (1 – p a1)*(1 – p a2)*… *(1 – p an).

Jadual 1. Anggaran penulisan Bayes yang dipermudahkan (dan tidak lengkap).

Oleh itu, surat hipotesis kami menerima kebarangkalian skor kepunyaan dengan penekanan pada "spam". Bolehkah kita membuat keputusan untuk membuang surat itu ke dalam salah satu timbunan? Mari kita tetapkan ambang keputusan:

  • Kami akan menganggap bahawa huruf itu tergolong dalam timbunan H i jika P(H i) ≥ T.
  • Satu huruf tidak tergolong dalam timbunan jika P(H i) ≤ L.
  • Jika L ≤ P(H i) ≤ T, maka tiada keputusan boleh dibuat.

Anda boleh mengambil T = 0.95 dan L = 0.05. Sejak untuk surat berkenaan dan 0.05< P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

ya. Mari kita mengira skor untuk setiap bukti dengan cara yang berbeza, seperti yang dicadangkan oleh Bayes. Biarkan:

F a ialah jumlah bilangan e-mel spam;

F ai ialah bilangan huruf dengan sijil i dalam timbunan spam;

F b ialah jumlah bilangan huruf yang diperlukan;

F bi ialah bilangan huruf dengan sijil i dalam sekumpulan surat yang perlu (berkaitan).

Kemudian: p ai = F ai /F a, p bi = F bi /F b. P(H A) = A/(A+B), P(H B) = B/(A+B), di mana A = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n

Sila ambil perhatian bahawa penilaian perkataan keterangan p ai dan p bi telah menjadi objektif dan boleh dikira tanpa campur tangan manusia.

Jadual 2. Anggaran Bayes yang lebih tepat (tetapi tidak lengkap) berdasarkan ciri yang tersedia daripada surat

Kami menerima keputusan yang sangat pasti - dengan kelebihan yang besar, huruf itu boleh diklasifikasikan sebagai huruf yang dikehendaki, kerana P(H B) = 0.997 > T = 0.95. Mengapa keputusan berubah? Kerana kami menggunakan lebih banyak maklumat - kami mengambil kira bilangan huruf dalam setiap longgokan dan, dengan cara itu, menentukan anggaran p ai dan p bi dengan lebih tepat. Mereka ditentukan seperti yang dilakukan oleh Bayes sendiri, dengan mengira kebarangkalian bersyarat. Dalam erti kata lain, p a3 ialah kebarangkalian perkataan "buddy" muncul dalam surat, dengan syarat surat ini sudah tergolong dalam timbunan spam H A . Keputusannya tidak lama lagi - nampaknya kita boleh membuat keputusan dengan lebih pasti.

Bayes terhadap penipuan korporat

Aplikasi menarik pendekatan Bayesian telah diterangkan oleh MAGNUS8.

Projek semasa saya (IS untuk mengesan penipuan di perusahaan pembuatan) menggunakan formula Bayes untuk menentukan kebarangkalian penipuan (penipuan) dengan kehadiran/ketiadaan beberapa fakta yang secara tidak langsung memberi keterangan memihak kepada hipotesis tentang kemungkinan melakukan penipuan. Algoritma adalah pembelajaran kendiri (dengan maklum balas), i.e. mengira semula pekalinya (kebarangkalian bersyarat) selepas pengesahan sebenar atau bukan pengesahan penipuan semasa pemeriksaan oleh perkhidmatan keselamatan ekonomi.

Mungkin patut dikatakan bahawa kaedah sedemikian apabila mereka bentuk algoritma memerlukan budaya matematik pembangun yang agak tinggi, kerana ralat yang sedikit dalam terbitan dan/atau pelaksanaan formula pengiraan akan membatalkan dan mendiskreditkan keseluruhan kaedah. Kaedah kebarangkalian sangat terdedah kepada ini, kerana pemikiran manusia tidak disesuaikan untuk bekerja dengan kategori kebarangkalian dan, oleh itu, tidak ada "keterlihatan" dan pemahaman tentang "makna fizikal" parameter kebarangkalian pertengahan dan akhir. Pemahaman ini wujud hanya untuk konsep asas teori kebarangkalian, dan kemudian anda hanya perlu berhati-hati menggabungkan dan memperoleh perkara yang kompleks mengikut undang-undang teori kebarangkalian - akal tidak lagi membantu untuk objek komposit. Ini, khususnya, dikaitkan dengan pertempuran metodologi yang agak serius yang berlaku di halaman buku moden mengenai falsafah kebarangkalian, serta sejumlah besar sophisms, paradoks dan teka-teki yang ingin tahu mengenai topik ini.

Satu lagi nuansa yang saya terpaksa hadapi ialah, malangnya, hampir semua perkara yang lebih kurang BERGUNA DALAM PRAKTIS mengenai topik ini ditulis dalam bahasa Inggeris. Dalam sumber bahasa Rusia hanya terdapat teori yang terkenal dengan contoh demonstrasi hanya untuk kes yang paling primitif.

Saya bersetuju sepenuhnya dengan teguran terakhir. Contohnya, Google, apabila cuba mencari sesuatu seperti "buku Bayesian Probability," tidak menghasilkan apa-apa yang boleh difahami. Benar, dia melaporkan bahawa buku dengan statistik Bayesian telah diharamkan di China. (Profesor statistik Andrew Gelman melaporkan di blog Universiti Columbia bahawa bukunya, Analisis Data dengan Regresi dan Model Berbilang Peringkat/Hierarki, telah diharamkan daripada diterbitkan di China. Penerbit di sana melaporkan bahawa "buku itu tidak diluluskan oleh pihak berkuasa kerana pelbagai sensitif politik bahan dalam teks.") Saya tertanya-tanya adakah sebab yang sama menyebabkan kekurangan buku tentang kebarangkalian Bayesian di Rusia?

Konservatisme dalam pemprosesan maklumat manusia

Kebarangkalian menentukan tahap ketidakpastian. Kebarangkalian, kedua-duanya mengikut Bayes dan intuisi kita, hanyalah nombor antara sifar dan yang mewakili tahap di mana seseorang yang agak ideal mempercayai pernyataan itu adalah benar. Sebab seseorang agak diidealkan ialah jumlah kebarangkaliannya untuk dua peristiwa yang saling eksklusif mestilah sama dengan kebarangkaliannya untuk sama ada peristiwa itu berlaku. Sifat aditiviti mempunyai akibat sedemikian sehingga hanya sedikit orang yang dapat memenuhi kesemuanya.

Teorem Bayes adalah akibat remeh sifat ketambahan, tidak dapat dipertikaikan dan dipersetujui oleh semua kebarangkalian, Bayesian dan sebaliknya. Salah satu cara untuk menulis ini adalah seperti berikut. Jika P(H A |D) ialah kebarangkalian seterusnya bahawa hipotesis A adalah selepas nilai D yang diberi diperhatikan, P(H A) ialah kebarangkalian terdahulunya sebelum nilai D yang diberi diperhatikan, P(D|H A ) ialah kebarangkalian bahawa a nilai D yang diberi akan diperhatikan jika H A adalah benar, dan P(D) ialah kebarangkalian tanpa syarat bagi nilai D yang diberikan, maka

(1) P(H A |D) = P(D|H A) * P(H A) / P(D)

P(D) paling baik dianggap sebagai pemalar normalisasi, menyebabkan kebarangkalian posterior menambah kepada kesatuan ke atas set lengkap hipotesis saling eksklusif yang sedang dipertimbangkan. Jika perlu dikira, boleh jadi seperti ini:

Tetapi lebih kerap P(D) dihapuskan daripada dikira. Cara mudah untuk menghapuskan ini adalah dengan mengubah teorem Bayes ke dalam bentuk nisbah kemungkinan-kemungkinan.

Pertimbangkan hipotesis lain, H B , yang saling eksklusif dengan H A , dan ubah fikiran anda tentangnya berdasarkan kuantiti yang sama yang mengubah fikiran anda tentang H A teorem Bayes mengatakan bahawa

(2) P(H B |D) = P(D|H B) * P(H B) / P(D)

Sekarang mari kita bahagikan Persamaan 1 dengan Persamaan 2; hasilnya akan menjadi seperti ini:

di mana Ω 1 ialah kemungkinan posterior memihak kepada H A hingga H B , Ω 0 ialah peluang terdahulu, dan L ialah kuantiti yang biasa kepada ahli statistik sebagai nisbah kebarangkalian. Persamaan 3 ialah versi teorem Bayes yang sama seperti Persamaan 1, dan selalunya lebih berguna terutamanya untuk eksperimen yang melibatkan hipotesis. Bayesians berpendapat bahawa teorem Bayes adalah peraturan optimum secara rasmi tentang cara menyemak semula pendapat berdasarkan bukti baru.

Kami berminat untuk membandingkan tingkah laku ideal yang ditakrifkan oleh teorem Bayes dengan tingkah laku sebenar orang. Untuk memberi anda sedikit idea tentang maksud ini, mari cuba percubaan dengan anda sebagai subjek ujian. Beg ini mengandungi 1000 cip poker. Saya mempunyai dua beg sedemikian, satu mengandungi 700 merah dan 300 cip biru, dan satu lagi mengandungi 300 merah dan 700 biru. Saya membaling syiling untuk menentukan yang mana satu untuk digunakan. Jadi, jika pendapat kami adalah sama, kebarangkalian semasa anda untuk mendapatkan beg yang mengandungi lebih banyak cip merah ialah 0.5. Sekarang, anda membuat sampel rawak dengan pulangan selepas setiap cip. Dalam 12 cip anda mendapat 8 merah dan 4 biru. Sekarang, berdasarkan semua yang anda ketahui, apakah kebarangkalian untuk mendaratkan beg dengan warna merah terbanyak? Adalah jelas bahawa ia adalah lebih tinggi daripada 0.5. Tolong jangan teruskan membaca sehingga anda mencatat markah anda.

Jika anda seperti pengambil ujian biasa, markah anda jatuh dalam julat 0.7 hingga 0.8. Sekiranya kita melakukan pengiraan yang sepadan, bagaimanapun, jawapannya ialah 0.97. Memang sangat jarang bagi seseorang yang tidak pernah ditunjukkan pengaruh konservatisme sebelum ini untuk mencapai anggaran yang begitu tinggi, walaupun dia biasa dengan teorem Bayes.

Jika bahagian cip merah dalam beg itu ialah R, maka kebarangkalian untuk menerima r kerepek merah dan ( n –r) biru masuk n sampel dengan pulangan - p r (1–p)n–r. Jadi, dalam percubaan biasa dengan beg dan cip poker, jika NA bermakna bahagian cip merah ialah r A Dan NB– bermakna bahagian itu adalah RB, maka nisbah kebarangkalian:

Apabila menggunakan formula Bayes, seseorang perlu mempertimbangkan hanya kebarangkalian pemerhatian sebenar, dan bukan kebarangkalian pemerhatian lain yang mungkin dia buat tetapi tidak. Prinsip ini mempunyai implikasi yang luas untuk semua aplikasi statistik dan bukan statistik bagi teorem Bayes; ia adalah alat teknikal yang paling penting untuk penaakulan Bayesian.

Revolusi Bayesian

Rakan dan rakan sekerja anda bercakap tentang sesuatu yang dipanggil "Teorem Bayes" atau "Peraturan Bayes" atau sesuatu yang dipanggil Penaakulan Bayesian. Mereka sangat berminat dengan perkara ini, jadi anda pergi ke dalam talian dan mencari halaman tentang teorem Bayes dan... Ia adalah persamaan. Dan itu sahaja... Mengapakah konsep matematik menimbulkan keghairahan dalam minda? Apakah jenis "revolusi Bayesian" yang berlaku di kalangan saintis, dan dikatakan bahawa pendekatan eksperimen itu sendiri boleh digambarkan sebagai kes istimewanya? Apakah rahsia yang diketahui oleh Bayesian? Apakah jenis cahaya yang mereka lihat?

Revolusi Bayesian dalam sains tidak berlaku kerana semakin ramai saintis kognitif tiba-tiba mula menyedari bahawa fenomena mental mempunyai struktur Bayesian; bukan kerana saintis dalam setiap bidang telah mula menggunakan kaedah Bayesian; tetapi kerana sains itu sendiri adalah kes khas teorem Bayes; bukti eksperimen ialah bukti Bayesian. Revolusioner Bayesian berpendapat bahawa apabila anda melakukan eksperimen dan mendapatkan bukti yang "mengesahkan" atau "menyangkal" teori anda, pengesahan atau penolakan itu berlaku mengikut peraturan Bayesian. Sebagai contoh, anda mesti mempertimbangkan bukan sahaja bahawa teori anda boleh menerangkan fenomena, tetapi juga terdapat penjelasan lain yang mungkin juga boleh meramalkan fenomena tersebut.

Sebelum ini, falsafah sains yang paling popular ialah falsafah lama, yang digantikan oleh revolusi Bayesian. Idea Karl Popper bahawa teori boleh dipalsukan sepenuhnya tetapi tidak pernah disahkan sepenuhnya ialah satu lagi kes khas peraturan Bayesian; jika p(X|A) ≈ 1 – jika teori membuat ramalan yang betul, maka pemerhatian ~X memalsukan A dengan sangat kuat, sebaliknya, jika p(X|A) ≈ 1 dan kita memerhati X, ini tidak mengesahkan dengan kuat. teori; mungkin beberapa keadaan B lain mungkin, sehingga p(X|B) ≈ 1, dan di mana pemerhatian X tidak memberi keterangan memihak kepada A tetapi memberi keterangan memihak kepada B. Untuk pemerhatian X untuk mengesahkan A dengan pasti, kita akan mempunyai untuk tidak mengetahui bahawa p(X|A) ≈ 1 dan bahawa p(X|~A) ≈ 0, yang tidak dapat kita ketahui kerana kita tidak boleh mempertimbangkan semua penjelasan alternatif yang mungkin. Sebagai contoh, apabila teori relativiti am Einstein mengatasi teori graviti Newton yang disokong dengan baik, ia menjadikan semua ramalan teori Newton sebagai kes khas ramalan Einstein.

Dengan cara yang sama, dakwaan Popper bahawa idea mesti boleh dipalsukan boleh ditafsirkan sebagai manifestasi peraturan pemuliharaan kebarangkalian Bayesian; jika keputusan X adalah bukti positif untuk teori, maka keputusan ~X mesti menyangkal teori itu sedikit sebanyak. Jika anda cuba mentafsir kedua-dua X dan ~X sebagai "mengesahkan" teori tersebut, peraturan Bayesian mengatakan ia adalah mustahil! Untuk meningkatkan kebarangkalian sesuatu teori, anda mesti tertakluk kepada ujian yang berpotensi mengurangkan kemungkinannya; Ini bukan sahaja peraturan untuk mengenal pasti penipu dalam sains, tetapi akibat daripada teorem kebarangkalian Bayesian. Sebaliknya, idea Popper bahawa hanya pemalsuan diperlukan dan tiada pengesahan diperlukan adalah tidak betul. Teorem Bayes menunjukkan bahawa pemalsuan adalah bukti yang sangat kuat berbanding dengan pengesahan, tetapi pemalsuan masih bersifat probabilistik; ia tidak dikawal oleh peraturan asas yang berbeza dan tidak berbeza dengan cara ini daripada pengesahan, seperti yang didakwa Popper.

Oleh itu, kami mendapati bahawa banyak fenomena dalam sains kognitif, ditambah dengan kaedah statistik yang digunakan oleh saintis, ditambah dengan kaedah saintifik itu sendiri, adalah semua kes khas teorem Bayes. Ini adalah revolusi Bayesian.

Selamat datang ke Konspirasi Bayesian!

Sastera tentang kebarangkalian Bayesian

2. Banyak aplikasi Bayes yang berbeza diterangkan oleh pemenang Nobel dalam bidang ekonomi Kahneman (dan rakan-rakannya) dalam sebuah buku yang menarik. Dalam ringkasan ringkas saya tentang buku yang sangat besar ini sahaja, saya mengira 27 sebutan nama seorang menteri Presbyterian. Formula minimum. (.. Saya sangat menyukainya. Benar, ia agak rumit, terdapat banyak matematik (dan di manakah kita tanpanya), tetapi bab individu (contohnya, Bab 4. Maklumat) jelas mengenai topik. Saya mengesyorkannya kepada semua orang Walaupun matematik sukar untuk anda, baca setiap baris lain, langkau matematik dan pancing untuk mendapatkan butiran yang berguna...

14. (tambahan bertarikh 15 Januari 2017), bab daripada buku oleh Tony Crilly. 50 idea yang perlu anda ketahui. Matematik.

Ahli fizik pemenang Hadiah Nobel Richard Feynman, bercakap tentang seorang ahli falsafah yang sangat mementingkan diri sendiri, pernah berkata: “Apa yang mengganggu saya bukanlah falsafah sebagai sains, tetapi keangkuhan yang dicipta di sekelilingnya. Kalaulah ahli falsafah boleh ketawa sendiri! Sekiranya mereka boleh berkata: "Saya katakan ia seperti ini, tetapi Von Leipzig fikir ia berbeza, dan dia juga tahu sesuatu mengenainya." Sekiranya mereka ingat untuk menjelaskan bahawa itu hanya milik mereka .

Matlamat kerja: membangunkan kemahiran dalam menyelesaikan masalah dalam teori kebarangkalian menggunakan formula kebarangkalian jumlah dan formula Bayes.

Jumlah Formula Kebarangkalian

Kebarangkalian kejadian A, yang boleh berlaku hanya jika salah satu peristiwa yang tidak serasi berlaku B x, B 2,..., B p, membentuk kumpulan lengkap adalah sama dengan hasil tambah kebarangkalian bagi setiap peristiwa ini dengan kebarangkalian bersyarat yang sepadan bagi peristiwa A:

Formula ini dipanggil jumlah formula kebarangkalian.

Kebarangkalian hipotesis. Formula Bayes

Biarkan acara itu A mungkin berlaku tertakluk kepada berlakunya salah satu peristiwa yang tidak serasi V b 2 ,..., V p, membentuk kumpulan yang lengkap. Oleh kerana tidak diketahui terlebih dahulu yang mana antara peristiwa ini akan berlaku, ia dipanggil hipotesis. Kebarangkalian kejadian kejadian A ditentukan oleh jumlah formula kebarangkalian:

Mari kita anggap bahawa ujian telah dijalankan, akibatnya satu peristiwa berlaku A. Ia adalah perlu untuk menentukan bagaimana perubahan (disebabkan oleh fakta bahawa peristiwa itu A telah pun tiba) kebarangkalian hipotesis. Kebarangkalian bersyarat hipotesis didapati menggunakan formula

Dalam formula ini, indeks / = 1.2

Formula ini dipanggil formula Bayes (dinamakan sempena ahli matematik Inggeris yang memperolehnya; diterbitkan pada 1764). Formula Bayes membolehkan kita menganggar semula kebarangkalian hipotesis selepas keputusan ujian yang menyebabkan peristiwa itu diketahui. A.

Tugasan 1. Kilang mengeluarkan jenis bahagian tertentu, setiap bahagian mempunyai kecacatan dengan kebarangkalian 0.05. Bahagian itu diperiksa oleh seorang pemeriksa; ia mengesan kecacatan dengan kebarangkalian 0.97, dan jika tiada kecacatan dikesan, ia meneruskan bahagian tersebut ke dalam produk siap. Di samping itu, pemeriksa mungkin tersilap menolak bahagian yang tidak mempunyai kecacatan; kebarangkalian ini ialah 0.01. Cari kebarangkalian bagi peristiwa berikut: A - bahagian akan ditolak; B - bahagian akan ditolak, tetapi tidak betul; C - bahagian akan disalurkan ke dalam produk siap dengan kecacatan.

Penyelesaian

Mari kita nyatakan hipotesis:

N= (bahagian standard akan dihantar untuk pemeriksaan);

N=(bahagian bukan standard akan dihantar untuk pemeriksaan).

Peristiwa A =(bahagian tersebut akan ditolak).

Daripada keadaan masalah kita dapati kebarangkalian

R N (A) = 0,01; Pfi(A) = 0,97.

Menggunakan jumlah formula kebarangkalian yang kita dapat

Kebarangkalian bahawa sesuatu bahagian akan ditolak secara salah ialah

Mari cari kebarangkalian bahawa bahagian akan dimasukkan ke dalam produk siap dengan kecacatan:

Jawapan:

Tugasan 2. Produk ini disemak kepiawaian oleh salah satu daripada tiga pakar komoditi. Kebarangkalian bahawa produk akan sampai ke pedagang pertama ialah 0.25, yang kedua - 0.26 dan yang ketiga - 0.49. Kebarangkalian bahawa produk akan diiktiraf sebagai standard oleh pedagang pertama ialah 0.95, dengan yang kedua - 0.98, dan oleh yang ketiga - 0.97. Cari kebarangkalian bahawa produk standard diperiksa oleh pemeriksa kedua.

Penyelesaian

Mari kita nyatakan peristiwa:

L. =(produk akan pergi ke merchandiser ke/untuk pemeriksaan); / = 1, 2, 3;

B =(produk akan dianggap standard).

Mengikut keadaan masalah, kebarangkalian diketahui:

Kebarangkalian bersyarat juga diketahui

Menggunakan formula Bayes, kami mendapati kebarangkalian bahawa produk standard diperiksa oleh pemeriksa kedua:

Jawapan:“0.263.

Tugasan 3. Dua mesin menghasilkan bahagian yang pergi ke penghantar biasa. Kebarangkalian menerima bahagian bukan standard pada mesin pertama ialah 0.06, dan pada yang kedua - 0.09. Produktiviti mesin kedua adalah dua kali ganda daripada mesin pertama. Bahagian bukan standard telah diambil dari barisan pemasangan. Cari kebarangkalian bahawa bahagian ini dihasilkan oleh mesin kedua.

Penyelesaian

Mari kita nyatakan peristiwa:

A. =(sebahagian yang diambil dari penghantar telah dihasilkan oleh mesin /th); / = 1.2;

DALAM= (bahagian yang diambil akan menjadi tidak standard).

Kebarangkalian bersyarat juga diketahui

Menggunakan jumlah formula kebarangkalian yang kita dapati

Menggunakan formula Bayes, kita dapati kebarangkalian bahawa bahagian bukan standard yang dipilih telah dihasilkan oleh mesin kedua:

Jawapan: 0,75.

Tugasan 4. Kami sedang menguji peranti yang terdiri daripada dua unit, kebolehpercayaan yang masing-masing adalah 0.8 dan 0.9. Nod gagal secara berasingan antara satu sama lain. Peranti gagal. Dengan mengambil kira perkara ini, cari kebarangkalian hipotesis:

  • a) hanya nod pertama yang rosak;
  • b) hanya nod kedua yang rosak;
  • c) kedua-dua nod rosak.

Penyelesaian

Mari kita nyatakan peristiwa:

D = (nod ke-7 tidak akan gagal); i = 1,2;

D - peristiwa bertentangan yang sepadan;

A= (semasa ujian akan berlaku kegagalan peranti).

Daripada keadaan masalah yang kita perolehi: P(D) = 0.8; R(L 2) = 0,9.

Dengan sifat kebarangkalian kejadian berlawanan

Peristiwa A sama dengan jumlah produk peristiwa bebas

Menggunakan teorem untuk menambah kebarangkalian peristiwa tidak serasi dan teorem untuk mendarab kebarangkalian peristiwa bebas, kita memperoleh

Sekarang kita dapati kebarangkalian hipotesis:

Jawapan:

Tugasan 5. Di kilang, bolt dihasilkan pada tiga mesin, yang masing-masing menghasilkan 25%, 30% dan 45% daripada jumlah bolt. Dalam produk alat mesin, kecacatan adalah 4%, 3% dan 2%, masing-masing. Apakah kebarangkalian bahawa bolt yang diambil secara rawak daripada produk yang masuk akan rosak?

Penyelesaian

Mari kita nyatakan peristiwa:

4 = (bolt yang diambil secara rawak dibuat pada mesin ke-i); i = 1, 2, 3;

DALAM= (bolt yang diambil secara rawak akan rosak).

Daripada keadaan masalah, menggunakan formula kebarangkalian klasik, kita dapati kebarangkalian hipotesis:

Juga, dengan menggunakan formula kebarangkalian klasik, kita dapati kebarangkalian bersyarat:

Menggunakan jumlah formula kebarangkalian yang kita dapati

Jawapan: 0,028.

Tugasan 6. Litar elektronik milik salah satu daripada tiga pihak dengan kebarangkalian 0.25; 0.5 dan 0.25. Kebarangkalian bahawa litar akan beroperasi melebihi hayat perkhidmatan waranti bagi setiap kelompok ialah 0.1; 0.2 dan 0.4. Cari kebarangkalian bahawa litar yang dipilih secara rawak akan beroperasi melebihi tempoh jaminannya.

Penyelesaian

Mari kita nyatakan peristiwa:

4 = (litar yang diambil secara rawak daripada kumpulan ke-1); i = 1, 2, 3;

DALAM= (litar yang dipilih secara rawak akan berfungsi melebihi tempoh jaminan).

Mengikut keadaan masalah, kebarangkalian hipotesis diketahui:

Kebarangkalian bersyarat juga diketahui:

Menggunakan jumlah formula kebarangkalian yang kita dapati

Jawapan: 0,225.

Tugasan 7. Peranti mengandungi dua blok, kebolehgunaan setiap satunya diperlukan untuk pengendalian peranti. Kebarangkalian operasi tanpa kegagalan untuk blok ini ialah 0.99 dan 0.97, masing-masing. Peranti telah gagal. Tentukan kebarangkalian bahawa kedua-dua unit gagal.

Penyelesaian

Mari kita nyatakan peristiwa:

D = (blok ke-z akan gagal); i = 1,2;

A= (peranti akan gagal).

Daripada keadaan masalah, mengikut sifat kebarangkalian kejadian bertentangan, kita memperoleh: DD) = 1-0.99 = 0.01; DD) = 1-0.97 = 0.03.

Peristiwa A berlaku hanya apabila sekurang-kurangnya satu daripada peristiwa D atau A 2. Oleh itu peristiwa ini adalah sama dengan jumlah peristiwa A= D + A 2 .

Dengan teorem penambahan kebarangkalian kejadian bersama yang kita perolehi

Menggunakan formula Bayes, kita dapati kebarangkalian bahawa peranti itu gagal disebabkan oleh kegagalan kedua-dua unit.

Jawapan:

Masalah untuk diselesaikan secara bebas Tugasan 1. Di gudang studio televisyen terdapat 70% tiub gambar yang dihasilkan oleh loji No. 1; selebihnya tiub gambar telah dikilangkan oleh loji No. 2. Kebarangkalian bahawa tiub gambar tidak akan gagal semasa hayat perkhidmatan waranti ialah 0.8 untuk tiub gambar kilang No. 1 dan 0.7 untuk tiub gambar kilang No. 2. tiub gambar terselamat daripada hayat perkhidmatan waranti. Cari kebarangkalian bahawa ia dihasilkan oleh loji No. 2.

Tugasan 2. Bahagian diterima untuk pemasangan daripada tiga mesin. Adalah diketahui bahawa mesin pertama memberikan 0.3% kecacatan, ke-2 - 0.2%, ke-3 - 0.4%. Cari kebarangkalian menerima bahagian yang rosak untuk pemasangan jika 1000 bahagian diterima daripada mesin pertama, 2000 daripada mesin ke-2, 2500 daripada mesin ke-3.

Tugasan 3. Dua mesin menghasilkan bahagian yang sama. Kebarangkalian bahawa bahagian yang dihasilkan pada mesin pertama adalah standard ialah 0.8, dan pada yang kedua - 0.9. Produktiviti mesin kedua adalah tiga kali lebih besar daripada produktiviti mesin pertama. Cari kebarangkalian bahawa bahagian yang diambil secara rawak daripada penghantar yang menerima bahagian daripada kedua-dua mesin adalah piawai.

Tugasan 4. Ketua syarikat memutuskan untuk menggunakan perkhidmatan dua daripada tiga syarikat pengangkutan. Kebarangkalian penghantaran kargo yang tidak tepat pada masanya untuk firma pertama, kedua dan ketiga adalah sama dengan 0.05, masing-masing; 0.1 dan 0.07. Setelah membandingkan data ini dengan data mengenai keselamatan pengangkutan kargo, pengurus membuat kesimpulan bahawa pilihannya adalah setara dan memutuskan untuk membuatnya melalui undian. Cari kebarangkalian bahawa kargo yang dihantar akan dihantar tepat pada masanya.

Tugasan 5. Peranti mengandungi dua blok, kebolehgunaan setiap satunya diperlukan untuk pengendalian peranti. Kebarangkalian operasi tanpa kegagalan untuk blok ini ialah 0.99 dan 0.97, masing-masing. Peranti telah gagal. Tentukan kebarangkalian bahawa unit kedua gagal.

Tugasan 6. Kedai pemasangan menerima alat ganti daripada tiga mesin. Mesin pertama memberikan 3% daripada kecacatan, yang kedua - 1% dan yang ketiga - 2%. Tentukan kebarangkalian bahagian yang tidak rosak memasuki pemasangan jika 500, 200, 300 bahagian diterima daripada setiap mesin, masing-masing.

Tugasan 7. Gudang menerima produk daripada tiga syarikat. Selain itu, pengeluaran syarikat pertama ialah 20%, yang kedua - 46% dan yang ketiga - 34%. Ia juga diketahui bahawa peratusan purata produk bukan standard untuk syarikat pertama ialah 5%, untuk kedua - 2% dan untuk ketiga - 1%. Cari kebarangkalian bahawa produk yang dipilih secara rawak dihasilkan oleh syarikat kedua jika ia ternyata standard.

Tugasan 8. Kecacatan pada produk kilang kerana kecacatan A ialah 5%, dan antara yang ditolak berdasarkan A produk rosak dalam 10% kes R. Dan dalam produk yang bebas daripada kecacatan A, kecacatan R berlaku dalam 1% kes. Cari kebarangkalian menghadapi kecacatan R dalam semua produk.

Tugasan 9. Syarikat itu mempunyai 10 kereta baharu dan 5 kereta lama yang sebelum ini sedang dalam pembaikan. Kebarangkalian operasi yang betul untuk kereta baru ialah 0.94, untuk yang lama - 0.91. Cari kebarangkalian bahawa kereta yang dipilih secara rawak akan berfungsi dengan baik.

Masalah 10. Dua penderia menghantar isyarat ke saluran komunikasi biasa, dengan yang pertama menghantar dua kali lebih banyak isyarat daripada yang kedua. Kebarangkalian menerima isyarat yang herot dari sensor pertama ialah 0.01, dari yang kedua - 0.03. Apakah kebarangkalian menerima isyarat herot dalam saluran komunikasi biasa?

Masalah 11. Terdapat lima kelompok produk: tiga kelompok 8 keping, di mana 6 adalah standard dan 2 tidak standard, dan dua kelompok 10 keping, yang mana 7 adalah standard dan 3 tidak standard. Salah satu kumpulan dipilih secara rawak, dan sebahagian diambil daripada kumpulan ini. Tentukan kebarangkalian bahagian yang diambil adalah piawai.

Masalah 12. Pemasang menerima secara purata 50% bahagian daripada loji pertama, 30% daripada loji kedua, dan 20% daripada loji ketiga. Kebarangkalian bahawa sebahagian daripada tumbuhan pertama mempunyai kualiti yang sangat baik ialah 0.7; untuk bahagian dari kilang kedua dan ketiga, masing-masing 0.8 dan 0.9. Bahagian yang diambil secara rawak ternyata mempunyai kualiti yang sangat baik. Cari kebarangkalian bahawa bahagian itu dihasilkan oleh tumbuhan pertama.

Masalah 13. Pemeriksaan kastam kenderaan dijalankan oleh dua orang pemeriksa. Secara purata, daripada 100 kereta, 45 melalui pemeriksa pertama. Kebarangkalian kereta yang mematuhi peraturan kastam tidak akan ditahan semasa pemeriksaan ialah 0.95 untuk pemeriksa pertama dan 0.85 untuk pemeriksa kedua. Cari kebarangkalian bahawa kereta yang mematuhi peraturan kastam tidak akan ditahan.

Masalah 14. Bahagian yang diperlukan untuk memasang peranti datang daripada dua mesin yang prestasinya sama. Kira kebarangkalian menerima bahagian standard untuk pemasangan jika salah satu mesin memberikan purata 3% pelanggaran standard, dan yang kedua - 2%.

Masalah 15. Jurulatih angkat berat mengira bahawa untuk menerima mata pasukan dalam kategori berat tertentu, seorang atlet mesti menolak barbel seberat 200 kg. Ivanov, Petrov dan Sidorov bersaing untuk mendapatkan tempat dalam pasukan. Semasa latihan, Ivanov cuba mengangkat berat sedemikian dalam 7 kes, dan mengangkatnya dalam 3 daripadanya. Petrov mendapat 6 daripada 13 kes, dan Sidorov mempunyai peluang 35% untuk berjaya mengendalikan barbell. Jurulatih secara rawak memilih seorang atlet untuk pasukan itu.

  • a) Cari kebarangkalian bahawa atlet yang dipilih akan membawa mata pemarkahan kepada pasukan.
  • b) Pasukan tidak menerima sebarang mata pemarkahan. Cari kebarangkalian yang dilakukan oleh Sidorov.

Masalah 16. Terdapat 12 bola merah dan 6 bola biru di dalam kotak putih. Dalam hitam terdapat 15 bola merah dan 10 bola biru. Melempar dadu. Jika bilangan mata ialah gandaan 3, maka sebiji bola diambil secara rawak dari kotak putih. Jika sebarang bilangan mata lain digolek, bola diambil secara rawak dari kotak hitam. Apakah kebarangkalian bola merah muncul?

Masalah 17. Dua kotak mengandungi tiub radio. Kotak pertama mengandungi 12 lampu, 1 daripadanya bukan standard; dalam kedua terdapat 10 lampu, di mana 1 daripadanya tidak standard. Sebuah lampu diambil secara rawak dari kotak pertama dan diletakkan di kotak kedua. Cari kebarangkalian bahawa lampu yang diambil secara rawak dari kotak kedua adalah bukan piawai.

Masalah 18. Sebiji bola putih dijatuhkan ke dalam bekas yang mengandungi dua biji bola, selepas itu satu bola diambil secara rawak. Cari kebarangkalian bahawa bola yang diekstrak akan berwarna putih jika semua andaian yang mungkin tentang komposisi awal bola (berdasarkan warna) adalah sama mungkin.

Masalah 19. Satu bahagian standard dibuang ke dalam kotak yang mengandungi 3 bahagian yang sama, dan kemudian satu bahagian dikeluarkan secara rawak. Cari kebarangkalian bahawa bahagian piawai dikeluarkan jika semua tekaan yang mungkin tentang bilangan bahagian piawai yang asalnya di dalam kotak adalah sama berkemungkinan.

Masalah 20. Untuk meningkatkan kualiti komunikasi radio, dua penerima radio digunakan. Kebarangkalian setiap penerima menerima isyarat ialah 0.8, dan peristiwa ini (penerimaan isyarat oleh penerima) adalah bebas. Tentukan kebarangkalian penerimaan isyarat jika kebarangkalian operasi tanpa kegagalan semasa sesi komunikasi radio untuk setiap penerima ialah 0.9.

Apabila memperoleh jumlah formula kebarangkalian, diandaikan bahawa peristiwa itu A, kebarangkalian yang perlu ditentukan, boleh berlaku kepada salah satu peristiwa N 1 , N 2 , ... , N n, membentuk kumpulan lengkap acara tidak serasi berpasangan. Lebih-lebih lagi, kebarangkalian kejadian ini (hipotesis) diketahui lebih awal. Mari kita anggap bahawa satu eksperimen telah dijalankan, akibatnya peristiwa itu A ia telah tiba. Maklumat tambahan ini membolehkan kami menilai semula kebarangkalian hipotesis. N i, setelah dikira P(H i /A).

atau, menggunakan jumlah formula kebarangkalian, kita dapat

Formula ini dipanggil formula Bayes atau teorem hipotesis. Formula Bayes membolehkan anda "menyemak" kebarangkalian hipotesis selepas keputusan eksperimen yang menyebabkan peristiwa itu diketahui A.

Kebarangkalian Р(Н i)− ini adalah kebarangkalian a priori bagi hipotesis (ia dikira sebelum eksperimen). Kebarangkalian P(H i /A)− ini adalah kebarangkalian posterior hipotesis (ia dikira selepas eksperimen). Formula Bayes membolehkan anda mengira kebarangkalian posterior daripada kebarangkalian terdahulunya dan daripada kebarangkalian bersyarat sesuatu peristiwa A.

Contoh. Adalah diketahui bahawa 5% daripada semua lelaki dan 0.25% daripada semua wanita adalah buta warna. Seseorang yang dipilih secara rawak berdasarkan nombor kad perubatan mereka mengalami rabun warna. Apakah kebarangkalian bahawa ia adalah seorang lelaki?

Penyelesaian. Peristiwa A– seseorang mengalami buta warna. Ruang acara asas untuk eksperimen - seseorang dipilih mengikut nombor kad perubatan - Ω = ( N 1 , N 2 ) terdiri daripada 2 acara:

N 1 - seorang lelaki dipilih,

N 2 − seorang wanita dipilih.

Peristiwa ini boleh dipilih sebagai hipotesis.

Mengikut keadaan masalah (pilihan rawak), kebarangkalian kejadian ini adalah sama dan sama P(N 1 ) = 0.5; P(N 2 ) = 0.5.

Dalam kes ini, kebarangkalian bersyarat bahawa seseorang mengalami buta warna adalah sama, masing-masing:

R(A/N 1 ) = 0.05 = 1/20; R(A/N 2 ) = 0.0025 = 1/400.

Memandangkan diketahui bahawa orang yang dipilih buta warna, iaitu peristiwa itu berlaku, kami menggunakan formula Bayes untuk menilai semula hipotesis pertama:

Contoh. Terdapat tiga kotak yang kelihatan sama. Kotak pertama mengandungi 20 bola putih, kotak kedua mengandungi 10 bola putih dan 10 bola hitam, dan kotak ketiga mengandungi 20 bola hitam. Sebiji bola putih diambil dari kotak yang dipilih secara rawak. Hitung kebarangkalian bahawa bola itu ditarik dari kotak pertama.

Penyelesaian. Mari kita nyatakan dengan A acara - rupa bola putih. Tiga andaian (hipotesis) boleh dibuat tentang pilihan kotak: N 1 ,N 2 , N 3 – pemilihan kotak pertama, kedua dan ketiga, masing-masing.

Oleh kerana pilihan mana-mana kotak adalah sama mungkin, kebarangkalian hipotesis adalah sama:

P(N 1 )=P(N 2 )=P(N 3 )= 1/3.

Mengikut masalah, kebarangkalian untuk menarik bola putih dari kotak pertama ialah

Kebarangkalian menarik bola putih dari kotak kedua



Kebarangkalian menarik bola putih dari kotak ketiga

Kami mencari kebarangkalian yang diingini menggunakan formula Bayes:

Pengulangan ujian. Formula Bernoulli.

N percubaan dijalankan, dalam setiap kejadian A mungkin berlaku atau tidak, dan kebarangkalian kejadian A dalam setiap percubaan individu adalah malar, i.e. tidak berubah dari pengalaman ke pengalaman. Kita sudah tahu bagaimana untuk mencari kebarangkalian peristiwa A dalam satu eksperimen.

Kepentingan tertentu ialah kebarangkalian berlakunya bilangan kali tertentu (m kali) peristiwa A dalam n eksperimen. Masalah sedemikian boleh diselesaikan dengan mudah jika ujian adalah bebas.

Def. Beberapa ujian dipanggil bebas berkenaan dengan peristiwa A , jika kebarangkalian kejadian A dalam setiap satu daripadanya tidak bergantung kepada hasil eksperimen lain.

Kebarangkalian P n (m) kejadian A tepat m kali (bukan kejadian n-m kali, peristiwa ) dalam n percubaan ini. Peristiwa A muncul dalam urutan yang sangat berbeza m kali).

- Formula Bernoulli.

Formula berikut adalah jelas:

Р n (m kurang k kali dalam n percubaan.

P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - kebarangkalian berlakunya peristiwa A lebih k kali dalam n percubaan.

Teori ringkas

Jika sesuatu peristiwa berlaku hanya di bawah keadaan berlakunya salah satu peristiwa membentuk kumpulan lengkap peristiwa tidak serasi, maka ia adalah sama dengan jumlah hasil darab kebarangkalian setiap peristiwa dengan dompet kebarangkalian bersyarat yang sepadan.

Dalam kes ini, peristiwa dipanggil hipotesis, dan kebarangkalian dipanggil priori. Formula ini dipanggil formula kebarangkalian jumlah.

Formula Bayes digunakan untuk menyelesaikan masalah praktikal apabila peristiwa yang muncul bersama-sama dengan mana-mana peristiwa yang membentuk kumpulan lengkap peristiwa telah berlaku dan adalah perlu untuk menjalankan anggaran semula kuantitatif kebarangkalian hipotesis. Kebarangkalian priori (sebelum eksperimen) diketahui. Ia diperlukan untuk mengira kebarangkalian posterior (selepas eksperimen), i.e. pada asasnya anda perlu mencari kebarangkalian bersyarat. Formula Bayes kelihatan seperti ini:

Halaman seterusnya membincangkan masalah pada .

Contoh penyelesaian masalah

Keadaan tugas 1

Di sebuah kilang, mesin 1, 2 dan 3 menghasilkan 20%, 35% dan 45% daripada semua bahagian, masing-masing. Dalam produk mereka, kecacatan adalah 6%, 4%, 2%, masing-masing. Apakah kebarangkalian bahawa produk yang dipilih secara rawak rosak? Apakah kebarangkalian ia dihasilkan: a) oleh mesin 1; b) mesin 2; c) mesin 3?

Penyelesaian masalah 1

Mari kita nyatakan dengan peristiwa bahawa produk standard ternyata rosak.

Peristiwa hanya boleh berlaku jika salah satu daripada tiga peristiwa berlaku:

Produk dihasilkan pada mesin 1;

Produk dihasilkan pada mesin 2;

Produk dihasilkan pada mesin 3;

Mari kita tuliskan kebarangkalian bersyarat:

Jumlah Formula Kebarangkalian

Jika sesuatu peristiwa boleh berlaku hanya jika salah satu peristiwa yang membentuk kumpulan lengkap peristiwa tidak serasi berlaku, maka kebarangkalian peristiwa itu dikira dengan formula

Menggunakan jumlah formula kebarangkalian, kita mencari kebarangkalian sesuatu peristiwa:

Formula Bayes

Formula Bayes membolehkan anda "mengatur semula sebab dan akibat": memandangkan fakta yang diketahui tentang sesuatu peristiwa, hitung kebarangkalian ia disebabkan oleh sebab tertentu.

Kebarangkalian produk yang rosak dibuat pada mesin 1:

Kebarangkalian bahawa produk yang rosak telah dibuat pada mesin 2:

Kebarangkalian bahawa produk yang rosak telah dibuat pada mesin 3:

Keadaan masalah 2

Kumpulan ini terdiri daripada 1 pelajar cemerlang, 5 pelajar berprestasi baik dan 14 pelajar berprestasi sederhana. Seorang pelajar cemerlang menjawab 5 dan 4 dengan kebarangkalian yang sama, seorang pelajar yang cemerlang menjawab 5, 4, dan 3 dengan kebarangkalian yang sama, dan seorang pelajar yang sederhana menjawab 4, 3 dan 2 dengan kebarangkalian yang sama. Seorang pelajar yang dipilih secara rawak menjawab 4. Apakah kebarangkalian seorang pelajar berprestasi sederhana dipanggil?

Penyelesaian masalah 2

Hipotesis dan kebarangkalian bersyarat

Hipotesis berikut adalah mungkin:

Pelajar cemerlang itu menjawab;

Lelaki baik itu menjawab;

- jawab pelajar yang sederhana;

Biarkan acara -pelajar mendapat 4.

Kebarangkalian bersyarat:

Jawapan:

Purata kos menyelesaikan ujian ialah 700 - 1200 rubel (tetapi tidak kurang daripada 300 rubel untuk keseluruhan pesanan). Harga sangat dipengaruhi oleh mendesak keputusan (dari sehari hingga beberapa jam). Kos bantuan dalam talian untuk peperiksaan/ujian adalah daripada 1000 rubel. untuk menyelesaikan tiket.

Anda boleh meninggalkan permintaan terus dalam sembang, setelah menghantar syarat tugasan sebelum ini dan memaklumkan anda tentang tarikh akhir untuk penyelesaian yang anda perlukan. Masa tindak balas adalah beberapa minit.

Teorem Bayes diterangkan secara terperinci dalam artikel berasingan. Ia adalah karya yang menarik, tetapi panjangnya 15,000 patah perkataan. Terjemahan artikel yang sama dari Kalid Azad menerangkan secara ringkas intipati teorem itu.

  • Hasil penyelidikan dan ujian bukanlah peristiwa. Terdapat kaedah untuk mendiagnosis kanser, dan terdapat peristiwa itu sendiri - kehadiran penyakit itu. Algoritma menyemak sama ada mesej mengandungi spam, tetapi peristiwa (spam sebenarnya tiba dalam mel) mesti dipertimbangkan secara berasingan daripada hasil kerjanya.
  • Terdapat ralat dalam keputusan ujian. Selalunya kaedah penyelidikan kami mendedahkan apa yang tidak ada (positif palsu) dan tidak mengenal pasti apa yang (negatif palsu).
  • Dengan bantuan ujian, kami memperoleh kebarangkalian hasil tertentu. Terlalu kerap kita melihat keputusan ujian sendiri dan tidak menganggap ralat kaedah.
  • Keputusan positif palsu memesongkan gambar. Katakan anda cuba mengenal pasti beberapa fenomena yang sangat jarang berlaku (1 kes dalam 1,000,000). Walaupun kaedah anda tepat, kemungkinan besar keputusan positif anda sebenarnya adalah positif palsu.
  • Ia lebih mudah untuk bekerja dengan nombor semula jadi. Lebih baik katakan: 100 daripada 10,000, bukan 1%. Dengan pendekatan ini akan terdapat lebih sedikit ralat, terutamanya apabila mendarab. Katakan kita perlu terus bekerja dengan 1% ini. Penaakulan dalam peratusan adalah kekok: "dalam 80% kes daripada 1% terdapat hasil yang positif." Maklumat ini lebih mudah untuk dilihat seperti berikut: "dalam 80 kes daripada 100, hasil positif diperhatikan."
  • Malah dalam sains, apa-apa fakta hanyalah hasil daripada menggunakan kaedah. Dari sudut falsafah, eksperimen saintifik hanyalah ujian dengan kemungkinan kesilapan. Terdapat kaedah yang mendedahkan bahan kimia atau beberapa fenomena, dan terdapat peristiwa itu sendiri - kehadiran fenomena ini. Kaedah ujian kami mungkin menghasilkan keputusan palsu, dan semua peralatan mempunyai ralat yang wujud.
Teorem Bayes menukar keputusan ujian kepada kebarangkalian kejadian.
  • Jika kita mengetahui kebarangkalian sesuatu peristiwa dan kebarangkalian positif palsu dan negatif palsu, kita boleh membetulkan ralat pengukuran.
  • Teorem mengaitkan kebarangkalian sesuatu peristiwa dengan kebarangkalian hasil tertentu. Kita boleh mengaitkan Pr(A|X): kebarangkalian peristiwa A, diberi hasil X, dan Pr(X|A): kebarangkalian hasil X, diberi peristiwa A.

Jom fahami kaedahnya

Artikel yang dipautkan pada permulaan esei ini mengkaji kaedah diagnostik (mammogram) yang mengesan kanser payudara. Mari pertimbangkan kaedah ini secara terperinci.
  • 1% daripada semua wanita mendapat kanser payudara (dan, oleh itu, 99% tidak mendapatnya)
  • 80% mamogram mengesan penyakit apabila ia benar-benar wujud (dan, dengan itu, 20% tidak mengesannya)
  • 9.6% ujian mengesan kanser apabila tiada (dan, oleh itu, 90.4% mengesan keputusan negatif dengan betul)
Sekarang mari kita buat jadual seperti ini:

Bagaimana untuk bekerja dengan data ini?
  • 1% wanita mendapat kanser payudara
  • jika pesakit disahkan menghidap penyakit, lihat lajur pertama: terdapat 80% kemungkinan kaedah tersebut memberikan hasil yang betul, dan 20% kemungkinan keputusan ujian tidak betul (negatif palsu)
  • jika penyakit pesakit belum dikenal pasti, lihat lajur kedua. Dengan kebarangkalian 9.6% kita boleh mengatakan bahawa keputusan positif kajian adalah tidak betul, dan dengan kebarangkalian 90.4% kita boleh mengatakan bahawa pesakit benar-benar sihat.

Sejauh manakah ketepatan kaedah tersebut?

Sekarang mari kita lihat keputusan ujian positif. Apakah kebarangkalian bahawa orang itu benar-benar sakit: 80%, 90%, 1%?

Mari berfikir:

  • Ada hasil yang positif. Mari kita lihat semua hasil yang mungkin: hasilnya boleh sama ada positif benar atau positif palsu.
  • Kebarangkalian keputusan positif benar adalah sama dengan: kebarangkalian mendapat penyakit didarab dengan kebarangkalian bahawa ujian itu benar-benar mengesan penyakit itu. 1% * 80% = .008
  • Kebarangkalian keputusan positif palsu adalah sama dengan: kebarangkalian bahawa tiada penyakit didarab dengan kebarangkalian kaedah mengesan penyakit itu secara tidak betul. 99% * 9.6% = .09504
Sekarang jadual kelihatan seperti ini:

Apakah kebarangkalian seseorang itu benar-benar sakit jika mamogram positif diperolehi? Kebarangkalian sesuatu peristiwa ialah nisbah bilangan hasil yang mungkin bagi peristiwa itu kepada jumlah bilangan semua hasil yang mungkin.

Kebarangkalian kejadian = hasil peristiwa / semua kemungkinan hasil

Kebarangkalian keputusan positif benar ialah .008. Kebarangkalian keputusan positif ialah kebarangkalian hasil positif benar + kebarangkalian positif palsu.

(.008 + 0.09504 = .10304)

Jadi, kebarangkalian penyakit dengan keputusan ujian positif dikira seperti berikut: .008/.10304 = 0.0776. Nilai ini adalah kira-kira 7.8%.

Iaitu, keputusan mamogram positif hanya bermakna kebarangkalian untuk menghidap penyakit itu ialah 7.8%, dan bukan 80% (nilai terakhir hanya anggaran ketepatan kaedah). Keputusan ini kelihatan tidak dapat difahami dan pelik pada mulanya, tetapi anda perlu mengambil kira: kaedah ini memberikan hasil positif palsu dalam 9.6% kes (yang agak banyak), jadi akan terdapat banyak hasil positif palsu dalam sampel. Untuk penyakit yang jarang berlaku, kebanyakan keputusan positif akan menjadi positif palsu.

Mari kita lihat jadual dan cuba memahami secara intuitif maksud teorem. Jika kita mempunyai 100 orang, hanya seorang daripada mereka yang mempunyai penyakit (1%). Bagi orang ini, terdapat kemungkinan 80% bahawa kaedah itu akan memberikan hasil yang positif. Daripada 99% selebihnya, 10% akan mendapat keputusan positif, yang memberikan kita, secara kasarnya, 10 positif palsu daripada 100. Jika kita mempertimbangkan semua keputusan positif, maka hanya 1 dalam 11 akan benar. Oleh itu, jika keputusan positif diperolehi, kebarangkalian penyakit ialah 1/11.

Di atas kami mengira bahawa kebarangkalian ini ialah 7.8%, i.e. nombor itu sebenarnya lebih hampir kepada 1/13, tetapi di sini dengan beberapa alasan mudah kami dapat mencari anggaran kasar tanpa kalkulator.

Teorem Bayes

Sekarang mari kita huraikan aliran pemikiran kita menggunakan formula yang dipanggil teorem Bayes. Teorem ini membolehkan anda membetulkan hasil kajian mengikut herotan yang diperkenalkan oleh keputusan positif palsu:
  • Pr(A|X) = kebarangkalian penyakit (A) diberi keputusan positif (X). Inilah yang kita ingin tahu: apakah kebarangkalian sesuatu peristiwa jika hasilnya positif. Dalam contoh kami ialah 7.8%.
  • Pr(X|A) = kebarangkalian keputusan positif (X) dalam kes apabila pesakit benar-benar sakit (A). Dalam kes kami, ini ialah nilai positif sebenar - 80%
  • Pr(A) = kebarangkalian mendapat sakit (1%)
  • Pr(bukan A) = kebarangkalian untuk tidak jatuh sakit (99%)
  • Pr(X|bukan A) = kebarangkalian hasil positif kajian jika tiada penyakit. Ini ialah kadar positif palsu - 9.6%.
Kita boleh membuat kesimpulan: untuk mendapatkan kebarangkalian sesuatu peristiwa, anda perlu membahagikan kebarangkalian hasil positif sebenar dengan kebarangkalian semua hasil positif. Sekarang kita boleh memudahkan persamaan:
Pr(X) ialah pemalar penormalan. Ia memberi manfaat kepada kami dengan baik: tanpanya, hasil ujian yang positif akan memberi kami peluang 80% untuk peristiwa itu berlaku.
Pr(X) ialah kebarangkalian sebarang keputusan positif, sama ada keputusan positif benar dalam kajian pesakit (1%) atau keputusan positif palsu dalam kajian orang sihat (99%).

Dalam contoh kami, Pr(X) ialah nombor yang agak besar kerana kebarangkalian positif palsu adalah tinggi.

Pr(X) menghasilkan hasil sebanyak 7.8%, yang pada pandangan pertama kelihatan berlawanan dengan intuitif.

Maksud teorem

Kami sedang menjalankan ujian untuk mengetahui keadaan sebenar. Jika ujian kita sempurna dan tepat, maka kebarangkalian ujian dan kebarangkalian kejadian akan bertepatan. Semua keputusan positif akan menjadi benar-benar positif, dan semua keputusan negatif akan menjadi negatif. Tetapi kita hidup di dunia nyata. Dan dalam dunia kita, ujian memberikan keputusan yang salah. Teorem Bayes mengambil kira keputusan berat sebelah, membetulkan ralat, membina semula populasi, dan mencari kebarangkalian positif benar.

Penapis spam

Teorem Bayes berjaya digunakan dalam penapis spam.

Kami ada:

  • peristiwa A - spam dalam surat
  • keputusan ujian - kandungan perkataan tertentu dalam surat:

Penapis mengambil kira keputusan ujian (kandungan perkataan tertentu dalam surat) dan meramalkan sama ada surat itu mengandungi spam. Semua orang memahami bahawa, sebagai contoh, perkataan "Viagra" lebih kerap ditemui dalam spam daripada dalam surat biasa.

Penapis spam berasaskan senarai hitam mempunyai kelemahan - ia sering menghasilkan hasil positif palsu.

Penapis spam Teorem Bayes menggunakan pendekatan yang seimbang dan bijak: ia berfungsi dengan kebarangkalian. Apabila kami menganalisis perkataan dalam e-mel, kami boleh mengira kemungkinan bahawa e-mel itu adalah spam dan bukannya membuat keputusan ya/tidak. Jika kebarangkalian surat mengandungi spam ialah 99%, maka surat itu benar-benar berlaku.

Dari masa ke masa, penapis dilatih pada sampel yang semakin besar dan mengemas kini kebarangkalian. Oleh itu, penapis lanjutan, dibuat berdasarkan teorem Bayes, menyemak banyak perkataan berturut-turut dan menggunakannya sebagai data.

Sumber tambahan:

Tag: Tambah tag