Оцінка максимальної правдоподібності геометричного розподілу. Методи отримання оцінок

Метод максимальної правдоподібності.

Цей метод полягає в тому, що в якості точкової оцінки параметра приймається значення параметра , при якому функція правдоподібності досягає свого максимуму.

Для випадкового напрацювання вщент із щільністю ймовірності f(t, ) функція правдоподібності визначається формулою 12.11: , тобто. являє собою спільну щільність ймовірності незалежних вимірів випадкової величини з щільністю ймовірності f(t, ).

Якщо випадкова величина дискретна і набуває значення Z 1 ,Z 2…, відповідно до ймовірностей P 1 (α),P 2 (α)…, , то функція правдоподібності береться в іншому вигляді, а саме: , Де індекси у ймовірностей показують, що спостерігалися значення .

Оцінки максимальної правдоподібності параметра визначаються з рівняння правдоподібності (12.12).

Значення методу максимальної правдоподібності з'ясовується двома припущеннями:

Якщо для параметра існує ефективна оцінка, то рівняння правдоподібності (12.12) має єдине рішення.

За деяких загальних умов аналітичного характеру, накладених на функції f(t, )Рішення рівняння правдоподібності сходиться при істинному значенні параметра.

Розглянемо приклад використання методу максимальної правдоподібності параметрів нормального розподілу.

Приклад:

Маємо: , , t i (i=1..N)вибірка із сукупності із щільністю розподілу.

Потрібно знайти оцінку максимальної подоби.

Функція правдоподібності: ;

.

Рівняння правдоподібності: ;

;

Вирішення цих рівнянь має вигляд: - Статистичне середнє; - Статистична дисперсія. Оцінка є зміщеною. Не зміщеною оцінкою буде оцінка: .

Основним недоліком методу максимальної правдоподібності є обчислювальні труднощі, що виникають при вирішенні рівнянь правдоподібності, які, як правило, трансцендентні.

Спосіб моментів.

Цей метод запропонований К.Пірсоном і є першим загальним методом точкової оцінки невідомих параметрів. Він досі широко використовується у практичній статистиці, оскільки нерідко призводить до порівняно нескладної обчислювальної процедури. Ідея цього методу полягає в тому, що моменти розподілу, що залежать від невідомих параметрів, прирівнюються до емпіричних моментів. Взявши число моментів, що дорівнює кількості невідомих параметрів, і склавши відповідні рівняння, ми отримаємо необхідну кількість рівнянь. Найчастіше обчислюються перші два статистичні моменти: вибіркове середнє; та вибіркова дисперсія . Оцінки, отримані з допомогою методу моментів, є найкращими з погляду їх ефективності. Однак дуже часто вони використовуються як перші наближення.

Розглянемо приклад використання методу моментів.

Приклад: Розглянемо експонентний розподіл:

t>0; λ<0; t i (i=1..N) - Вибірка з сукупності з щільністю розподілу . Потрібно знайти оцінку параметра λ.

Складаємо рівняння: . Таким чином, інакше.

Метод квантилів.

Це такий самий емпіричний метод, як і метод моментів. Він у тому, що квантиль теоретичного розподілу прирівнюються до емпіричної квантили. Якщо оцінці підлягають кілька параметрів, відповідні рівності пишуться для кількох квантилей.

Розглянемо випадок, коли закон розподілу F(t,α,β)з двома невідомими параметрами α, β . Нехай функція F(t,α,β) має безперервно диференційовану щільність, що приймає позитивні значення для будь-яких можливих значень параметрів α, β. Якщо випробування проводити за планом , r>>1, то момент появи - го відмови можна як емпіричну квантиль рівня , i=1,2… , - Емпірична функція розподілу. Якби t lі t r – моменти появи l-го та r-го відмов відомі точно, значення параметрів α і β можна було б знайти з рівнянь

Відомий таксономіст Джо Фельзенштейн (Felsenstein, 1978) був першим, хто запропонував оцінювати філогенетичні теорії не на основі парсимо-

ні, а засобами математичної статистистики. В результаті було розроблено метод максимальної правдоподібності (maximum likelihood) .

Цей метод ґрунтується на попередніх знаннях про можливі шляхи еволюції, тобто вимагає створення моделі змін ознак перед проведенням аналізу. Саме для побудови цих моделей залучаються закони статистики.

Під правдоподібним розуміється можливість спостереження даних у разі прийняття певної моделі подій. Різні моделі можуть робити дані більш-менш ймовірними. Наприклад, якщо ви підкидаєте монету і отримуєте "орлів" тільки в одному випадку зі ста, тоді ви можете припустити, що ця монета бракована. У разі прийняття вами даної моделі правдоподібність отриманого результату буде досить високою. Якщо ж ви ґрунтуєтеся на моделі, згідно з якою монета є небракованою, то ви могли б очікувати побачити «орлів» у п'ятдесяти випадках, а не в одному. Отримати лише одного «орла» при ста підкиданні небракованої монети статистично малоймовірно. Іншими словами, правдоподібність отримання результату один «орел» на сто «решок» є в моделі небракованої монети дуже низьким.

Правдоподібність – це математична величина. Зазвичай воно обчислюється за такою формулою:

де Pr(D|H) – це можливість отримання даних D у разі прийняття гіпотези H . Вертикальна характеристика у формулі читається як «для цієї». Оскільки L часто виявляється невеликою величиною, зазвичай у дослідженнях використовується натуральний логарифм правдоподібності.

Дуже важливо розрізняти ймовірність отримання даних, що спостерігаються, і ймовірність того, що прийнята модель подій правильна. Правдоподібність даних нічого не говорить про можливість моделі самої по собі. Філософ-біолог Е. Собер використовував наступний приклад для того, щоб зробити ясним цю відмінність. Уявіть, що ви чуєте сильний гомін у кімнаті над вами. Ви могли б припустити, що це викликано грою гномів у боулінг на горищі. Для даної моделі ваше спостереження (сильний шум над вами) має високу правдоподібність (якби гноми справді грали в боулінг над вами, ви майже напевно почули б це). Однак, ймовірність того, що ваша гіпотеза є істинною, тобто, що саме гноми викликали цей шум, – щось зовсім інше. Майже, напевно, це були не гноми. Отже, у цьому випадку ваша гіпотеза забезпечує високу правдоподібність, але сама по собі дуже малоймовірна.

Використовуючи цю систему міркувань, метод максимальної правдоподібності дозволяє статистично оцінювати філогенетичні дерева, отримані засобами традиційної кладистики. По суті, цей метод укладається.

ється в пошуку кладограми, що забезпечує найбільш високу ймовірність наявного набору даних.

Розглянемо приклад, що ілюструє застосування методу максимальної правдоподібності. Припустимо, що у нас є чотири таксони, для яких встановлені послідовності нуклеотидів певного сайту ДНК (рис.16).

Якщо модель передбачає можливість реверсій, ми можемо вкоренити це дерево у будь-якому вузлі. Одне із можливих кореневих дерев зображено на рис. 17.2.

Ми не знаємо, які нуклеотиди були присутні в локусі у загальних предків таксонів 1-4 (ці предки відповідають на кладограмі вузлам X і Y). Для кожного з цих вузлів існує по чотири варіанти нуклеотидів, які могли знаходитися там у предкових форм, що в результаті дає 16 філогенетичних сценаріїв, що призводять до дерева 2. Один з таких сценаріїв зображений на рис. 17.3.

Імовірність цього сценарію може бути визначена за формулою:

де P A – ймовірність присутності нуклеотиду A у корені дерева, що дорівнює середній частоті нуклеотиду А (загалом = 0,25); P AG - ймовірність заміни А на G; P AC – ймовірність заміни А С; P AT - ймовірність заміни А на T; останні два множники – це ймовірність дозрівання нуклеотиду T у вузлах X та Y відповідно.

Ще один можливий сценарій, який дозволяє отримати ті самі дані, показаний на рис. 17.4. Оскільки існує 16 подібних сценаріїв, може бути визначена можливість кожного з них, а сума цих можливостей буде ймовірністю дерева, зображеного на рис. 17.2:

Де P tree 2 – це можливість спостереження даних у локусі, позначеному зірочкою, для дерева 2.

Імовірність спостереження всіх даних у всіх локусах даної послідовності є добутком ймовірностей для кожного локусу i від 1 до N:

Оскільки ці значення дуже малі, використовується й інший показник – натуральний логарифм правдоподібності lnL i для кожного локусу i. У цьому випадку логарифм правдоподібності дерева є сумою логарифмів правдоподібності для кожного локусу:

Значення lnL tree – це логарифм правдоподібності спостереження даних при виборі певної еволюційної моделі та дерева з характерною для нього

послідовністю розгалуження та довжиною гілок. Комп'ютерні програми, що застосовуються в методі максимальної правдоподібності (наприклад, вже згадуваний пакет PAUP), ведуть пошук дерева з максимальним показником lnL. Подвоєна різниця логарифмів правдоподібностей двох моделей 2Δ (де Δ = lnL tree A-lnL treeB) підпорядковується відомому статистичному розподілу х 2 . Завдяки цьому можна оцінити, чи справді одна модель достовірно краща, ніж інша. Це робить спосіб максимальної правдоподібності сильним засобом тестування гіпотез.

У разі чотирьох таксонів потрібно обчислення lnL для 15 дерев. При велику кількість таксонів оцінити всі дерева виявляється неможливим, тому для пошуку використовуються евристичні методи (див. вище).

У розглянутому прикладі ми використали значення ймовірностей заміни (субституції) нуклеотидів у процесі еволюції. Обчислення цих ймовірностей є самостійним статистичним завданням. Для того, щоб реконструювати еволюційне дерево, ми повинні зробити певні припущення щодо процесу субституції та висловити ці припущення у вигляді моделі.

У найпростішій моделі ймовірності заміни будь-якого нуклеотиду на будь-який інший нуклеотид визнаються рівними. Ця проста модель має лише один параметр – швидкість субституції та відома як однопараметрична модель Джукса - Кантора або JC (Jukes, Cantor, 1969). При використанні цієї моделі нам потрібно знати швидкість, з якою відбувається субституція нуклеотидів. Якщо ми знаємо, що в момент часу t= 0 в деякому сайті присутній нуклеотид G, то ми можемо обчислити ймовірність того, що в цьому сайті через деякий проміжок часу t нуклеотид G збережеться, і ймовірність того, що на цьому сайті відбудеться заміна на інший нуклеотид, наприклад A. Ці ймовірності позначаються як P(gg) та P(ga) відповідно. Якщо швидкість субституції дорівнює деякому значенню α в одиницю часу, тоді

Оскільки відповідно до однопараметричної моделі будь-які субституції рівноймовірні, більш загальне твердження буде виглядати наступним чином:

Розроблено і складніші еволюційні моделі. Емпіричні спостереження свідчать, що деякі субституції можуть відбуватися

частіше, ніж інші. Субституції, у яких один пурин заміщується іншим пурином, називаються транзиціями,а заміни пурину піримідином або піримідину пурином називаються трансверсії.Можна було б очікувати, що трансверсії відбуваються частіше, ніж транзиції, оскільки лише одна з трьох можливих субституцій для будь-якого нуклеотиду є транзицією. Проте зазвичай відбувається зворотне: транзиції, як правило, відбуваються частіше, ніж трансверсії. Це, зокрема, характерно для мітохондріальної ДНК.

Іншою причиною того, що деякі субституції нуклеотидів відбуваються частіше за інші, є нерівне співвідношення підстав. Наприклад, мітохондріальна ДНК комах більш багата на аденін і тимін у порівнянні з хребетними. Якщо деякі підстави більш поширені, очікується, що деякі субституції відбуваються частіше, ніж інші. Наприклад, якщо послідовність містить дуже небагато гуаніну, малоймовірно, що відбуватимуться субституції цього нуклеотиду.

Моделі відрізняються тим, що в одних певний параметр або параметри (наприклад, співвідношення основ, швидкості субституції) залишаються фіксованими та варіюють в інших. Існують десятки еволюційних моделей. Нижче ми наведемо найвідоміші з них.

Вже згадана Модель Джукса – Кантора (JC) характеризується тим, що частоти основ однакові: π A = π C = π G = π T , трансверсії та транзиції мають однакові швидкості α=β, і всі субституції однаково ймовірні.

Двопараметрична модель Кімури (K2P) передбачає рівні частоти основ π A = π C = π G = π T , а трансверсії та транзиції мають різні швидкості α≠β.

Модель Фельзенштейну (F81) передбачає, що частоти основ різні π A ≠π C ≠π G ≠π T , а швидкості субституції однакові?

Загальна оборотна модель (REV) передбачає різні частоти основ π A ≠π C ≠π G ≠π T , а всі шість пар субституцій мають різні швидкості.

Згадані вище моделі мають на увазі, що швидкості субституції однакові у всіх сайтах. Однак у моделі можна врахувати і відмінності швидкостей субституції у різних сайтах. Значення частот основ і швидкостей субституції можна призначити апріорно, так і отримати ці значення з даних за допомогою спеціальних програм, наприклад PAUP.

Байєсовський аналіз

Метод максимальної правдоподібності оцінює можливість філогенетичних моделей після того, як вони створені на основі наявних даних. Проте знання загальних закономірностей еволюції цієї групи дозволяє створити серію найімовірніших моделей філогенезу без залучення основних даних (наприклад, нуклеотидних послідовностей). Після того, як ці дані отримані, з'являється можливість оцінити відповідність між ними та заздалегідь побудованими моделями, та переглянути ймовірність цих вихідних моделей. Метод, який дозволяє це здійснити називається байєсівським аналізом , і є найновішим методом вивчення філогенії (див. докладний огляд: Huelsenbeck та ін., 2001).

Відповідно до стандартної термінології, початкові ймовірності прийнято називати апріорними ймовірностями (оскільки вони приймаються перш, ніж отримані дані) а переглянуті ймовірності – апостеріорними (оскільки вони обчислюються після отримання даних).

Математичною основою байєсовського аналізу є теорема Байєса, в якій апріорна ймовірність дерева Pr[ Tree] та правдоподібність Pr[ Data|Tree] використовуються, щоб обчислити апостеріорну ймовірність дерева Pr[ Tree | Data]:

Апостеріорна ймовірність дерева може розглядатися як ймовірність того, що це дерево відбиває справжній перебіг еволюції. Дерево з найвищою апостеріорною ймовірністю вибирається як найбільш ймовірна модель філогенезу. Розподіл апостеріорних ймовірностей дерев обчислюється з допомогою методів комп'ютерного моделювання.

Метод максимальної правдоподібності та байєсівський аналіз потребують еволюційних моделей, що описують зміни ознак. Створення математичних моделей морфологічної еволюції нині неможливо. Тому статистичні методи філогенетичного аналізу застосовуються тільки для молекулярних даних.

Сутність завдання точкового оцінювання параметрів

ТОЧКОВА ОЦІНКА ПАРАМЕТРІВ РОЗПОДІЛУ

Точкова оцінка передбачає знаходження єдиної числової величини, яка приймається за значення параметра. Таку оцінку доцільно визначати у випадках, коли обсяг ЕД досить великий. Причому немає єдиного поняття достатньому обсязі ЕД, його значення залежить від виду оцінюваного параметра (до цього питання належить повернутися щодо методів інтервальної оцінки параметрів, а попередньо вважатимемо достатньої вибірку, що містить щонайменше 10 значень). При малому обсязі ЕД точкові оцінки можуть істотно відрізнятись від справжніх значень параметрів, що робить їх непридатними для використання.

Завдання точкової оцінки параметрів у типовому варіанті постановки полягає в наступному.

Є: вибірка спостережень ( x 1 , x 2 , …, x n) за випадковою величиною Х. Обсяг вибірки nфіксований.

Відомий вид закону розподілу величини Х, наприклад, у формі щільності розподілу f(Θ , x),де Θ – невідомий (загалом векторний) параметр розподілу. Параметр є невипадковою величиною.

Потрібно знайти оцінку Θ* параметра Θ закону розподілу.

Обмеження: вибірка представницька.

Існує кілька методів вирішення задачі точкової оцінки параметрів, найбільш уживаними з них є методи максимальної (найбільшої) правдоподібності, моментів та квантилів.

Метод запропонований Р. Фішером у 1912 р. Метод заснований на дослідженні ймовірності отримання вибірки спостережень (x 1, x 2, …, x n). Ця ймовірність дорівнює

f(х 1, Θ) f(х 2, Θ) … f(х п, Θ) dx 1 dx 2 … dx n .

Спільна щільність імовірності

L(х 1 , х 2 …, х n ; Θ) = f(х 1 , Θ) f(х 2 , Θ) … f(х n , Θ),(2.7)

розглядається як функція параметра Θ , називається функцією правдоподібності .

Як оцінка Θ* параметра Θ слід взяти те значення, що звертає функцію правдоподібності максимум. Для знаходження оцінки необхідно замінити функції правдоподібності Тна qі розв'язати рівняння

dL/dΘ* = 0.

Для спрощення обчислень переходять від функції правдоподібності до її логарифму ln L. Таке перетворення припустимо, оскільки функція правдоподібності – позитивна функція, і вона сягає максимуму у тому точці, як і її логарифм. Якщо параметр розподілу векторна величина

Θ* =(q 1 , q 2 , …, q n),

то оцінки максимальної правдоподібності знаходять із системи рівнянь


d ln L(q 1 , q 2 , …, q n) / d q 1 = 0;

d ln L(q 1 , q 2 , …, q n) / d q 2 = 0;

. . . . . . . . .



d ln L(q 1 , q 2 , …, q n) / d q n = 0.

Для перевірки того, що точка оптимуму відповідає максимуму правдоподібності, необхідно знайти другу похідну від цієї функції. І якщо друга похідна в точці оптимуму негативна, знайдені значення параметрів максимізують функцію.

Отже, знаходження оцінок максимальної правдоподібності включає такі етапи: побудова функції правдоподібності (її натурального логарифму); диференціювання функції за шуканими параметрами та складання системи рівнянь; розв'язання системи рівнянь для знаходження оцінок; визначення другої похідної функції, перевірку її знака у точці оптимуму першої похідної та формування висновків.

Рішення.Функція правдоподібності для вибірки ЕД обсягом n

Логарифм функції правдоподібності

Система рівнянь для знаходження оцінок параметрів

З першого рівняння випливає:

або остаточно

Таким чином, середня арифметична оцінка максимальної правдоподібності для математичного очікування.

З другого рівняння можна знайти

.

Емпірична дисперсія є зміщеною. Після усунення зміщення

Фактичні значення оцінок параметрів: m =27,51, s 2 = 0,91.

Для перевірки того, що отримані оцінки максимізують значення функції правдоподібності, візьмемо другі похідні

Другі похідні від функції ln( L(m,S)) незалежно від значень параметрів менше за нуль, отже, знайдені значення параметрів є оцінками максимальної правдоподібності.

Метод максимальної правдоподібності дозволяє отримати заможні, ефективні (якщо такі існують, то одержане рішення дасть ефективні оцінки), достатні, асимптотично нормально розподілені оцінки. Цей метод може давати як зміщені, і незміщені оцінки. Зміщення вдається усунути запровадженням поправок. Метод особливо корисний при малих вибірках.

У попередньому розділі розглядалася теорія оцінювання Байєса. Однією з найбільш корисних оцінок, отриманих там, є оцінка максимуму апостеріорної щільності ймовірності. Значення цієї оцінки визначаються шляхом максимізації умовної густини

щодо змінної. Для цієї оцінки було введено спеціальне позначення. Так як безумовна щільність не залежить від параметра, то значення оцінки можуть знаходитись шляхом максимізації спільної щільності

щодо. Можна також максимізувати значення натурального логарифму від цієї густини. У цьому випадку значення оцінки при кожній вибірці є коренем рівняння

Припустимо тепер, що жодних апріорних відомостей про параметр немає. Якби параметр був випадковим і мав нормальну густину ймовірності

,

то випадок, що розглядається тут, можна було б отримати граничним переходом при необмеженому збільшенні дисперсій всіх компонент вектора. Бо при цьому

,

то при маємо. Таким чином, за відсутності апріорних відомостей про параметр можна покласти

. (6.27)

Отримана у своїй з ур-ния (6.26) оцінка називається оцінкою максимальної правдоподібності. Вона є коренем рівняння

(6.28)

або, що еквівалентно,

. (6.29)

Оцінка максимальної правдоподібності була запропонована раніше, ніж була розвинена теорія оцінювання Байєса. Вона визначалася як значення параметра , у якому функція правдоподібності набуває найбільшого значення. З наведених вище міркувань має бути очевидним, що точність оцінки максимальної правдоподібності буде гіршою, ніж байєсівської оцінки. Незважаючи на це, існують досить вагомі причини, через які використання цієї оцінки виявляється розумним. Так, часто зустрічаються завдання оцінювання, в яких

Параметр не є випадковим, яке значення невідомо;

Параметр є випадковим, проте його апріорна густина ймовірності невідома;

Вираз для апостеріорної щільності виявляється настільки складним, що його важко використовувати для обчислень, в той час як функція правдоподібності має відносно простий вигляд.

У першому випадку взагалі немає можливості знайти байєсовську оцінку, оскільки про густину ймовірності взагалі не можна говорити. Один із можливих шляхів подолання цієї труднощі полягає в тому, щоб використовувати псевдобайєсівські оцінки. Такі оцінки будуть розглянуті у § 6.5.

Приклад 6.6.Розглянемо одне з класичних завдань оцінювання, яке було вирішено з використанням оцінок максимальної правдоподібності. Нехай потрібно оцінити середнє значення та дисперсію нормальної випадкової величини за вибіркою із незалежних спостережень цієї величини. Для спостерігається величини при цьому маємо

, де

Через незалежність спостережень можна зависати

У цьому завдання параметри, що підлягають оцінюванню, і не є випадковими, так що байесівські оцінки знайти не можна.

Це рівняння має єдиний корінь , який і слід прийняти як оцінку максимальної правдоподібності для середнього значення. Оскільки математичне очікування цієї оцінки збігається зі значенням параметра, що оцінюється, тобто. то цю оцінку називають незміщеною.

Випадок 2. Припустимо, що значення параметра відомо. Оцінка максимальної правдоподібності для дисперсії у разі є коренем рівняння

.

Вирішивши це рівняння, отримуємо

.

Ця оцінка також є незміщеною, оскільки .

Розглянемо тепер завдання оцінювання стандартного відхилення. Можна припустити, що ця оцінка представляється як квадратний корінь з оцінки для дисперсії. Це справді так, оскільки оцінка

є коренем рівняння

Випадок 3. Значення обох параметрів невідомі. У цьому випадку оцінюватися повинні два параметри та . Обчислюючи похідні функції правдоподібності по змінним і прирівнюючи їх нулю і вирішуючи знайдену систему з двох рівнянь, отримуємо

; .

Оцінка середнього значення тут знову незміщена, а середнє значення оцінки дисперсії дорівнює значенням параметра, що оцінюється, тобто в зазначених умовах є зміщеною. Можна було б, запровадивши поправку, отримати незміщену оцінку , Що не є, однак, більш оцінкою максимальної правдоподібності.

Часто корисно мати алгоритми послідовного обчислення оцінок та . Тут нижні індекси оцінок максимальної правдоподібності замінені на індекс , який вказує обсяг використовуваної для оцінювання вибірки. При обсязі вибірки, що дорівнює , оцінка . Тому алгоритм послідовного обчислення цієї оцінки має вигляд . Алгоритм послідовного обчислення оцінки знаходиться дещо складніше. Скористаємося вже вилікованим раніше виразом для оцінки

і випишемо аналогічний вираз для оцінки

.

Оцінку тепер представимо у рекурентному вигляді. Тоді з двох виписаних рівностей після нечисленних алгебраїчних перетворень отримуємо

Рекурентні алгоритми обчислення оцінок повинні використовуватися спільно.

Приклад 6.7.Знайдемо оцінку максимальної правдоподібності для параметра, що розглядався в прикладі 6.1. Тепер щільність імовірності

Оцінка максимальної правдоподібності визначається як корінь рівняння

і має вигляд

У даному випадку можна знайти і байєсовську оцінку

Якщо прийняти, що , то оцінка, що забезпечує мінімум середньоквадратичної помилки, збігається з оцінкою максимальної правдоподібності. Цікаво відзначити, що в цьому випадку оцінка з мінімальною дисперсією, яка збігається також з байєсовською оцінкою при модульній функції вартості та з оцінкою по максимуму апостеріорної щільності ймовірності, так само, як і оцінка максимальної правдоподібності, є незміщеною.

Надзвичайно корисно обчислити кореляційні матриці помилок вектора цих двох оцінок. Для байєсівської оцінки така матриця вже була обчислена і було показано, що

Для оцінки максимальної правдоподібності отримуємо

Якщо тепер скористатися уявленням, то

Кореляційна матриця вектора помилок під час використання оцінки максимальної правдоподібності завжди більша, ніж кореляційна матриця вектора помилок для оцінки з мінімальною середньоквадратичною помилкою. Ці матриці збігаються тільки в тому випадку, коли .

Корисно також розглянути випадок, коли матриця є одиничною, тобто . При цьому.

Оцінка максимальної правдоподібності, байєсовська оцінка та їх кореляційні матриці в цьому випадку набувають вигляду

Тут не можна очікувати, що оцінка максимальної правдоподібності виявиться досить точною, оскільки її значення просто збігаються зі значеннями вибірки, що отримується.

Якщо обсяг вибірки набагато більший за розмірність оцінюваного параметра, то оцінка максимальної правдоподібності може виявитися досить хорошою. Наприклад, нехай де - скалярний параметр, а вектори і мають розмірність . Припустимо також, що

і . Оцінки, що розглядаються тут, та їх середньоквадратичні помилки при цьому визначаються співвідношеннями

; ;

; .

Часто виявляється, що для досить великих значень виконується нерівність . І тут середньоквадратичні помилки обох оцінок будуть фактично однакові.

Аналогічні результати можна отримати за безперервного часу для прикладу 6.3. Якщо модель спостережень в останньому прикладі з дискретним часом трактувати як дискретний аналог наступної моделі процесу, що спостерігається

; .

де - нормальний білий шум із нульовим середнім значенням, то, використовуючи позначення прикладу 6.3, можна отримати

; .

Звідси випливає, що якщо вид функції не змінюється при зміні, то середньоквадратична помилка оцінювання зменшується зі зростанням. Якщо ж енергія сигналу визначається як , повинна залишатися постійною за будь - якого значення параметра , то значення середньоквадратичної помилки не залежить ні від тривалості , ні від форми сигналу . Якщо , то середньоквадратична помилка байєсівської оцінки фактично буде такою самою, як і в оцінки максимальної правдоподібності. Якщо ж це не так і справедливо зворотне нерівність, то це означає, що або є досить інтенсивний шум (велике), або є хороша апріорна оцінка для, з якої можна почати (мало). Значення оцінки з мінімальною середньоквадратичною помилкою та середньоквадратична помилка цієї оцінки при цьому мало відрізняються від відповідних параметрів апріорного розподілу та можна записати

;

.

Так що в цьому випадку середнє значення апріорного розподілу приймається як найкраща оцінка для параметра. У прикладі 6.5 вже зазначалося, що при великих відносинах сигнал/шум середньоквадратичні помилки оцінювання при використанні оцінки максимуму апостеріорної щільності та оцінки з мінімальною середньоквадратичною помилкою практично однакові. З результатів цього прикладу випливає, що при великих значеннях відношення сигнал/шум (тут при ) точність оцінок і практично така сама, як і в оцінки максимальної правдоподібності

приклад 6.8. Наведемо тепер докладний аналіз простої задачі оцінювання методом максимальної правдоподібності за наявності пофарбованого шуму. У процесі розв'язання цього завдання будуть проілюстровані міркування, якими можна буде скористатися під час практичного вибору інтервалу дискретизації. Нехай спостереженню доступні реалізації скалярного процесу , , де - постійний скалярний параметр, і

Для вирішення задачі оцінювання параметра надійде наступним чином. Введемо відповідну модель спостережень за дискретного часу , , де період відліків вибирається так, щоб зміни процесу на такому інтервалі були добре помітні. Для цієї моделі маємо

Спостережуваний процес можна тепер записати у векторній формі:

.

Оцінка максимальної правдоподібності параметра

де ковариационная матриця шуму має елементи: (чи період відліків компоненти вектора (або ) при подальшому, навіть необмеженому, збільшенні обсягу вибірки виявляється незначним.

Мал. 6.8. Залежність дисперсії помилки оцінювання обсягу вибірки (приклад 6.8.): 1 - алгоритм, орієнтований білий шум; 2 - алгоритм, орієнтований пофарбований шум.

Наведене вище вираз справедливо тільки в тому випадку, якщо компоненти вектора дійсно незалежні. Справжнє значення середньоквадратичної помилки оцінювання під час використання оцінки у разі пофарбованого шуму може бути знайдено із співвідношення

) алгоритм, орієнтований на білий шум, забезпечує значення середньоквадратичної помилки, лише трохи перевищує значення помилки для алгоритму, орієнтованого на пофарбований шум. Оскільки алгоритми для білого шуму набагато простіше, ніж алгоритми для пофарбованого шуму, то в практичних додатках можна надійти таким чином, обсяг вибірки прийняти рівним 40 і використовувати прості алгоритми оцінювання, орієнтовані на білий шум, якщо така частота висока відліків допустима. Середньоквадратична помилка оцінювання за вибіркою об'єму при використанні алгоритму для забарвленого шуму (коли шум насправді забарвлений) дорівнює середньоквадратичній помилці оцінювання за вибіркою об'єму при використанні алгоритму для білого шуму. Відношення цих середньоквадратичних помилок при дорівнює приблизно двом.