Оценка максимального правдоподобия распределения пуассона. Методы получения оценок

Сущность задачи точечного оценивания параметров

ТОЧЕЧНАЯ ОЦЕНКА ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Точечная оценка предполагает нахождение единственной числовой величины, которая и принимается за значение параметра. Такую оценку целесообразно определять в тех случаях, когда объем ЭД достаточно велик. Причем не существует единого понятия о достаточном объеме ЭД, его значение зависит от вида оцениваемого параметра (к этому вопросу предстоит вернуться при изучении методов интервальной оценки параметров, а предварительно будем считать достаточной выборку, содержащую не менее чем 10 значений). При малом объеме ЭД точечные оценки могут значительно отличаться от истинных значений параметров, что делает их непригодными для использования.

Задача точечной оценки параметров в типовом варианте постановки состоит в следующем.

Имеется: выборка наблюдений (x 1 , x 2 , …, x n ) за случайной величиной Х . Объем выборки n фиксирован.

Известен вид закона распределения величины Х , например, в форме плотности распределения f(Θ , x), где Θ – неизвестный (в общем случае векторный) параметр распределения. Параметр является неслучайной величиной.

Требуется найти оценку Θ* параметра Θ закона распределения.

Ограничения: выборка представительная.

Существует несколько методов решения задачи точечной оценки параметров, наиболее употребительными из них являются методы максимального (наибольшего) правдоподобия, моментов и квантилей.

Метод предложен Р. Фишером в 1912 г. Метод основан на исследовании вероятности получения выборки наблюдений (x 1 , x 2, …, x n) . Эта вероятность равна

f(х 1 , Θ) f(х 2 , Θ) … f(х п, Θ) dx 1 dx 2 … dx n .

Совместная плотность вероятности

L(х 1 , х 2 …, х n ; Θ) = f(х 1 , Θ) f(х 2 , Θ) … f(х n , Θ), (2.7)

рассматриваемая как функция параметра Θ , называется функцией правдоподобия .

В качестве оценки Θ* параметра Θ следует взять то значение, которое обращает функцию правдоподобия в максимум. Для нахождения оценки необходимо заменить в функции правдоподобия Т на q и решить уравнение

dL/d Θ* = 0.

Для упрощения вычислений переходят от функции правдоподобия к ее логарифму lnL . Такое преобразование допустимо, так как функция правдоподобия – положительная функция, и она достигает максимума в той же точке, что и ее логарифм. Если параметр распределения векторная величина

Θ* =(q 1 , q 2 , …, q n),

то оценки максимального правдоподобия находят из системы уравнений


d ln L(q 1 , q 2 , …, q n) /d q 1 = 0;

d ln L(q 1 , q 2 , …, q n) /d q 2 = 0;

. . . . . . . . .



d ln L(q 1 , q 2 , …, q n) /d q n = 0.

Для проверки того, что точка оптимума соответствует максимуму функции правдоподобия, необходимо найти вторую производную от этой функции. И если вторая производная в точке оптимума отрицательна, то найденные значения параметров максимизируют функцию.

Итак, нахождение оценок максимального правдоподобия включает следующие этапы: построение функции правдоподобия (ее натурального логарифма); дифференцирование функции по искомым параметрам и составление системы уравнений; решение системы уравнений для нахождения оценок; определение второй производной функции, проверку ее знака в точке оптимума первой производной и формирование выводов.

Решение. Функция правдоподобия для выборки ЭД объемом n

Логарифм функции правдоподобия

Система уравнений для нахождения оценок параметров

Из первого уравнения следует:

или окончательно

Таким образом, среднее арифметическое является оценкой максимального правдоподобия для математического ожидания.

Из второго уравнения можно найти

.

Эмпирическая дисперсия является смещенной. После устранения смещения

Фактические значения оценок параметров: m =27,51, s 2 = 0,91.

Для проверки того, что полученные оценки максимизируют значение функции правдоподобия, возьмем вторые производные

Вторые производные от функции ln(L(m,S )) независимо от значений параметров меньше нуля, следовательно, найденные значения параметров являются оценками максимального правдоподобия.

Метод максимального правдоподобия позволяет получить состоятельные, эффективные (если таковые существуют, то полученное решение даст эффективные оценки), достаточные, асимптотически нормально распределенные оценки. Этот метод может давать как смещенные, так и несмещенные оценки. Смещение удается устранить введением поправок. Метод особенно полезен при малых выборках.

Задача оценки параметров распределения заключается в получении наиболее правдоподобных оценок неизвестных параметров распределения генеральной совокупности на основании выборочных данных. Кроме метода моментов для определения точечной оценки параметров распределения используется также метод наибольшего правдоподобия . Метод наибольшего правдоподобия был предложен английским статистиком Р. Фишером в 1912 г.

Пусть для оценки неизвестного параметра  случайной величины Х из генеральной совокупности с плотностью распределения вероятностей p (x )= p (x , ) извлечена выборка x 1 ,x 2 ,…,x n . Будем рассматривать результаты выборки как реализацию n -мерной случайной величины (X 1 ,X 2 ,…,X n ). Рассмотренный ранее метод моментов для получения точечных оценок неизвестных параметров теоретического распределения не всегда дает наилучшие оценки. Методом поиска оценок, обладающих необходимыми (наилучшими) свойствами, является метод максимального правдоподобия.

В основе метода максимального правдоподобия лежит условие определения экстремума некоторой функции, называемой функцией правдоподобия.

Функцией правдоподобия ДСВ Х

L (x 1 ,x 2 ,…,x n ; )=p (x 1 ; ) p (x 2 ; )… p (x n ; ),

где x 1, …, x n – фиксированные варианты выборки,  неизвестный оцениваемый параметр, p (x i ; ) – вероятность события X = x i .

Функцией правдоподобия НСВ Х называют функцию аргумента :

L (x 1 ,x 2 ,…,x n ; )=f (x 1 ; ) f (x 2 ; )… f (x n ; ),

где f (x i ; ) – заданная функция плотности вероятности в точках x i .

В качестве точечной оценки параметров распределения  принимают такое его значение при котором функция правдоподобия достигает своего максимума. Оценку
называютоценкой максимального правдоподобия . Т.к. функции L и
L
достигают своего максимума при одинаковых значениях , то обычно для нахождения экстремума (максимума) используют
L
как более удобную функцию.

Для определения точки максимума
L
надо воспользоваться известным алгоритмом для вычисления экстремума функции:


В том случае, когда плотность вероятности зависит от двух неизвестных параметров –  1 и  2 , то находят критические точки, решив систему уравнений:

Итак, согласно методу наибольшего правдоподобия, в качестве оценки неизвестного параметра  принимается такое значение *, при котором
распределения выборкиx 1 ,x 2 ,…,x n максимальна.

Задача 8. Найдем методом наибольшего правдоподобия оценку для вероятностиp в схеме Бернулли,

Проведем n независимых повторных испытаний и измерим число успехов, которое обозначим m . По формуле Бернулли вероятность того, что будет m успехов из n –– есть функция правдоподобия ДСВ.

Решение : Составим функцию правдоподобия
.

Согласно методу наибольшего правдоподобия, найдем такое значение p , которое максимизирует L , а вместе с ней и ln L .

Тогда логарифмируя L , имеем:

Производная функции lnL по p имеет вид
и в точке экстремума равна нулю. Поэтому, решив уравнение
, имеем
.

Проверим знак второй производной
в полученной точке:

. Т.к.
при любых значениях аргумента, то найденное значениеp есть точка максимума.

Значит, – наилучшая оценка для
.

Итак, согласно методу наибольшего правдоподобия, оценкой вероятности p события А в схеме Бернулли служит относительная частота этого события .

Если выборка x 1 , x 2 ,…, x n извлечена из нормально распределенной совокупности, то оценки для математического ожидания и дисперсии методом наибольшего правдоподобия имеют вид:

Найденные значения совпадают с оценками этих параметров, полученными методом моментов. Т.к. дисперсия смещена, то ее необходимо умножить на поправку Бесселя. Тогда она примет вид
, совпадая с выборочной дисперсией.

Задача 9 . Пусть дано распределение Пуассона
где приm = x i имеем
. Найдем методом наибольшего правдоподобия оценку неизвестного параметра.

Решение :

Составив функцию правдоподобия L и ее логарифм ln L . Имеем:

Найдем производную от lnL :
и решим уравнение
. Полученная оценка параметра распределения примет вид:
Тогда
т.к. при
вторая частная производная
то это точка максимума. Т.о., в качестве оценки наибольшего правдоподобия параметра для распределения Пуассона можно принять выборочное среднее.

Можно убедиться, что припоказательном распределении
функция правдоподобия для выборочных значенийx 1 , x 2 , …, x n имеет вид:

.

Оценка параметра распределения  для показательного распределения равна:
.

Достоинством метода наибольшего правдоподобия является возможность получить «хорошие» оценки, обладающие такими свойствами, как состоятельность, асимптотическая нормальность и эффективность для выборок больших объемов при самых общих условиях.

Основным недостатком метода является сложность решения уравнений правдоподобия, а также то, что не всегда известен анализируемый закон распределения.

В предыдущем разделе рассматривалась байесовская теория оценивания. Одной из наиболее полезных оценок, полученных там, является оценка по максимуму апостериорной плотности вероятности. Значения этой оценки определяются путем максимизации условной плотности

относительно переменной . Для этой оценки было введено специальное обозначение . Так как безусловная плотность не зависит от параметра , то значения оценки могут отыскиваться путем максимизации совместной плотности

относительно . Можно также максимизировать значение натурального логарифма от этой плотности. В этом случае значение оценки при каждой выборке является корнем уравнения

Предположим теперь, что никаких априорных сведений о параметре нет. Если бы параметр был случайным и имел нормальную плотность вероятности

,

то рассматриваемый здесь случай можно было бы получить предельным переходом при неограниченном увеличении дисперсий всех компонент вектора . Так как при этом

,

то при имеем . Таким образом, при отсутствии априорных сведений о параметре можно положить

. (6.27)

Получающаяся при этом из ур-ния (6.26) оценка называется оценкой максимального правдоподобия. Она является корнем уравнения

(6.28)

или, что эквивалентно,

. (6.29)

Оценка максимального правдоподобия была предложена раньше, чем была развита байесовская теория оценивания . Она определялась как значение параметра , при котором функция правдоподобия принимает наибольшее значение. Из приведенных выше рассуждений должно быть очевидным, что точность оценки максимального правдоподобия будет хуже, чем байесовской оценки. Несмотря на это, существуют достаточно веские причины, из-за которых использование этой оценки оказывается разумным. Так, довольно часто встречаются задачи оценивания, в которых

Параметр не является случайным, а его значение неизвестно;

Параметр является случайным, однако его априорная плотность вероятности неизвестна;

Выражение для апостериорной плотности [или для ] оказывается настолько сложным, что его трудно использовать для вычислений, в то время как функция правдоподобия имеет относительно простой вид.

В первом случае вообще нет возможности найти байесовскую оценку, поскольку о плотности вероятности вообще нельзя говорить. Один из возможных путей преодоления этой трудности состоит в том, чтобы использовать псевдобайесовские оценки. Такие оценки будут рассмотрены в § 6.5.

Пример 6.6. Рассмотрим одну из классических задач оценивания, которая была решена с использованием оценок максимального правдоподобия. Пусть требуется оценить среднее значение и дисперсию нормальной случайной величины по выборке из независимых наблюдений этой величины. Для наблюдаемой величины при этом имеем

, где

В силу независимости наблюдений можно зависать

В этой задаче подлежащие оцениванию параметры и не являются случайными, так чтобайесовские оценки найти нельзя.

Это уравнение имеет единственный корень , который и следует принять в качестве оценки максимального правдоподобия для среднего значения. Так как математическое ожидание этой оценки совпадает со значением оцениваемого параметра, т. е. то эту оценку называют несмещенной.

Случай 2. Предположим теперь, что значение параметра известно. Оценка максимального правдоподобия для дисперсии в этом случае является корнем уравнения

.

Решив это уравнение, получаем

.

Эта оценка также является несмещенной, поскольку .

Рассмотрим теперь задачу оценивания стандартного отклонения . Можно предположить, что эта оценка представляется как корень квадратный из оценки для дисперсии. Это действительно так, поскольку оценка

является корнем уравнения

Случай 3. Значения обоих параметров и неизвестны. В этом случае оцениваться должны два параметра и . Вычисляя производные функции правдоподобия по переменным и , приравнивая их нулю и решая найденную систему из двух уравнений, получаем

; .

Оценка среднего значения здесь вновь является несмещенной, а среднее значение оценки дисперсии равно значению оцениваемого параметра, т. е. в указанных условиях является смещенной. Можно было бы, введя поправку, получить несмещенную оценку , которая не является, однако, более оценкой максимального правдоподобия.

Часто полезно иметь алгоритмы последовательного вычисления оценок и . Здесь нижние индексы оценок максимального правдоподобия заменены индексом , который указывает объем используемой для оценивания выборки. При объеме выборки, равном , оценка . Поэтому алгоритм последовательного вычисления этой оценки имеет вид . Алгоритм последовательного вычисления оценки отыскивается несколько сложнее. Воспользуемся уже полеченным ранее выражением для оценки

и выпишем аналогичное выражение для оценки

.

Оценку теперь представим в рекуррентном виде. Тогда из двух выписанных равенств после немногочисленных алгебраических преобразований получаем

Рекуррентные алгоритмы вычисления оценок и должны использоваться совместно.

Пример 6.7. Найдем оценку максимального правдоподобия для параметра рассматривавшегося в примере 6.1. Теперь плотность вероятности

Оценка максимального правдоподобия определяется как корень уравнения

и имеет вид

В рассматриваемом случае можно найти и байесовскую оценку

Если принять, что , , то оценка, обеспечивающая минимум среднеквадратической ошибки, совпадает с оценкой максимального правдоподобия. Интересно отметить, что в этом случае оценка с минимальной дисперсией, которая совпадает также с байесовской оценкой при модульной функции стоимости и с оценкой по максимуму апостериорной плотности вероятности, так же, как и оценка максимального правдоподобия, является несмещенной.

Чрезвычайно полезно вычислить корреляционные матрицы вектора ошибок этих двух оценок. Для байесовской оценки такая матрица уже была вычислена и было показано, что

Для оценки максимального правдоподобия получаем

Если теперь воспользоваться представлением , то

Корреляционная матрица вектора ошибок при использовании оценки максимального правдоподобия всегда больше, чем корреляционная матрица вектора ошибок для оценки с минимальной среднеквадратической ошибкой. Эти матрицы совпадают только в том случае, когда .

Полезно рассмотреть также случай, когда матрица является единичной, т. е . При этом .

Оценка максимального правдоподобия, байесовская оценка и их корреляционные матрицы в этом случае принимают вид

Здесь нельзя ожидать, что оценка максимального правдоподобия окажется достаточно точной, поскольку ее значения просто совпадают со значениями получаемой выборки.

Если объем выборки намного больше размерности оцениваемого параметра , то оценка максимального правдоподобия может оказаться достаточно хорошей. Например, пусть , где - скалярный параметр, а векторы и имеют размерность . Предположим также, что

и . Рассматривающиеся здесь оценки и их среднеквадратические ошибки при этом определяются соотношениями

; ;

; .

Часто оказывается, что для достаточно больших значений выполняется неравенство . В этом случае среднеквадратические ошибки обеих оценок будут фактически одинаковы.

Аналогичные результаты можно получить при непрерывном времени для примера 6.3. Если модель наблюдений в последнем примере с дискретным временем трактовать как дискретный аналог следующей модели наблюдаемого процесса

; .

где - нормальный белый шум с нулевым средним значением, то, используя обозначения примера 6.3, можно получить

; .

Отсюда следует, что если вид функции не изменяется при изменении , то среднеквадратическая ошибка оценивания уменьшается с ростом . Если же энергия сигнала , определяемая как , должна оставаться постоянной при любом значении параметра , то значение среднеквадратической ошибки не зависит ни от длительности , ни от формы сигнала . Если , то среднеквадратическая ошибка байесовской оценки фактически будет такой же, как и у оценки максимального правдоподобия. Если же это не так и справедливо обратное неравенство , то это означает, что либо имеется достаточно интенсивный шум ( велико), либо имеется хорошая априорная оценка для , с которой можно начать ( мало). Значения оценки с минимальной среднеквадратической ошибкой и среднеквадратическая ошибка этой оценки при этом мало отличаются от соответствующих параметров априорного распределения и можно записать

;

.

Так что в этом случае среднее значение априорного распределения принимается в качестве наилучшей оценки для параметра . В примере 6.5 уже отмечалось, что при больших отношениях сигнал/шум среднеквадратические ошибки оценивания при использовании оценки по максимуму апостериорной плотности и оценки с минимальной среднеквадратической ошибкой практически одинаковы. Из результатов этого примера следует, что при больших значениях отношения сигнал/шум (здесь при ) точность оценок и практически такая же, как и у оценки максимального правдоподобия

Пример 6.8. Приведем теперь подробный анализ простой задачи оценивания по методу максимального правдоподобия при наличии окрашенного шума. В процессе решения этой задачи будут проиллюстрированы соображения, которыми можно будет пользоваться при практическом выборе интервала дискретизации. Пусть наблюдению доступны реализации скалярного процесса , , где - постоянный скалярный параметр, и

Для решения задачи оценивания параметра поступим следующим образом. Введем соответствующую модель наблюдений при дискретном времени , , , где период отсчетов выбирается так, чтобы изменения процесса на таком интервале были хорошо заметны. Для этой модели имеем

Наблюдаемый процесс можно теперь записать в векторной форме:

.

Оценка максимального правдоподобия параметра

где ковариационная матрица шума имеет элементы: (или от периода отсчетов компоненты вектора (или ) при дальнейшем, даже неограниченном, увеличении объема выборки оказывается незначительным.

Рис. 6.8. Зависимость дисперсии ошибки оценивания от объема выборки (пример 6.8.): 1 - алгоритм, ориентированный на белый шум; 2 - алгоритм, ориентированный на окрашенный шум.

Приведенное выше выражение для справедливо только в том случае, если компоненты вектора в самом деле независимы. Истинное значение среднеквадратической ошибки оценивания при использовании оценки в случае окрашенного шума может быть найдено из соотношения

) алгоритм, ориентированный на белый шум, обеспечивает значение среднеквадратической ошибки, лишь незначительно превышающее значение ошибки для алгоритма, ориентированного на окрашенный шум. Поскольку алгоритмы для белого шума намного проще, чем алгоритмы для окрашенного шума, то в практических приложениях можно поступить следующим образом, объем выборки принять равным 40 и использовать простые алгоритмы оценивания, ориентированные на белый шум, если такая высокая частота отсчетов допустима. Среднеквадратическая ошибка оценивания по выборке объема при использовании алгоритма для окрашенного шума (когда шум на самом деле окрашен) равна среднеквадратической ошибке оценивания по выборке объема при использовании алгоритма для белого шума. Отношение этих среднеквадратических ошибок при равно примерно двум.

В работах, предназначенных для первоначального знакомства с математической статистикой, обычно рассматривают оценки максимального правдоподобия (сокращенно ОМП):

Таким образом, сначала строится плотность распределения вероятностей, соответствующая выборке. Поскольку элементы выборки независимы, то эта плотность представляется в виде произведения плотностей для отдельных элементов выборки. Совместная плотность рассматривается в точке, соответствующей наблюденным значениям. Это выражение как функция от параметра (при заданных элементах выборки) называется функцией правдоподобия. Затем тем или иным способом ищется значение параметра, при котором значение совместной плотности максимально. Это и есть оценка максимального правдоподобия.

Хорошо известно, что оценки максимального правдоподобия входят в класс наилучших асимптотически нормальных оценок. Однако при конечных объемах выборки в ряде задач ОМП недопустимы, т.к. они хуже (дисперсия и средний квадрат ошибки больше), чем другие оценки, в частности, несмещенные. Именно поэтому в ГОСТ 11.010-81 для оценивания параметров отрицательного биномиального распределения используются несмещенные оценки, а не ОМП. Из сказанного следует априорно предпочитать ОМП другим видам оценок можно - если можно - лишь на этапе изучения асимптотического поведения оценок.

В отдельных случаях ОМП находятся явно, в виде конкретных формул, пригодных для вычисления.

В большинстве случаев аналитических решений не существует, для нахождения ОМП необходимо применять численные методы. Так обстоит дело, например, с выборками из гамма-распределения или распределения Вейбулла-Гнеденко. Во многих работах каким-либо итерационным методом решают систему уравнений максимального правдоподобия или впрямую максимизируют функцию правдоподобия.

Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных методов требует обоснования. В ряде примеров функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся. Для данных ВНИИ железнодорожного транспорта по усталостным испытаниям стали уравнение максимального правдоподобия имеет 11 корней. Какой из одиннадцати использовать в качестве оценки параметра?

Как следствие осознания указанных трудностей, стали появляться работы по доказательству сходимости алгоритмов нахождения оценок максимального правдоподобия для конкретных вероятностных моделей и конкретных алгоритмов.

Однако теоретическое доказательство сходимости итерационного алгоритма - это еще не всё. Возникает вопрос об обоснованном выборе момента прекращения вычислений в связи с достижением требуемой точности. В большинстве случаев он не решен.

Но и это не все. Точность вычислений необходимо увязывать с объемом выборки - чем он больше, тем точнее надо находить оценки параметров, в противном случае нельзя говорить о состоятельности метода оценивания. Более того, при увеличении объема выборки необходимо увеличивать и количество используемых в компьютере разрядов, переходить от одинарной точности расчетов к двойной и далее - опять-таки ради достижения состоятельности оценок.

Таким образом, при отсутствии явных формул для оценок максимального правдоподобия нахождение ОМП натыкается на ряд проблем вычислительного характера. Специалисты по математической статистике позволяют себе игнорировать все эти проблемы, рассуждая об ОМП в теоретическом плане. Однако прикладная статистика не может их игнорировать. Отмеченные проблемы ставят под вопрос целесообразность практического использования ОМП.

Пример 1. В статистических задачах стандартизации и управления качеством используют семейство гамма-распределений. Плотность гамма-распределения имеет вид

Плотность вероятности в формуле (7) определяется тремя параметрами a, b, c , где a >2, b >0. При этом a является параметром формы, b - параметром масштаба и с - параметром сдвига. Множитель 1/Г(а) является нормировочным, он введен, чтобы

Здесь Г(а) - одна из используемых в математике специальных функций, так называемая "гамма-функция", по которой названо и распределение, задаваемое формулой (7),

Подробные решения задач оценивания параметров для гамма-распределения содержатся в разработанном нами государственном стандарте ГОСТ 11,011-83 «Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения». В настоящее время эта публикация используется в качестве методического материала для инженерно-технических работников промышленных предприятий и прикладных научно-исследовательских институтов.

Поскольку гамма-распределение зависит от трех параметров, то имеется 2 3 - 1 = 7 вариантов постановок задач оценивания. Они описаны в табл. 1. В табл. 2 приведены реальные данные о наработке резцов до предельного состояния, в часах. Упорядоченная выборка (вариационный ряд) объема n = 50 взята из государственного стандарта. Именно эти данные будут служить исходным материалом для демонстрации тех или иных методов оценивания параметров.

Выбор «наилучших» оценок в определенной параметрической модели прикладной статистики - научно-исследовательская работа, растянутая во времени. Выделим два этапа. Этап асимптотики : оценки строятся и сравниваются по их свойствам при безграничном росте объема выборки. На этом этапе рассматривают такие характеристики оценок, как состоятельность, асимптотическая эффективность и др. Этап конечных объемов выборки: оценки сравниваются, скажем, при n = 10. Ясно, что исследование начинается с этапа асимптотики: чтобы сравнивать оценки, надо сначала их построить и быть уверенными, что они не являются абсурдными (такую уверенность дает доказательство состоятельности).

Пример 2. Оценивание методом моментов параметров гамма-распределения в случае трех неизвестных параметров (строка 7 таблицы 1).

В соответствии с проведенными выше рассуждениями для оценивания трех параметров достаточно использовать три выборочных момента - выборочное среднее арифметическое:

выборочную дисперсию

и выборочный третий центральный момент

Приравнивая теоретические моменты, выраженные через параметры распределения, и выборочные моменты, получаем систему уравнений метода моментов:

Решая эту систему, находим оценки метода моментов. Подставляя второе уравнение в третье, получаем оценку метода моментов для параметра сдвига:

Подставляя эту оценку во второе уравнение, находим оценку метода моментов для параметра формы:

Наконец, из первого уравнения находим оценку для параметра сдвига:

Для реальных данных, приведенных выше в табл. 2, выборочное среднее арифметическое = 57,88, выборочная дисперсия s 2 = 663,00, выборочный третий центральный момент m 3 = 14927,91. Согласно только что полученным формулам оценки метода моментов таковы: a * = 5,23; b * = 11,26, c * = - 1,01.

Оценки параметров гамма-распределения, полученные методом моментов, являются функциями от выборочных моментов. В соответствии со сказанным выше они являются асимптотически нормальными случайными величинами. В табл. 3 приведены оценки метода моментов и их асимптотические дисперсии при различных вариантах сочетания известных и неизвестных параметров гамма-распределения.

Все оценки метода моментов, приведенные в табл. 3, включены в государственный стандарт. Они охватывают все постановки задач оценивания параметров гамма-распределения (см. табл. 1), кроме тех, когда неизвестен только один параметр - a или b . Для этих исключительных случаев разработаны специальные методы оценивания.

Поскольку асимптотическое распределение оценок метода моментов известно, то не представляет труда формулировка правил проверки статистических гипотез относительно значений параметров распределений, а также построение доверительных границ для параметров. Например, в вероятностной модели, когда все три параметра неизвестны, в соответствии с третьей строкой таблицы 3 нижняя доверительная граница для параметра а , соответствующая доверительной вероятности г = 0,95, в асимптотике имеет вид

а верхняя доверительная граница для той же доверительной вероятности такова

где а * - оценка метода моментов параметра формы (табл. 3).

Пример 3. Найдем ОМП для выборки из нормального распределения, каждый элемент которой имеет плотность

Таким образом, надо оценить двумерный параметр (m , у 2).

Произведение плотностей вероятностей для элементов выборки, т.е. функция правдоподобия, имеет вид

Требуется решить задачу оптимизации

Как и во многих иных случаях, задача оптимизации проще решается, если прологарифмировать функцию правдоподобия, т.е. перейти к функции

называемой логарифмической функцией правдоподобия. Для выборки из нормального распределения

Необходимым условием максимума является равенство 0 частных производных от логарифмической функции правдоподобия по параметрам, т.е.

Система (10) называется системой уравнений максимального правдоподобия. В общем случае число уравнений равно числу неизвестных параметров, а каждое из уравнений выписывается путем приравнивания 0 частной производной логарифмической функции правдоподобия по тому или иному параметру.

При дифференцировании по m первые два слагаемых в правой части формулы (9) обращаются в 0, а последнее слагаемое дает уравнение

Следовательно, оценкой m * максимального правдоподобия параметра m является выборочное среднее арифметическое,

Для нахождения оценки дисперсии необходимо решить уравнение

Легко видеть, что

Следовательно, оценкой (у 2)* максимального правдоподобия для дисперсии у 2 с учетом найденной ранее оценки для параметра m является выборочная дисперсия,

Итак, система уравнений максимального правдоподобия решена аналитически, ОМП для математического ожидания и дисперсии нормального распределения - это выборочное среднее арифметическое и выборочная дисперсия. Отметим, что последняя оценка является смещенной.

Отметим, что в условиях примера 3 оценки метода максимального правдоподобия совпадают с оценками метода моментов. Причем вид оценок метода моментов очевиден и не требует проведения каких-либо рассуждений.

Пример 4. Попытаемся проникнуть в тайный смысл следующей фразы основателя современной статистики Рональда Фишера: “нет ничего проще, чем придумать оценку параметра”. Классик иронизировал: он имел в виду, что легко придумать плохую оценку. Хорошую оценку не надо придумывать (!) - ее надо получать стандартным образом, используя принцип максимального правдоподобия.

Задача. Согласно H 0 математические ожидания трех независимых пуассоновских случайных величин связаны линейной зависимостью: .

Даны реализации этих величин. Требуется оценить два параметра линейной зависимости и проверить H 0 .

Для наглядности можно представить линейную регрессию, которая в точках принимает средние значения. Пусть получены значения. Что можно сказать о величине и справедливости H 0 ?

Наивный подход

Казалось бы, оценить параметры можно из элементарного здравого смысла. Оценку наклона прямой регрессии получим, поделив приращение при переходе от x 1 =-1 к x 3 =+1 на, а оценку значения найдем как среднее арифметическое:

Легко проверить, что математические ожидания оценок равны (оценки несмещенные).

После того как оценки получены, H 0 проверяют как обычно с помощью хи-квадрат критерия Пирсона:

Оценки ожидаемых частот можно получить, исходя из оценок:

При этом, если наши оценки ”правильные”, то расстояние Пирсона будет распределено как случайная величина хи-квадрат с одной степенью свободы: 3-2=1. Напомним, что мы оцениваем два параметра, подгоняя данные под нашу модель. При этом сумма не фиксирована, поэтому дополнительную единицу вычитать не нужно.

Однако, подставив, получим странный результат:

С одной стороны ясно, что для данных частот нет оснований отвергать H 0 , но мы не в состоянии это проверить с помощью хи-квадрат критерия, так как оценка ожидаемой частоты в первой точке оказывается отрицательной. Итак, найденные из “здравого смысла” оценки не позволяют решить задачу в общем случае.

Метод максимального правдоподобия

Случайные величины независимы и имеют пуассоновское распределение. Вероятность получить значения равна:

Согласно принципу максимального правдоподобия значения неизвестных параметров надо искать, требуя, чтобы вероятность получить значения была максимальной:

Если постоянны, то мы имеем дело с обычной вероятностью. Фишер предложил новый термин “правдоподобие” для случая, когда постоянны, а переменными считаются. Если правдоподобие оказывается произведением вероятностей независимых событий, то естественно превратить произведение в сумму и дальше иметь дело с логарифмом правдоподобия:

Здесь все слагаемые, которые не зависят от, обозначены и в окончательном выражении отброшены. Чтобы найти максимум логарифма правдоподобия, приравняем производные по к нулю:

Решая эти уравнения, получим:

Таковы “правильные” выражения для оценок. Оценка среднего значения совпадает с тем, что предлагал здравый смысл, однако оценки для наклона различаются: . Что можно сказать по поводу формулы для?

  • 1) Кажется странным, что ответ зависит от частоты в средней точке, так как величина определяет угол наклона прямой.
  • 2) Тем не менее, если справедлива H 0 (линия регрессии - прямая), то при больших значениях наблюдаемых частот, они становятся близки к своим математическим ожиданием. Поэтому: , и оценка максимального правдоподобия становится близка к результату, полученному из здравого смысла.

3) Преимущества оценки начинают ощущаться, когда мы замечаем, что все ожидаемые частоты теперь оказываются всегда положительными:

Это было не так для “наивных” оценок, поэтому применить хи-квадрат критерий можно было не всегда (попытка заменить отрицательную или равную нулю ожидаемую частоту на единицу не спасает положения).

4) Численные расчеты показывают, что наивными оценками можно пользоваться только, если ожидаемые частоты достаточно велики. Если использовать их при малых значениях, то вычисленное расстояние Пирсона часто будет оказываться чрезмерно большим.

Вывод : Правильный выбор оценки важен, так как в противном случае проверить гипотезу с помощью критерия хи-квадрат не удастся. Оценка, казалось бы, очевидная может оказаться непригодной!