Понятието за критерии за съгласие. Критерий за съгласие Критерий за съгласие е

Когато се анализират вариационни серии на разпределение, от голямо значение е колко емпирично разпределение характеристика съответства нормално... За това честотите на действителното разпределение трябва да се сравняват с теоретичните, характерни за нормалното разпределение. Това означава, че е необходимо да се изчислят теоретичните честоти на нормалната крива на разпределение от действителните данни, които са функция на нормализираните отклонения.

С други думи, емпиричната крива на разпределение трябва да бъде подравнена с нормалната крива на разпределение.

Обективна характеристика на съответствието теоретична и емпиричен честоти могат да бъдат получени чрез специални статистически показатели, които се наричат критерии за съгласие.

Критерият за съгласие наречен критерий, който ви позволява да установите дали несъответствието емпиричен и теоретична разпределенията са случайни или значими, т.е. дали данните от наблюденията са съгласни с предложената статистическа хипотеза или не. Разпределението на общото население, което то има поради изложената хипотеза, се нарича теоретично.

Става необходимо да се установи критерий (правило), което би позволило да се прецени дали несъответствието между емпиричното и теоретичното разпределение е случайно или значимо. Ако несъответствието се окаже случайни, след това помислете, че данните от наблюдението (извадка) са в съответствие с изложената хипотеза за закона за разпределение на генералната съвкупност и следователно хипотезата е приета; ако несъответствието се окаже значими, тогава данните от наблюдението не са съгласни с хипотезата и я отхвърлят.

Обикновено емпиричните и теоретичните честоти се различават поради факта, че:

  • несъответствието е случайно и е свързано с ограничен брой наблюдения;
  • несъответствието не е случайно и се обяснява с факта, че статистическата хипотеза, че генералната съвкупност е нормално разпределена, е погрешна.

По този начин, критерии за съгласие позволяват отхвърляне или потвърждаване на правилността на хипотезата за естеството на разпределението в емпиричната поредица, изложена при подравняване на поредицата.

Емпирични честоти получени в резултат на наблюдение. Теоретични честоти изчислява се по формулите.

За нормален закон за разпределение те могат да бъдат намерени както следва:

  • Σƒ i - сбор от натрупани (кумулативни) емпирични честоти
  • h - разликата между две съседни опции
  • σ - стандартно отклонение на пробата
  • t - нормализирано (стандартизирано) отклонение
  • φ (t) е функцията на плътността на вероятността на нормалното разпределение (намерена чрез за съответната стойност на t)

Има няколко теста за пригодност, най-често срещаните от тях са: тест с хи-квадрат (Pearson), тест на Колмогоров, тест на Романовски.

Тестът за добро състояние на Pearson χ 2 - един от основните, който може да бъде представен като сбор от съотношенията на квадратите на несъответствията между теоретичните (f T) и емпиричните (f) честоти към теоретичните честоти:

  • k е броят на групите, на които е разделено емпиричното разпределение,
  • f i - наблюдаваната честота на признака в i-тата група,
  • f T –Теоретична честота.

За разпределението на χ 2 се съставят таблици, където критичната стойност на критерия за съгласие χ 2 е посочена за избраното ниво на значимост α и степени на свобода df (или ν).
Ниво на значимост α е вероятността за грешно отхвърляне на предложената хипотеза, т.е. вероятността да бъде отхвърлена правилна хипотеза. R - статистическа валидност приемане на правилната хипотеза. В статистиката най-често се използват три нива на значимост:

α \u003d 0,10, след това P \u003d 0,90 (в 10 случая от 100)

α \u003d 0,05, след това P \u003d 0,95 (в 5 случая от 100)

α \u003d 0,01, тогава Р \u003d 0,99 (в 1 случай от 100) правилната хипотеза може да бъде отхвърлена

Броят на степените на свобода df се дефинира като броя на групите в разпределителната серия минус броя на връзките: df \u003d k –z. Броят на връзките се разбира като брой индикатори от емпиричната серия, използвани при изчисляване на теоретичните честоти, т.е. индикатори, свързващи емпирични и теоретични честоти.Например, когато е подравнен с камбанна крива, има три взаимоотношения.Следователно, когато се подравнявате къмкамбанна крива броят на степени на свобода се определя като df \u003d k - 3.За да се оцени съществеността, изчислената стойност се сравнява с таблицата χ 2 раздел

При пълно съвпадение на теоретичното и емпиричното разпределение χ 2 \u003d 0, в противен случай χ 2\u003e 0. Ако χ 2 изчислено\u003e χ 2 раздел , тогава за дадено ниво на значимост и броя на степени на свобода отхвърляме хипотезата, че несъответствията са незначителни (случайни).Ако се изчисли χ 2< χ 2 табл то приемаме хипотезата и с вероятността Р \u003d (1-α) може да се твърди, че несъответствието между теоретичната и емпиричната честота е случайно. Следователно има основание да се твърди, че емпиричното разпределение се подчинява нормална дистрибуция. Тестът за добро състояние на Pearson се използва, ако размерът на популацията е достатъчно голям (N\u003e 50), докато честотата на всяка група трябва да бъде поне 5.

Въз основа на определянето на максималното несъответствие между натрупаните емпирични и теоретични честоти:

където D и d са съответно максималната разлика между натрупаните честоти и натрупаните честоти на емпиричното и теоретичното разпределение.
Според таблицата на разпределението на статистиката на Колмогоров се определя вероятността, която може да варира от 0 до 1. Когато P (λ) \u003d 1, има пълно съвпадение на честотите, P (λ) \u003d 0 - пълно разминаване. Ако стойността на вероятността P е значителна по отношение на намерената стойност на λ, тогава може да се приеме, че несъответствията между теоретичното и емпиричното разпределение са незначителни, тоест те са от случаен характер.
Основното условие за използване на критерия на Колмогоров е достатъчно голям брой наблюдения.

Тест за доброта на Колмогоров

Нека разгледаме как се прилага критерият на Колмогоров (λ) тестване на хипотеза за нормално разпределение общо население.Изравняването на действителното разпределение с нормалната крива на разпределение се състои от няколко етапа:

  1. Сравнете действителните и теоретичните честоти.
  2. Действителните данни определят теоретичните честоти на нормалната крива на разпределение, което е функция от нормализираното отклонение.
  3. Проверете доколко разпределението на характеристиката съответства на нормалното.

ЗаIVколони на таблица:

В MS Excel нормализираното отклонение (t) се изчислява с помощта на функцията НОРМАЛИЗАЦИЯ. Необходимо е да изберете диапазон от свободни клетки по броя на опциите (редове за електронни таблици). Без да премахвате селекцията, извикайте функцията НОРМАЛИЗАЦИЯ. В диалоговия прозорец, който се появява, посочете следните клетки, в които се намират съответно наблюдаваните стойности (X i), средната стойност (X) и стандартното отклонение Ϭ. Операцията трябва да бъде завършена едновременно чрез натискане на Ctrl + Shift + Enter

ЗаVколони на таблица:

Функцията на плътността на вероятността на нормалното разпределение φ (t) се намира от таблицата със стойностите на локалната функция на Лаплас за съответната стойност на нормализираното отклонение (t)

ЗаVIколони на таблица:

Критерият за доброта на годността е тестът за значимост, използван за тестване на хипотезата относно закона за разпределение на общата популация, от която е взета пробата.

Най-често изследователят се интересува от това дали разпределението на експерименталните данни отговаря на нормалния закон. Следователно примерите ще бъдат свързани с проверка на експерименталното разпределение за нормалност.

  • Критерий на Шапиро-Уилки
  • Тест хи-квадрат
  • Ламбда критерий на Колмогоров-Смирнов

КРИТЕРИЙЪТ ШАПИРО-УИЛКИ

Условия за приложение: малък размер на пробата

H 0 - разпределението на генералната съвкупност, от която се получава извадката от съвкупността, отговаря на нормалния закон.

H 1 - разпределението на генералната съвкупност, от която е получена извадката от съвкупността, не отговаря на нормалния закон.

Таблица 1 - Алгоритъм за изчисляване на критерия на Шапиро-Уилк.

ххΔkканкankΔk
1 2 3 4 5 6 7
1 11,8 13,8 2 1 0,5739 1,1478
2 12 13,2 1,2 2 0,3291 0,39492
3 12,1 13 0,9 3 0,2141 0,19269
4 12,3 12,8 0,5 4 0,1224 0,0612
5 12,6 12,6 0 5 0,0399 0
6 12,6 12,6
7 12,8 12,3 Сума \u003d b \u003d 17966
8 13 12,1
9 13,2 12
10 13,8 11,8

Процедурата за изчисляване на критерия Shapiro-Wilk

  1. Формулираме хипотезата H 0 за съответствието на разпределението на генералната съвкупност, от която са получени данните на нормалния закон. Присвояваме ниво на значимост α \u003d 0,05.
  2. Получаваме извадка от експериментални данни (колона 1 от таблица 1). В нашия случай n \u003d 10.
  3. Изчисляваме стойността на дисперсията на пробата. Например S 2 \u003d 0, 37.
  4. Класираме пробата във възходящ и низходящ ред (колони 2 и 3)
  5. Преброяваме разликите Δk (колона 5)
  6. От таблица 6 на приложението (виж В.С. Иванов, 1990) намираме стойностите на коефициентите ank (колона 6)
  7. Намерете продукта ankΔk
  8. Изчислете b \u003d сума ankΔk \u003d 1.7966
  9. Изчисляваме стойността на критерия Wf по формулата:
  1. От маса. 7 Приложение (виж В. С. Иванов, 1990) намираме критичната стойност на критерия на Шапиро-Вилк за α \u003d 0,05 Wcrit \u003d 0,842.
  2. Изход. Тъй като Wf\u003e Wcrit, можем да кажем, че експерименталните данни съответстват на нормалния закон при ниво на значимост 0,05.

КРИТЕРИЙ ЧИ-КВАДРАТ

Проектирана от Карл Пиърсън... Тя се основава на конструиране на интервал на вариационна серия и сравняване на емпирични (n em) и теоретични (n t) честоти (фиг. 1)

Фиг. 1. Хистограма, характеризираща емпиричното разпределение и функцията на вероятностната плътност на нормалното разпределение.

Статистическа хипотеза: плътността на разпределение на общата популация, от която е взета пробата, съответства на теоретичния модел на нормалното разпределение.

Стойността на действителния тест хи-квадрат се изчислява по формулата:

Ако действителната стойност на теста хи-квадрат е по-голяма или равна на критичната стойност на теста хи-квадрат, може да се заключи, че емпиричното разпределение не съответства на нормалния закон на ниво на значимост α.

ЛАМБДА КРИТЕРИЙ КОЛМОГОРОВ-СМИРНОВ

Разработено от Андрей Николаевич Колмогоров и Николай Василиевич Смирнов.

Статистическа хипотеза: функцията на разпределение на генералната съвкупност (фиг. 2), от която е взета извадката, съответства на функцията на разпределение на нормалния закон.

Фиг. 2. Червени точки - кумулативни, изградени въз основа на експериментални данни, синя крива - теоретична функция на разпределение (нормално разпределение).

Стойността на критерия λ f се изчислява по формулата:

Заключение: ако λ f\u003e λ крит - емпирично разпределение не отговаря на нормалното на ниво на значимост α.

ЛИТЕРАТУРА

  1. Висша математика и математическа статистика: учебник за университети / Изд. изд. Г. И. Попов. - М. Физическа култура, 2007. - 368 с.
  2. Основи на математическата статистика: Учебник за Институт по физика. култ / Изд. СРЕЩУ. Иванова. - Москва: Физическа култура и спорт, 1990.176 с.

Тъй като всички предположения за същността на дадено разпределение са хипотези, а не категорични твърдения, те, разбира се, трябва да бъдат подложени на статистически тестове, използвайки така наречените тестове за доброта на годността.

Критериите за доброта на годност, основани на установения закон за разпределение, позволяват да се установи кога несъответствията между теоретичните и емпиричните честоти трябва да бъдат признати като незначителни (случайни) и кога - значителни (неслучайни). По този начин критериите за доброта на годността позволяват да се отхвърли или потвърди верността на хипотезата, изложена при подравняване на серията

за същността на разпределението в емпиричните редове и да даде отговор дали е възможно да се приеме за дадено емпирично разпределение модел, изразен от някакъв теоретичен закон за разпределение.

Съществуват редица критерии за съгласие. По-често от други се използват критериите на Пиърсън, Романовски и Колмогоров. Нека ги разгледаме.

Тестът за доброта на пригодност на Пиърсън% 2 (хи-квадрат) е един от основните тестове за пригодност. Критерият е предложен от английския математик Карл Пиърсън (1857-1936) за оценка на случайността (значимостта) на несъответствията между честотите на емпиричното и теоретичното разпределение. Критерий на Пиърсън, където k

броят на групите, на които е разделено емпиричното разпределение;

наблюдаваната честота на характеристиката в i-тата група; теоретична честота, изчислена от предполагаемото разпределение. За разпределението на y) се съставят таблици, което показва критичната стойност на критерия за съгласие% 2 за избраното ниво на значимост a и даден брой степени на свобода V (виж Приложение 4).

Ниво на значимост а е вероятността за грешно отхвърляне на предложената хипотеза, т.е. вероятността да бъде отхвърлена правилна хипотеза. В статистическите изследвания в зависимост от важността и отговорността на решаваните задачи се използват следните три нива на значимост: 1)

a \u003d 0,10, тогава P \u003d 0,90; 2)

a \u003d 0,05, тогава P \u003d 0,95; 3)

a \u003d 0,01, тогава P \u003d 0,99.

Например, вероятност от 0,01 означава, че правилната хипотеза може да бъде отхвърлена в един случай от 100. В икономическите изследвания вероятността за грешка от 0,05 се счита за практически приемлива, т.е. в 5 случая от 100, правилната хипотеза може да бъде отхвърлена.

В допълнение, критерият% 2, определен от таблицата, също зависи от броя на степени на свобода. Броят на степените на свобода V се дефинира като броя на групите в разпределителната серия k минус броя на връзките с V

Броят на връзките се разбира като брой индикатори от емпиричната серия, използвани при изчисляване на теоретичните честоти, т.е. индикатори, свързващи емпирични и теоретични

честоти

Така че, в случай на подравняване по нормалната крива на разпределение, има три връзки:

x ~ x "" SU \u003d a "* x W \u003d Y

EMF theor 'EMF TheOr\u003e ^ 1EMP ^ / theor *

Следователно, когато се подравнява по нормалната крива на разпределение, броят на степени на свобода се определя като V \u003d k - 3, където k е броят на групите в реда.

В случай на подравняване по кривата на Поасон, V \u003d k - 2, тъй като при конструирането на честоти се използват две ограничаващи ограничения: x, 1tr /

За да се оцени съществеността, изчислената стойност на% 2 изчислена се сравнява с табличната% 2tab.

Ако теоретичното и емпиричното разпределение напълно съвпадат,% 2 \u003d 0, в противен случай% 2\u003e 0.

Ако Xcalc\u003e Xtabl 'T0 ЗА дадено ниво на значимост a и броя на степени на свобода V, ние отхвърляме хипотезата, че несъответствията са незначителни (случайни).

Ако% 2acc ^ X2tabL 'заключаваме, че емпиричната редица е в добро съгласие с хипотезата за предполагаемото разпределение и с вероятност (1 - а) може да се твърди, че несъответствието между теоретичната и емпиричната честота е случайно.

Използвайки критерия за съгласие? 2, трябва да бъдат изпълнени следните условия: 1)

обемът на изследваната популация трябва да бъде достатъчно голям (UU\u003e 50), докато честотата или размерът на всяка група трябва да бъде поне 5.

Ако това условие е нарушено, е необходимо първо да се комбинират малките честоти; 2)

емпиричното разпределение трябва да се състои от данни, получени от случаен подбор, т.е. те трябва да са независими.

Ако в емпиричната серия разпределението се дава от честотите / \\ m.

тогава y) трябва да се изчисли по формулата

Критерият Романовски Kp се основава на критерия на Пиърсън% 2, т.е. вече намерени стойности% 2 и броя на степени на свобода v:

Това е доста удобно при липса на таблици за% 2.

Ако Kr 3, тогава не е случаен

и съответно теоретичното разпределение не може да служи като модел за изследваното емпирично разпределение.

Критерият X на Колмогоров се основава на определяне на максималното несъответствие между натрупаните честоти или честоти на емпирични и теоретични разпределения:

X \u003d -2 \u003d или X \u003d, iN

където Dud е максималната разлика между натрупаните честоти (F - F ") и между натрупаните

nym честоти (p - p ") на емпирични и теоретични серии от разпределения;

N е броят на единиците в съвкупността.

След изчисляване на стойността на X, съгласно таблица P (k) (виж приложение 6) се определя вероятността, с която може да се твърди, че отклоненията на емпиричните честоти от теоретичните са случайни. Вероятността P (k) може да варира от 0 до 1. Когато P (k) \u003d 1 има пълно съвпадение на честотите, когато P (k) \u003d 0 - пълно отклонение. Ако A, приема стойности до 0,3, тогава P (k) \u003d 1.

Основното условие за използване на критерия на Колмогоров е достатъчно голям брой наблюдения.

Пример. Използване на данните в таблица. 5.17, за да се провери правилността на изложената хипотеза за разпределението на новобранците в района съгласно закона за нормалното разпределение. Стойностите, необходими за изчисляване на критериите за добро съответствие са дадени в таблица. 5.19.

Таблица 5.19

Изчисляване на величини за определяне на критериите за съгласие на Pearson x2 и Kolmogorov X Височина, cm Честоти на разпределителните серии (/ n - t ") 2 t" FF "cr, \\ t" A 1 2 3 4 5 6 156-160 8 5 1, 8 8 5 3 161-165 17 16 0,1 25 21 4 166-170 42 40 0,1 67 61 6 171-175 54 65 1,9 121 126 5 176-180 73 73 0 194 199 5 181-185 57 57 0 251 256 5 186-190 38 30 2,1 289 286 3 191-195 11 11 0 300 297 3 X 300 297 6,0 Първо, изчислете критерия на Пиърсън

След това избираме ниво на значимост a \u003d 0,05 и определяме броя на степени на свобода V. В това разпределение има 8 групи и броят на връзките (параметрите) е 3, следователно, V \u003d 8 - 3 \u003d 5. Според таблица в Приложение 4, намираме при a \u003d 0, 05 и V \u003d 5 Тестът на Пиърсън% 2 \u003d 11.07.

Тъй като% 2 изчислен, нека проверим изложената хипотеза, използвайки теста на Романовски:

I X2 - V I 16.0 - 5 I 1

cr \u003d] G \u003d ^ \u003d 1 \u003d --r \u003d 0,3.

Тъй като критерият Cr Romanovsky също потвърждава, че несъответствията между емпиричните и теоретичните честоти са незначителни.

Нека сега разгледаме приложението на критерия Колмогоров А,. Както можете да видите от таблицата. 5.19, максималната разлика между кумулативните честоти е 6, т.е. B \u003d шах! / 1 - P "\\ \u003d 6. Следователно критерият на Колмогоров

X \u003d -? \u003d \u003d \u003d 0,35.

Съгласно таблицата в Приложение 6, намираме стойността на вероятността при X \u003d 0,35: P (X) \u003d 0,9997. Това означава, че с вероятност, близка до единица, може да се твърди, че хипотезата за нормално разпределение не се отхвърля и несъответствията между емпиричното и теоретичното разпределение са случайни.

Сега, след като потвърдихме верността на изложената хипотеза, използвайки добре познатите критерии за доброта на годността, можем да използваме резултатите от разпределението за практически дейности.

Пример. Използване на данните в таблица. 5.18, проверете хипотезата за подчинението на разпределението на броя на неизправностите в автомобилите на закона на Поасон.

Първоначалните данни и изчисляването на стойностите, необходими за определяне на критериите за добро състояние, са дадени в таблица. 5.20.

Нека изчислим стойността% 2: 2

Dfasch ^ / 9

(виж таблица 5.20). xXtabl \u003d 9\u003e 49

(виж Приложение 4).

Тъй като% 2 изчислява По този начин хипотезата за разпределението на броя на неизправностите в автомобилите съгласно закона на Поасон не се отхвърля.

Чрез обработка на независими измервания на случайна променлива ξ, можем да изградим статистическа функция за разпределение F * (x). Под формата на тази функция може да се приеме хипотезата, че истинската теоретична функция на разпределение е F (x). Самите независими измервания (x 1, x 2, ..., x n), образуващи извадката, могат да се разглеждат като еднакво разпределени случайни променливи с хипотетична функция на разпределение F (x).

Очевидно ще има някои несъответствия между функциите F * (x) и F (x). Възниква въпросът - дали тези несъответствия са следствие от ограничения размер на извадката или са свързани с факта, че нашата хипотеза не е вярна, т.е. реалната функция на разпределение не е F (x), а някаква друга. За да разрешите този проблем, използвайте критериите за съгласие, чиято същност е следната. Избира се определена стойност Δ (F, F *), която характеризира степента на несъответствие между функциите F * (x) и F (x). Например, Δ (F, F *) \u003d Sup | F (x) -F * (x) |, т.е. горната граница в х на модула на разликата.

Считайки хипотезата за правилна, т.е. познавайки функцията за разпределение F (x), можем да намерим закона за разпределение на случайната променлива Δ (F, F *) (няма да засегнем въпроса как да направим това). Нека зададем числото p 0 толкова малко, че събитието (Δ (F, F *)\u003e Δ 0) с тази вероятност ще се счита за практически невъзможно. От състоянието

намерете стойността Δ 0. Тук f (x) е плътността на разпределение Δ (F, F *).

Сега изчисляваме стойността Δ (F, F *) \u003d Δ 1 според резултатите

вземане на проби, т.е. намерете една от възможните стойности на случайната променлива Δ (F, F *). Ако Δ 1 ≥ Δ 0, това означава, че е настъпило почти невъзможно събитие. Това може да се обясни с факта, че нашата хипотеза не е вярна. Така че, ако Δ 1 ≥ Δ 0, тогава хипотезата се отхвърля, а за Δ 1<Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

Различни количества могат да бъдат взети като мярка за несъответствието Δ (F, F *). В зависимост от това се получават различни критерии за съгласие. Например тестът за доброта на годността на Колмогоров, Мизес, Пиърсън или тестът хи-квадрат.

Нека резултатите от n измервания бъдат представени под формата на групирани статистически редове с k цифри.

DISCHARGE (x 0, x 1) (всъщност приемаме, че грешките в измерването са равномерно разпределени по някакъв сегмент). Тогава вероятността да ударите всяка от седемте цифри ще бъде. Използвайки групираните серии от §11, изчисляваме Δ (F, F *) \u003d Δ 1 \u003d по формула (1). В такъв случай .

Тъй като хипотетичният закон за разпределение включва два неизвестни параметъра, α и β са началото и краят на сегмента, броят на градусите на свобода ще бъде 7-1-2 \u003d 4. Според таблицата за разпределение хи-квадрат, с избраната вероятност p 0 \u003d 10 -3, намираме Δ 0 \u003d 18. Защото Δ 1\u003e Δ 0, тогава хипотезата за равномерно разпределение на грешката при измерване ще трябва да бъде отхвърлена.

Нула (основно) се нарича изложена хипотеза за формата на неизвестно разпределение или за параметрите на известните разпределения. Състезаващите се (алтернатива) се нарича хипотеза, която противоречи на нулата.

Например, ако нулевата хипотеза се състои в предположението, че случайната променлива х се разпределя съгласно закона, тогава конкурентната хипотеза може да се състои в предположението, че случайната променлива х разпределени съгласно различен закон.

Статистически критерий (или просто критерий) се нарича някаква случайна променлива ДА СЕ, който служи за проверка на нулевата хипотеза.

След избора на определен критерий, например критерий, множеството от всички негови възможни стойности се разделя на две несъединени подмножества: едната от тях съдържа стойностите на критерия, за която нулевата хипотеза е отхвърлена, а другата за което е прието.

Критична област е наборът от стойности на критерия, при който нулевата хипотеза се отхвърля. Областта на приемане на хипотезата извиква се наборът от стойности на критерия, при който се приема хипотезата. Критични точки са точките, разделящи критичния регион от региона на приемане на нулевата хипотеза.

За нашия пример, когато стойността, стойността, изчислена от извадката, съответства на областта на приемане на хипотезата: случайната променлива се разпределя съгласно закона. Ако изчислената стойност, тогава тя попада в критичния регион, т.е. хипотезата за разпределението на случайната променлива според закона се отхвърля.

В случай на разпределение, критичната област се определя от неравенството, а областта на приемане на нулевата хипотеза се определя от неравенството.

2.6.3. Критерий за съгласие Пиърсън.

Една от задачите на зоотехниката и ветеринарната генетика е да развива нови породи и видове с необходимите характеристики. Например, повишен имунитет, устойчивост на болести или обезцветяване на козината.

На практика при анализ на резултатите често се оказва, че действителните резултати в по-голяма или по-малка степен съответстват на някакъв теоретичен закон за разпределение. Необходимо е да се оцени степента на съответствие между действителните (емпирични) данни и теоретичните (хипотетични). За да направите това, изложете нулева хипотеза: получената популация се разпределя съгласно закона "А". Хипотезата за приетия закон за разпределение се тества с помощта на специално избрана случайна величина - тестът за доброта на годни.

Критерият за съгласиесе нарича критерий за проверка на хипотезата за приетия закон на неизвестното разпределение.

Има няколко критерия за съгласие: Пиърсън, Колмогоров, Смирнов и др. Най-често се използва тестът за добро състояние на Pearson.

Нека разгледаме прилагането на критерия на Пиърсън на примера за тестване на хипотезата за нормалното разпределение на общата популация. За тази цел ще сравним емпиричните и теоретичните (изчислени в продължение на нормалното разпределение) честоти.

Обикновено има известна разлика между теоретичните и емпиричните честоти. например:

Емпирични честоти 7 15 41 93 113 84 25 13 5

Теоретични честоти 5 13 36 89 114 91 29 14 6

Помислете за два случая:

Несъответствието между теоретичните и емпиричните честоти е случайно (незначително), т.е. можете да направите предложение за разпределение на емпирични честоти според нормалния закон;

Разминаването между теоретичните и емпиричните честоти не е случайно (значимо), т.е. теоретичните честоти се изчисляват въз основа на неправилната хипотеза за нормалното разпределение на общата популация.

Използвайки критерия за добра годност на Пиърсън, е възможно да се определи случайно или несъответствието между теоретичните и емпиричните честоти, т.е. с дадено ниво на доверие, определете дали общото население е разпределено според нормалния закон или не.

И така, нека се получи емпирично разпределение за извадка с размер n:

Настроики ……

Емпирични честоти ...

Нека приемем, че теоретичните честоти се изчисляват при предположението за нормално разпределение. На ниво значимост се изисква да се провери нулевата хипотеза: общата популация обикновено се разпределя.

Като критерий за тестване на нулевата хипотеза вземаме случайна променлива

(*)

Тази стойност е случайна, тъй като при различни експерименти тя приема различни, неизвестни досега стойности. Ясно е, че колкото по-малка е разликата между емпиричните и теоретичните честоти, толкова по-малка е стойността на критерия и следователно до известна степен тя характеризира близостта на емпиричното и теоретичното разпределение.

Доказано е, че при, законът за разпределение на случайна променлива (*), независимо на кой закон на разпределение се подчинява общото население, има тенденция към закон за разпределение със степени на свобода. Следователно случайната променлива (*) се обозначава чрез, а самият критерий се нарича тест за доброта на пригодност "хи-квадрат".

Нека обозначим стойността на критерия, изчислена от данните от наблюдението до. Определени са таблични критични стойности на критерия за дадено ниво на значимост и броя на степени на свобода. В този случай броят на степени на свобода се определя от равенството, където броят на групите (частични интервали) на извадката или класовете; - брой параметри на предполагаемото разпределение Нормалното разпределение има два параметъра - математическо очакване и стандартно отклонение. Следователно броят на степените на свобода за нормалното разпределение се намира от равенството

Ако изчислената стойност и стойността на таблицата удовлетворяват неравенството , приема се нулевата хипотеза за нормалното разпределение на генералната съвкупност. Ако , нулевата хипотеза се отхвърля и се приема алтернативна хипотеза (генералната съвкупност не се разпределя според нормалния закон).

Коментирайте. Когато се използва тестът за добро състояние на Pearson, размерът на извадката трябва да бъде най-малко 30. Всяка група трябва да съдържа поне 5 опции. Ако в групите има по-малко от 5 честоти, те се комбинират със съседни групи.

В общия случай броят на градусите на свобода за разпределението хи-квадрат се определя като общия брой величини, за които се изчисляват съответните показатели, минус броя на условията, които свързват тези величини, т.е. намаляване на възможността за вариация между тях. В най-простите случаи при изчисляване броят на степени на свобода ще бъде равен на броя на класовете, намален с един. Така например, при дихибридно разцепване се получават 4 класа, но само първият клас се получава несвързан, следващите вече са свързани с предишните. Следователно, за дихибридно разделяне, броят на степени на свобода.

Пример 1. Определете степента на съответствие на действителното разпределение на групите по броя на кравите с туберкулоза с теоретично очакваното, което е изчислено при разглеждане на нормалното разпределение. Първоначалните данни са обобщени в таблицата:

Решение.

По нивото на значимост и броя на степените на свобода от таблицата на критичните точки на разпределение (виж Приложение 4) намираме стойността ... Защото , може да се заключи, че разликата между теоретичните и действителните честоти е случайна. Така реалното разпределение на групите според броя на кравите с туберкулоза съответства на теоретично очакваното.

Пример 2. Теоретичното разпределение на фенотипа на индивиди, получени във второто поколение чрез дихибридно кръстосване на зайци съгласно закона на Мендел е 9: 3: 3: 1. Необходимо е да се изчисли съответствието на емпиричното разпределение на зайци от кръстосване на черни индивиди с нормална коса с пухкави животни - албиноси. При кръстосване във второто поколение са получени 120 потомци, включително 45 черни с къса коса, 30 черни пухени, 25 бели с къса коса, 20 бели пухкави зайци.

Решение. Теоретично очакваното разделяне на потомството трябва да съответства на съотношението на четирите фенотипа (9: 3: 3: 1). Нека изчислим теоретичните честоти (брой глави) за всеки клас:

9 + 3 + 3 + 1 \u003d 16, така че можете да очаквате да са черни късокосмести ; черен пух - ; бяла късокосместа - ; бял пух -.

Емпиричното (действително) разпределение на фенотипа е както следва 45; тридесет; 25; 20.

Нека обобщим всички тези данни в следната таблица:

Използвайки теста за пригодност на Pearson, ние изчисляваме стойността:

Броят на степените на свобода при дихибридно пресичане. За ниво на значимост намерете стойността ... Защото , може да се заключи, че разликата между теоретичните и действителните честоти не е случайна. Следователно получената група зайци се отклонява в разпределението на фенотипите от закона на Мендел по време на дихибридно кръстосване и отразява влиянието на някои фактори, които променят типа на разцепване на фенотипа във второто поколение хибриди.

Тестът за приспособяване на хипер-квадрат на Pearson може да се използва и за сравняване на две хомогенни емпирични разпределения помежду си, т.е. тези, които споделят едни и същи граници на класа. Хипотезата за равенство на две неизвестни функции на разпределение се приема за нулева хипотеза. Критерият хи-квадрат в такива случаи се определя от формулата

(**)

къде и са обемите на сравнените разпределения; и - честотите на съответните класове.

Помислете за сравнение на две емпирични разпределения в следващия пример.

Пример 3. Дължината на яйцата с кукувица е измерена в две териториални зони. В първата зона беше изследвана проба от 76 яйца (), във втората - от 54 (). Получени са следните резултати:

Дължина (mm)
Честоти
Честоти - - -

На ниво значимост се изисква да се провери нулевата хипотеза, че и двете проби от яйца принадлежат към една и съща кукувична популация.

Подобни статии

2021 г. rookame.ru. Строителен портал.