Il concetto di criteri di consenso. Criterio di consenso Il criterio di consenso è

Quando si analizzano le serie di variazioni di distribuzione, è di grande importanza quanto distribuzione empirica caratteristica corrisponde normale... Per questo, le frequenze della distribuzione effettiva devono essere confrontate con quelle teoriche, che sono caratteristiche della distribuzione normale. Ciò significa che è necessario calcolare le frequenze teoriche della curva di distribuzione normale dai dati effettivi, che sono una funzione delle deviazioni normalizzate.

In altre parole, la curva di distribuzione empirica deve essere allineata con la curva di distribuzione normale.

Caratterizzazione oggettiva della compliance teorico e empirico frequenze può essere ottenuto utilizzando indicatori statistici speciali, che vengono chiamati criteri di consenso.

Il criterio del consenso chiamato il criterio che consente di stabilire se la discrepanza empirico e teorico le distribuzioni sono casuali o significative, ovvero se i dati osservativi concordano o meno con l'ipotesi statistica proposta. La distribuzione della popolazione generale, che ha a causa dell'ipotesi avanzata, si chiama teorica.

Diventa necessario stabilire criterio (una regola) che consentirebbe di giudicare se la discrepanza tra le distribuzioni empiriche e teoriche è casuale o significativa. Se la discrepanza risulta essere casuale, quindi considerare che i dati osservativi (campione) sono coerenti con l'ipotesi avanzata sulla legge di distribuzione della popolazione generale e, quindi, l'ipotesi è accettata; se la discrepanza risulta essere significativo, quindi i dati osservativi non concordano con l'ipotesi e la respingono.

Di solito le frequenze empiriche e teoriche differiscono per il fatto che:

  • la discrepanza è accidentale e associata a un numero limitato di osservazioni;
  • la discrepanza non è casuale ed è spiegata dal fatto che l'ipotesi statistica che la popolazione generale sia normalmente distribuita è errata.

Quindi, criteri di consenso consentono di rifiutare o confermare la correttezza dell'ipotesi sulla natura della distribuzione nelle serie empiriche proposte al momento dell'allineamento delle serie.

Frequenze empiriche ottenuto come risultato dell'osservazione. Frequenze teoriche calcolato dalle formule.

Per diritto della distribuzione normale possono essere trovati come segue:

  • Σƒ i - somma delle frequenze empiriche accumulate (cumulative)
  • h - la differenza tra due opzioni adiacenti
  • σ - deviazione standard del campione
  • t - deviazione normalizzata (standardizzata)
  • φ (t) è la funzione di densità di probabilità della distribuzione normale (trovata da per il valore corrispondente di t)

Esistono diversi test di bontà di adattamento, i più comuni dei quali sono: il test chi-quadrato (Pearson), il test di Kolmogorov e il test di Romanovsky.

Il test della bontà di adattamento di Pearson χ 2 - uno dei principali, che può essere rappresentato come la somma dei rapporti delle discrepanze al quadrato tra frequenze teoriche (f T) ed empiriche (f) rispetto alle frequenze teoriche:

  • k è il numero di gruppi in cui è suddivisa la distribuzione empirica,
  • f i - la frequenza osservata del tratto nell'i-esimo gruppo,
  • f T –Frequenza teorica.

Per la distribuzione di χ 2, vengono compilate tabelle, dove il valore critico del criterio di accordo χ 2 è indicato per il livello di significatività selezionato α e gradi di libertà df (o ν).
Il livello di significatività α è la probabilità di rigetto errato dell'ipotesi proposta, ad es. la probabilità che un'ipotesi corretta venga rifiutata. R - validità statistica accettazione dell'ipotesi corretta. Nelle statistiche, vengono utilizzati più spesso tre livelli di significatività:

α \u003d 0,10, quindi P \u003d 0,90 (in 10 casi su 100)

α \u003d 0,05, quindi P \u003d 0,95 (in 5 casi su 100)

α \u003d 0,01, quindi Р \u003d 0,99 (in 1 caso su 100) l'ipotesi corretta può essere rifiutata

Il numero di gradi di libertà df è definito come il numero di gruppi nella serie di distribuzioni meno il numero di legami: df \u003d k –z. Il numero di connessioni è inteso come il numero di indicatori delle serie empiriche utilizzate nel calcolo delle frequenze teoriche, ad es. indicatori che collegano frequenze empiriche e teoriche.Ad esempio, se allineati con una curva a campana, ci sono tre relazioni.Pertanto, durante l'allineamento acampana curva il numero di gradi di libertà è definito come df \u003d k - 3.Per valutare la materialità, il valore calcolato viene confrontato con la tabella χ 2 scheda

Con completa coincidenza delle distribuzioni teorica ed empirica χ 2 \u003d 0, altrimenti χ 2\u003e 0. Se χ 2 calc\u003e χ 2 tab , quindi per un dato livello di significatività e numero di gradi di libertà, rifiutiamo l'ipotesi che le discrepanze siano insignificanti (casuali).Se viene calcolato χ 2< χ 2 табл то accettiamo l'ipotesi e con la probabilità Р \u003d (1-α) si può sostenere che la discrepanza tra le frequenze teoriche ed empiriche è accidentale. Pertanto, c'è motivo di credere che la distribuzione empirica obbedisca distribuzione normale. Il test di bontà di adattamento di Pearson viene utilizzato se la dimensione della popolazione è abbastanza grande (N\u003e 50), mentre la frequenza di ciascun gruppo dovrebbe essere almeno 5.

Sulla base della determinazione della discrepanza massima tra le frequenze empiriche e teoriche accumulate:

dove D e d sono, rispettivamente, la differenza massima tra le frequenze accumulate e le frequenze accumulate delle distribuzioni empiriche e teoriche.
Secondo la tabella di distribuzione delle statistiche di Kolmogorov, viene determinata la probabilità, che può variare da 0 a 1. Quando P (λ) \u003d 1, c'è una completa coincidenza di frequenze, P (λ) \u003d 0 - una divergenza completa. Se il valore della probabilità P è significativo in relazione al valore trovato di λ, allora si può presumere che le discrepanze tra le distribuzioni teoriche ed empiriche siano insignificanti, cioè di natura casuale.
La condizione principale per l'utilizzo del criterio di Kolmogorov è un numero sufficientemente elevato di osservazioni.

Test di bontà di Kolmogorov

Consideriamo come si applica il criterio di Kolmogorov (λ) verifica dell'ipotesi di distribuzione normale popolazione generale.L'allineamento della distribuzione effettiva con la curva a campana consiste in diversi passaggi:

  1. Confronta le frequenze reali e teoriche.
  2. I dati effettivi determinano le frequenze teoriche della curva di distribuzione normale, che è una funzione della deviazione normalizzata.
  3. Verificare quanto la distribuzione della caratteristica corrisponde a quella normale.

PerIVcolonne della tabella:

In MS Excel, la deviazione normalizzata (t) viene calcolata utilizzando la funzione NORMALIZZAZIONE. È necessario selezionare un intervallo di celle libere in base al numero di opzioni (righe del foglio di calcolo). Senza rimuovere la selezione, chiamare la funzione NORMALIZZAZIONE. Nella finestra di dialogo che appare, specificare le seguenti celle, in cui si trovano rispettivamente i valori osservati (X i), media (X) e deviazione standard standard. L'operazione deve essere completata simultanea premendo Ctrl + Maiusc + Invio

PerVcolonne della tabella:

La funzione di densità di probabilità della distribuzione normale φ (t) si trova dalla tabella dei valori della funzione locale di Laplace per il valore corrispondente della deviazione normalizzata (t)

PerVIcolonne della tabella:

Il criterio di bontà di adattamento è il test di significatività utilizzato per testare l'ipotesi sulla legge di distribuzione della popolazione generale da cui è tratto il campione.

Molto spesso, il ricercatore è interessato a sapere se la distribuzione dei dati sperimentali corrisponde alla legge normale. Pertanto, gli esempi saranno relativi al controllo della normalità della distribuzione sperimentale.

  • Criterio di Shapiro-Wilkie
  • Test chi quadrato
  • Criterio lambda di Kolmogorov-Smirnov

IL CRITERIO SHAPIRO-WILKIE

Condizioni di applicazione: campione di piccole dimensioni

H 0 - la distribuzione della popolazione generale da cui si ottiene il campione della popolazione corrisponde alla legge normale.

H 1 - la distribuzione della popolazione generale da cui è stato ottenuto il campione della popolazione non corrisponde alla legge normale.

Tabella 1 - Algoritmo per il calcolo del criterio di Shapiro-Wilk.

xxΔkkankankΔk
1 2 3 4 5 6 7
1 11,8 13,8 2 1 0,5739 1,1478
2 12 13,2 1,2 2 0,3291 0,39492
3 12,1 13 0,9 3 0,2141 0,19269
4 12,3 12,8 0,5 4 0,1224 0,0612
5 12,6 12,6 0 5 0,0399 0
6 12,6 12,6
7 12,8 12,3 Somma \u003d b \u003d 17966
8 13 12,1
9 13,2 12
10 13,8 11,8

La procedura per il calcolo del criterio di Shapiro-Wilk

  1. Formuliamo l'ipotesi H 0 sulla corrispondenza della distribuzione della popolazione generale, dalla quale i dati sono stati ottenuti alla legge normale. Assegniamo il livello di significatività α \u003d 0,05.
  2. Riceviamo un campione di dati sperimentali (colonna 1 della tabella 1). Nel nostro caso, n \u003d 10.
  3. Calcoliamo il valore della varianza campionaria. Ad esempio, S 2 \u003d 0, 37.
  4. Classifichiamo il campione in ordine crescente e decrescente (colonne 2 e 3)
  5. Calcoliamo le differenze Δk (colonna 5)
  6. Dalla Tabella 6 dell'Appendice (vedi V.S. Ivanov, 1990) troviamo i valori dei coefficienti ank (colonna 6)
  7. Trova il prodotto ankΔk
  8. Calcola b \u003d somma ankΔk \u003d 1,7966
  9. Calcoliamo il valore del criterio Wf secondo la formula:
  1. Da tavola. 7 Appendice (vedi V.S. Ivanov, 1990) troviamo il valore critico del criterio di Shapiro-Wilk per α \u003d 0,05 Wcrit \u003d 0,842.
  2. Produzione. Poiché Wf\u003e Wcrit, possiamo dire che i dati sperimentali corrispondono alla legge normale a un livello di significatività di 0,05.

CRITERIO CHI-SQUARE

Progettato da Karl Pearson... Basato sulla costruzione di una serie di variazione dell'intervallo e sul confronto delle frequenze empiriche (n em) e teoriche (n t) (Fig. 1).

Fig. 1. Istogramma che caratterizza la distribuzione empirica e la funzione di densità di probabilità della distribuzione normale.

Ipotesi statistica: la densità di distribuzione della popolazione generale da cui viene prelevato il campione corrisponde al modello teorico della distribuzione normale.

Il valore del test chi quadrato effettivo viene calcolato utilizzando la formula:

Se il valore effettivo del test chi quadrato è maggiore o uguale al valore critico del test chi quadrato, si può concludere che la distribuzione empirica non corrisponde alla legge normale al livello di significatività α.

CRITERIO LAMBDA KOLMOGOROV-SMIRNOV

Sviluppato da Andrey Nikolaevich Kolmogorov e Nikolai Vasilievich Smirnov.

Ipotesi statistica: la funzione di distribuzione della popolazione generale (Fig. 2), da cui si ricava il campione, corrisponde alla funzione di distribuzione della legge normale.

Fig. 2. Punti rossi - cumulativi, costruiti sulla base di dati sperimentali, curva blu - funzione di distribuzione teorica (distribuzione normale).

Il valore del criterio λ f è calcolato dalla formula:

Conclusione: se λ f\u003e λ crit - distribuzione empirica non corrisponde al normale al livello di significatività α.

LETTERATURA

  1. Matematica superiore e statistica matematica: un libro di testo per le università / Ed. ed. G.I. Popov. - M. Cultura fisica, 2007. - 368 p.
  2. Fondamenti di statistica matematica: libro di testo per inst. Fisica. cult / Ed. V.S. Ivanova - Mosca: Cultura fisica e sport, 1990.176 p.

Poiché tutte le ipotesi sulla natura di una particolare distribuzione sono ipotesi e non affermazioni categoriche, esse, ovviamente, devono essere sottoposte a test statistici utilizzando i cosiddetti test di bontà di adattamento.

I criteri di bontà di adattamento, basati sulla legge di distribuzione stabilita, consentono di stabilire quando le discrepanze tra frequenze teoriche ed empiriche debbano essere riconosciute come insignificanti (casuali) e quando - significative (non casuali). Pertanto, i criteri di bontà di adattamento consentono di rifiutare o confermare la correttezza dell'ipotesi avanzata durante l'allineamento della serie

sulla natura della distribuzione nelle serie empiriche e dare una risposta se sia possibile accettare per una data distribuzione empirica un modello espresso da qualche legge di distribuzione teorica.

Esistono diversi criteri per il consenso. Molto spesso vengono utilizzati i criteri di Pearson, Romanovsky e Kolmogorov. Consideriamoli.

Il test di bontà di adattamento di Pearson% 2 (chi-quadrato) è uno dei principali test di bontà di adattamento. Il criterio è stato proposto dal matematico inglese Karl Pearson (1857-1936) per valutare la casualità (significatività) delle discrepanze tra le frequenze delle distribuzioni empiriche e teoriche. Il criterio di Pearson dove k

il numero di gruppi in cui è suddivisa la distribuzione empirica;

la frequenza osservata della caratteristica nell'i-esimo gruppo; frequenza teorica calcolata dalla distribuzione ipotizzata. Per la distribuzione di y), vengono compilate tabelle che indicano il valore critico del criterio di bontà di adattamento% 2 per il livello di significatività selezionato a e un dato numero di gradi di libertà V (vedi Appendice 4).

Il livello di significatività a è la probabilità di un errato rifiuto dell'ipotesi proposta, ovvero la probabilità che un'ipotesi corretta venga rifiutata. Negli studi statistici, a seconda dell'importanza e della responsabilità dei compiti da risolvere, vengono utilizzati i seguenti tre livelli di significatività: 1)

a \u003d 0,10, quindi P \u003d 0,90; 2)

a \u003d 0,05, quindi P \u003d 0,95; 3)

a \u003d 0,01, quindi P \u003d 0,99.

Ad esempio, una probabilità di 0,01 significa che l'ipotesi corretta può essere rifiutata in un caso su 100. Nella ricerca economica, la probabilità di un errore di 0,05 è considerata praticamente accettabile, ad es. in 5 casi su 100 l'ipotesi corretta può essere scartata.

Inoltre, il criterio% 2 determinato dalla tabella dipende anche dal numero di gradi di libertà. Il numero di gradi di libertà V è definito come il numero di gruppi nella serie di distribuzione k meno il numero di legami con V

Il numero di connessioni è inteso come il numero di indicatori delle serie empiriche utilizzate nel calcolo delle frequenze teoriche, ad es. indicatori di collegamento empirico e teorico

frequenze

Quindi, nel caso dell'allineamento lungo la curva di distribuzione normale, ci sono tre relazioni:

x ~ x "" SU \u003d a "* x W \u003d Y

EMF teor 'EMF TheOr\u003e ^ 1EMP ^ / teor *

Pertanto, durante l'allineamento lungo la curva di distribuzione normale, il numero di gradi di libertà è determinato come V \u003d k - 3, dove k è il numero di gruppi nella riga.

Nel caso dell'allineamento lungo la curva di Poisson, V \u003d k - 2, poiché nella costruzione delle frequenze vengono utilizzati due vincoli limitanti: x, 1tr /

Per valutare la rilevanza, il valore calcolato di% 2 calcolato viene confrontato con la tabella% 2tab.

Se le distribuzioni teoriche ed empiriche coincidono completamente,% 2 \u003d 0, altrimenti% 2\u003e 0.

Se Xcalc\u003e Xtabl 'T0 PER un dato livello di significatività ae il numero di gradi di libertà V, rifiutiamo l'ipotesi che le discrepanze siano insignificanti (casuali).

Se% 2acc ^ X2tabL 'concludiamo che la serie empirica è in buon accordo con l'ipotesi della distribuzione assunta e con la probabilità (1 - a) si può sostenere che la discrepanza tra le frequenze teoriche ed empiriche è accidentale.

Utilizzando il criterio dell'accordo? 2, devono essere soddisfatte le seguenti condizioni: 1)

il volume della popolazione studiata dovrebbe essere abbastanza grande (UU\u003e 50), mentre la frequenza o la dimensione di ciascun gruppo dovrebbe essere almeno 5.

Se questa condizione viene violata, è necessario prima combinare le piccole frequenze; 2)

la distribuzione empirica dovrebbe consistere in dati ottenuti dalla selezione casuale, ad es. devono essere indipendenti.

Se nella serie empirica la distribuzione è data dalle frequenze / \\ m.

allora y) dovrebbe essere calcolato dalla formula

Il criterio di Romanovsky Kp si basa sul criterio di Pearson% 2, ad es. valori già trovati% 2 e il numero di gradi di libertà v:

È molto utile quando non ci sono tabelle per% 2.

Se Kr 3, quindi non casuale

e, di conseguenza, la distribuzione teorica non può servire da modello per la distribuzione empirica studiata.

Il criterio X di Kolmogorov si basa sulla determinazione della discrepanza massima tra le frequenze accumulate o le frequenze delle distribuzioni empiriche e teoriche:

X \u003d -2 \u003d o X \u003d, iN

dove Dud è la differenza massima tra le frequenze accumulate (F - F ") e tra le frequenze accumulate

nym frequenze (p - p ") di serie di distribuzioni empiriche e teoriche;

N è il numero di unità nell'aggregato.

Dopo aver calcolato il valore di X, secondo la tabella P (k) (vedi Appendice 6), determinare la probabilità con cui si può affermare che le deviazioni delle frequenze empiriche da quelle teoriche sono casuali. La probabilità P (k) può variare da 0 a 1. Quando P (k) \u003d 1 c'è una coincidenza completa di frequenze, quando P (k) \u003d 0 - una divergenza completa. Se A, assume valori fino a 0,3, allora P (k) \u003d 1.

La condizione principale per utilizzare il criterio di Kolmogorov è un numero sufficientemente elevato di osservazioni.

Esempio. Utilizzando i dati nella tabella. 5.17, verificare la correttezza dell'ipotesi avanzata sulla ripartizione delle reclute sul territorio secondo la legge della distribuzione normale. I valori richiesti per il calcolo dei criteri di bontà di adattamento sono riportati in tabella. 5.19.

Tabella 5.19

Calcolo delle quantità per determinare i criteri di concordanza di Pearson x2 e Kolmogorov X Altezza, cm Frequenze della serie di distribuzione (/ n - t ") 2 t" FF "cr, \\ t" A 1 2 3 4 5 6 156-160 8 5 1, 8 8 5 3161-165 17 16 0,1 25 21 4166-170 42 40 0,1 67 61 6171-175 54 65 1,9 121 126 5176-180 73 73 0194199 5181-185 57 57 0 251 256 5186-190 38 30 2,1 289286 3191-195 11 11 0300297 3 X 300297 6,0 Innanzitutto, calcola il criterio di Pearson

Quindi scegliamo il livello di significatività a \u003d 0,05 e determiniamo il numero di gradi di libertà V. In questa distribuzione ci sono 8 gruppi e il numero di collegamenti (parametri) è 3, quindi, V \u003d 8 - 3 \u003d 5. Secondo il nell'Appendice 4, troviamo per a \u003d 0, 05 e V \u003d 5 Test di Pearson% 2 \u003d 11.07.

Dato che% 2calculated Controlliamo l'ipotesi avanzata usando il test Romanovsky:

I X2 - V I 16,0 - 5 I 1

cr \u003d] G \u003d ^ \u003d 1 \u003d --r \u003d 0,3.

Poiché il criterio Kp Romanovsky conferma anche che le discrepanze tra le frequenze empiriche e teoriche sono insignificanti.

Consideriamo ora l'applicazione del criterio di Kolmogorov A,. Come puoi vedere dalla tabella. 5.19, la differenza massima tra le frequenze cumulative è 6, ad es. B \u003d shah! / 1 - P "\\ \u003d 6. Pertanto, il criterio di Kolmogorov

X \u003d -? \u003d \u003d \u003d 0,35.

Secondo la tabella nell'Appendice 6, troviamo il valore di probabilità in X \u003d 0,35: P (X) \u003d 0,9997. Ciò significa che con una probabilità prossima all'unità, si può sostenere che l'ipotesi di una distribuzione normale non viene rifiutata e le discrepanze tra la distribuzione empirica e quella teorica sono casuali.

Ora, avendo confermato la correttezza dell'ipotesi avanzata utilizzando i ben noti criteri di bontà di adattamento, possiamo utilizzare i risultati della distribuzione per attività pratiche.

Esempio. Utilizzando i dati nella tabella. 5.18, testare l'ipotesi sulla subordinazione della distribuzione del numero di guasti nelle auto alla legge di Poisson.

In tabella sono riportati i dati iniziali e il calcolo dei valori necessari per determinare i criteri di bontà di adattamento. 5.20.

Calcoliamo il valore% 2: 2

Dfasch ^ / 9

(vedi tabella 5.20). xXtabl \u003d 9\u003e 49

(vedi Appendice 4).

Poiché% 2calculated Così, l'ipotesi sulla distribuzione del numero di guasti nelle auto secondo la legge di Poisson non è respinta.

Elaborando misurazioni indipendenti di una variabile casuale ξ, possiamo costruire una funzione di distribuzione statistica F * (x). Dalla forma di questa funzione, si può accettare l'ipotesi che la vera funzione di distribuzione teorica sia F (x). Le misurazioni indipendenti stesse (x 1, x 2, ..., x n), che formano il campione, possono essere considerate come variabili casuali distribuite in modo identico con una funzione di distribuzione ipotetica F (x).

Ovviamente, ci saranno alcune discrepanze tra le funzioni F * (x) e F (x). La domanda sorge spontanea: queste discrepanze sono una conseguenza della dimensione limitata del campione o sono legate al fatto che la nostra ipotesi non è vera, ad es. la funzione di distribuzione reale non è F (x), ma un'altra. Per risolvere questo problema, utilizzare i criteri di consenso, la cui essenza è la seguente. Viene selezionato un determinato valore Δ (F, F *), che caratterizza il grado di discrepanza tra le funzioni F * (x) e F (x). Ad esempio, Δ (F, F *) \u003d Sup | F (x) -F * (x) |, i.e. il limite superiore in x del modulo della differenza.

Considerando l'ipotesi corretta, ad es. conoscendo la funzione di distribuzione F (x), possiamo trovare la legge di distribuzione della variabile casuale Δ (F, F *) (non toccheremo la questione di come fare questo). Poniamo il numero p 0 così piccolo che l'evento (Δ (F, F *)\u003e Δ 0) con questa probabilità sarà considerato praticamente impossibile. Dalla condizione

trova il valore Δ 0. Qui f (x) è la densità di distribuzione Δ (F, F *).

Calcoliamo ora il valore Δ (F, F *) \u003d Δ 1 in base ai risultati

campionamento, ad es. trova uno dei possibili valori della variabile casuale Δ (F, F *). Se Δ 1 ≥ Δ 0, significa che si è verificato un evento quasi impossibile. Ciò può essere spiegato dal fatto che la nostra ipotesi non è corretta. Quindi, se Δ 1 ≥ Δ 0, l'ipotesi viene rifiutata e per Δ 1<Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

Quantità diverse possono essere prese come misura della discrepanza Δ (F, F *). A seconda di ciò, si ottengono diversi criteri di accordo. Ad esempio, il test di bontà di adattamento di Kolmogorov, Mises, Pearson o il test chi quadrato.

Si presentino i risultati di n misurazioni sotto forma di una serie statistica raggruppata con k cifre.

SCARICA (x 0, x 1) (infatti, assumiamo che gli errori di misura siano distribuiti uniformemente su qualche segmento). Quindi la probabilità di colpire ciascuna delle sette cifre sarà. Usando le serie raggruppate di §11, calcoliamo Δ (F, F *) \u003d Δ 1 \u003d con la formula (1). In questo caso .

Poiché la legge di distribuzione ipotetica include due parametri sconosciuti, α e β sono l'inizio e la fine del segmento, il numero di gradi di libertà sarà 7-1-2 \u003d 4. Secondo la tabella di distribuzione del chi quadrato, con la probabilità scelta p 0 \u003d 10-3, troviamo Δ 0 \u003d 18. Perché Δ 1\u003e Δ 0, allora l'ipotesi di una distribuzione uniforme dell'errore di misura dovrà essere scartata.

Nullo (principale) è chiamata l'ipotesi avanzata sulla forma di una distribuzione sconosciuta, o sui parametri di distribuzioni note. La competizione (alternativa) è chiamata ipotesi che contraddice il nulla.

Ad esempio, se l'ipotesi nulla consiste nell'assunzione che la variabile casuale X è distribuito secondo la legge, quindi l'ipotesi concorrente può consistere nell'assunzione che la variabile casuale X distribuito secondo una legge diversa.

Criterio statistico (o semplicemente criterio) chiama una variabile casuale PER, che serve a verificare l'ipotesi nulla.

Dopo aver scelto un certo criterio, ad esempio un criterio, l'insieme di tutti i suoi possibili valori viene diviso in due sottoinsiemi non intersecanti: uno di essi contiene i valori del criterio per il quale l'ipotesi nulla viene rifiutata, e l'altro per il quale è accettato.

Area critica è l'insieme dei valori del criterio in base al quale l'ipotesi nulla viene rifiutata. L'area di accettazione dell'ipotesi chiamato l'insieme dei valori del criterio in base al quale l'ipotesi è accettata. Punti critici sono i punti che separano la regione critica dalla regione di accettazione dell'ipotesi nulla.

Per il nostro esempio, quando il valore, il valore calcolato dal campione corrisponde all'area di accettazione dell'ipotesi: la variabile casuale è distribuita secondo la legge. Se il valore calcolato, allora cade nella regione critica, cioè, l'ipotesi della distribuzione della variabile casuale secondo la legge viene rifiutata.

Nel caso della distribuzione, la regione critica è determinata dalla disuguaglianza e la regione di accettazione dell'ipotesi nulla è determinata dalla disuguaglianza.

2.6.3. Criterio di consenso Pearson.

Uno dei compiti della zootecnia e della genetica veterinaria è sviluppare nuove razze e specie con le caratteristiche richieste. Ad esempio, maggiore immunità, resistenza alle malattie o scolorimento del pelo.

In pratica, quando si analizzano i risultati, si scopre spesso che i risultati effettivi in \u200b\u200bmisura maggiore o minore corrispondono a una legge di distribuzione teorica. Diventa necessario valutare il grado di corrispondenza tra i dati effettivi (empirici) e quelli teorici (ipotetici). Per fare ciò, avanzare un'ipotesi nulla: la popolazione risultante è distribuita secondo la legge "A". L'ipotesi sulla legge di distribuzione presunta viene verificata utilizzando una variabile casuale appositamente selezionata: la bontà del fit test.

Il criterio del consensoè chiamato il criterio per verificare l'ipotesi sulla legge assunta della distribuzione sconosciuta.

Esistono diversi criteri di accordo: Pearson, Kolmogorov, Smirnov, ecc. Il test di bontà di adattamento di Pearson è il più comunemente usato.

Consideriamo l'applicazione del criterio di Pearson all'esempio della verifica dell'ipotesi sulla distribuzione normale della popolazione generale. A tal fine, confronteremo frequenze empiriche e teoriche (calcolate in continuazione della distribuzione normale).

Di solito c'è qualche differenza tra le frequenze teoriche ed empiriche. per esempio:

Frequenze empiriche 7 15 41 93113 84 25 13 5

Frequenze teoriche 5 13 36 89114 91 29 14 6

Considera due casi:

La discrepanza tra le frequenze teoriche ed empiriche è accidentale (insignificante), ad es. puoi fare una proposta sulla distribuzione delle frequenze empiriche secondo la legge normale;

La discrepanza tra frequenze teoriche ed empiriche non è casuale (significativa), ad es. le frequenze teoriche sono calcolate sulla base dell'ipotesi errata della distribuzione normale della popolazione generale.

Utilizzando il criterio di bontà di adattamento di Pearson, è possibile determinare per caso o meno la discrepanza tra frequenze teoriche ed empiriche, ad es. con un dato livello di confidenza, determinare se la popolazione generale è distribuita secondo la legge normale oppure no.

Quindi, si ottenga una distribuzione empirica per un campione di dimensione n:

Opzioni ……

Frequenze empiriche …….

Supponiamo che le frequenze teoriche siano calcolate assumendo una distribuzione normale. A livello di significatività, è necessario testare l'ipotesi nulla: la popolazione generale è normalmente distribuita.

Come criterio per verificare l'ipotesi nulla, prendiamo una variabile casuale

(*)

Questo valore è casuale, poiché in diversi esperimenti assume valori diversi, precedentemente sconosciuti. È chiaro che minore è la differenza tra le frequenze empiriche e teoriche, minore è il valore del criterio e, quindi, in una certa misura, caratterizza la vicinanza delle distribuzioni empiriche e teoriche.

È dimostrato che in, la legge di distribuzione di una variabile casuale (*), indipendentemente dalla legge di distribuzione a cui è soggetta la popolazione generale, tende a una legge di distribuzione con gradi di libertà. Pertanto, la variabile casuale (*) è indicata con, e il criterio stesso è chiamato test di bontà di adattamento "chi quadrato".

Indichiamo il valore del criterio calcolato dai dati di osservazione attraverso. Vengono indicati i valori critici tabulati del criterio per un dato livello di significatività e il numero di gradi di libertà. In questo caso, il numero di gradi di libertà è determinato dall'uguaglianza, dove il numero di gruppi (intervalli parziali) del campione o delle classi; - il numero di parametri della distribuzione ipotizzata. La distribuzione normale ha due parametri: aspettativa matematica e deviazione standard. Pertanto, il numero di gradi di libertà per la distribuzione normale si trova dall'uguaglianza

Se il valore calcolato e il valore della tabella soddisfano la disuguaglianza , è accettata l'ipotesi nulla della distribuzione normale della popolazione generale. Se , l'ipotesi nulla viene rifiutata e viene accettata un'ipotesi alternativa (la popolazione generale non è distribuita secondo la legge normale).

Commento. Quando si utilizza il test di bontà di adattamento di Pearson, la dimensione del campione deve essere almeno 30. Ogni gruppo deve contenere almeno 5 opzioni. Se ci sono meno di 5 frequenze nei gruppi, vengono combinate con i gruppi vicini.

Nel caso generale, il numero di gradi di libertà per la distribuzione chi-quadrato è definito come il numero totale di quantità per le quali vengono calcolati gli indicatori corrispondenti, meno il numero di condizioni che collegano queste quantità, ad es. ridurre la possibilità di variazione tra di loro. Nei casi più semplici, durante il calcolo, il numero di gradi di libertà sarà uguale al numero di classi, ridotto di uno. Quindi, ad esempio, nel caso di splitting diibrido si ottengono 4 classi, ma si ottiene solo la prima classe non connessa, le successive sono già connesse con le precedenti. Pertanto, per la divisione diibrida, il numero di gradi di libertà.

Esempio 1. Determinare il grado di corrispondenza della distribuzione effettiva dei gruppi per il numero di vacche con tubercolosi con il teoricamente previsto, calcolato considerando la distribuzione normale. I dati iniziali sono riassunti nella tabella:

Decisione.

In base al livello di significatività e al numero di gradi di libertà dalla tabella dei punti critici di distribuzione (vedi Appendice 4), troviamo il valore ... Nella misura in cui , si può concludere che la differenza tra le frequenze teoriche ed effettive è casuale. Pertanto, l'effettiva distribuzione dei gruppi in base al numero di vacche affette da tubercolosi corrisponde a quella teoricamente attesa.

Esempio 2. La distribuzione teorica del fenotipo degli individui ottenuta nella seconda generazione per incrocio diibrido di conigli secondo la legge di Mendel è 9: 3: 3: 1. È necessario calcolare la corrispondenza della distribuzione empirica dei conigli dall'incrocio di individui neri con capelli normali con animali lanuginosi - albini. Quando sono stati incrociati nella seconda generazione, sono stati ottenuti 120 discendenti, di cui 45 neri a pelo corto, 30 lanuginosi neri, 25 bianchi a pelo corto, 20 conigli lanuginosi bianchi.

Decisione. La scissione teoricamente prevista nella prole dovrebbe corrispondere al rapporto tra i quattro fenotipi (9: 3: 3: 1). Calcoliamo le frequenze teoriche (numero di teste) per ogni classe:

9 + 3 + 3 + 1 \u003d 16, quindi puoi aspettarti che lo siano i capelli corti neri ; lanuginoso nero - ; bianco a pelo corto - ; lanuginosa bianca -.

La distribuzione empirica (effettiva) del fenotipo era la seguente 45; trenta; 25; 20.

Riassumiamo tutti questi dati nella tabella seguente:

Utilizzando il test di bontà di adattamento di Pearson, calcoliamo il valore:

Il numero di gradi di libertà in un incrocio diibrido. Per livello di significatività trova il valore ... Nella misura in cui , si può concludere che la differenza tra le frequenze teoriche ed effettive non è casuale. Di conseguenza, il gruppo di conigli risultante devia nella distribuzione dei fenotipi dalla legge di Mendel durante l'incrocio diibrido e riflette l'influenza di alcuni fattori che modificano il tipo di scissione fenotipica nella seconda generazione di ibridi.

Il test di adattamento chi quadrato di Pearson può anche essere utilizzato per confrontare due distribuzioni empiriche omogenee tra loro, ad es. quelli che condividono gli stessi confini di classe. L'ipotesi di uguaglianza di due funzioni di distribuzione sconosciute è accettata come ipotesi nulla. Il criterio del chi quadrato in questi casi è determinato dalla formula

(**)

dove e sono i volumi delle distribuzioni confrontate; e - le frequenze delle rispettive classi.

Considera un confronto di due distribuzioni empiriche nell'esempio seguente.

Esempio 3. La lunghezza delle uova di cuculo è stata misurata in due zone territoriali. Nella prima zona è stato esaminato un campione di 76 uova (), nella seconda di 54 (). Sono stati ottenuti i seguenti risultati:

Lunghezza (mm)
Frequenze
Frequenze - - -

A un livello di significatività, è necessario verificare l'ipotesi nulla che entrambi i campioni di uova appartengano alla stessa popolazione di cuculo.

Articoli simili

2021 rookame.ru. Portale di costruzione.