Lite historia om t-testet t-Testet • ”Students t-test” • "Student," pseudonym som används av William Gosset (bild) • Jobbade på Guinness bryggeriet i Dublin i början av 1900-talet • allmänt betecknas alla test som använder tfördelningen som t-test [email protected] Students t-fördelning Definition för t-fördelningen T för olika frihetsgrader; Jämförelse med N(0,1) Z N (0, 1) W F 2 Q Q frihetsgrader 0.3 Z och W oberoende Om Z och W har ovanstående fördelningar, så har följande kvotient en t-fördelning: Z t (Q ) W Density Förutsättningarna: df 1 2 5 10 N(0,1) 0.4 0.2 0.1 X t-distribution med Q frihetsgrader 0.0 -5.0 -2.5 0.0 2.5 5.0 Q täthetsfunktion Användning av t-testet 1. 2. 3. Har en normalfördelning det hypotetiska medelvärdet µ0 ? .... om ı inte är känd [ One-Sample t-test ] Två oberoende stickprov: µ1 = µ2 ? [ Two- Sample t-test ] Två parade stickprov: µ1 = µ2 ? [ Paired t-test ] före/efter behandling med/utan medikament rökare/icke-rökare genvariant 1 eller 2 vikt art 1 art 2 skörd med/utan gödsel osv. Ett stickprov: Hur räknar man? det hypotetiska medelvärdet för hela populationen stickprovets medelvärde t stickprovets standardavvikelse x P0 s n Testvariabel t, ett stickprov stickprovets storlek t-test, ett stickprov, tvåsidigt Ett stickprov: Hur räknar man? T, df=9 • µ0=2, var hypotes för fördelningens medelvärde • Vi tog ett stickprov med 9 värden som gav medelvärdet 1.1 och s = 2.7 0.4 Density 0.3 n=10 x P0 s n t 0.2 0.1 t x P0 s n 1.1 2 2.7 9 0.9 0.9 0.0 1 -2.26 0 2.26 Det är osannolikt att ett sådant extremt värde för t kommer till stånd, givet att H0 gäller T t :krit ĺ förkasta H0 Om stickprovets medelvärde skiljer sig signifikant från µ0 så förkastas nollhypotesen H0 (fördelningen har alltså troligtvis inte P0 som väntevärde). Kritiska områden för olika signifikansnivåer (tvåsidigt test) mera benägen att hålla fast vid H0 0.025 0.025 Testvariabel, ett stickprov: Į=0.05 Į=0.01 One-sample t-test 1. 2. 3. Hypotes H0: µ = µ0 Ha: µ µ0 (tvåsidigt) Välj signifikansnivå: D = 0.05 ĺ :krit Stickprov ĺ medelvärde och standardavvikelse 4. 5. Testvariabelns värde Förkasta H0 om t ligger i det kritiska området (”rejection region”) x s 1 ¦ xi n 1 ¦ xi x n 1 x P0 s n t Į=0.001 ^t : | t | ! t f ` : krit värdena för det kritiska området beror också på antalet ”frihetsgrader” D 2 med f n 1 Slutledning Hur kommer man på detta? (Tillägsinformation) Om H0 är sann, då vet vi att: Z X P0 V N 0, 1 Om X~N(µ,ı) gäller allmänt: W se föreläsning normalfördelning n (n 1) S 2 (S är stickprovs-standardavvikelsen) F 2 n 1 V2 Testvariabeln är en speciell funktion av Z och W: X P Z W n 1 0 n V X P 0 2 (n 1) S V 2 n 1 n S t(n-1) - fördelad X P Om H0 är sann ... 0 S n X P0 S n T t ( n 1) Slutledning: t T t n 1 H0 är sann Kvantiler för t-fördelningen x P0 s n Distribution Plot T, df=6 Vi behöver kvantilerna för att veta vilket värde på x-axeln tillhör vilken area under täthetsfunktionen (som är ju D) 0.4 Om t-värdet hamnar i den röda regionen, så förkastar vi nollhypotesen (H0). Sannolikheten att ett sådant värde kommer till stånd ”under H0” (av ren slump) är nämligen liten ( 5%). T, df=6 0.4 0.3 Density Density 0.3 Distribution Plot 0.2 0.2 0.1 0.025 0.025 0.0 0 T 0.1 0.025 0.025 0.0 0 t0.975(6) = -t0.025(6) OBS!: Kvantilerna beror också på f=n-1 (antalet ”frihetsgrader”) t0.025(6) (symmetriskt runt 0) T t-test.MPJ Kvantiler för tfördelningen Kvantiler för tfördelningen Graph / Probability Distribution Plot / View Probability / Distribution: t / Degrees of freedom: 6 / Shaded area / Probability = 0.05 / Right tail df 2 6 N(0,1) T T, df=6 0.4 0.3 -3 -2 -1 0 1 2 3 4 5 0.2 f stor ĺ liten skillnad till N(0,1) 0.1 0.05 Större spridning (tails) för T pga. större osäkerhet – vi vet ju inte ı och måste skatta det (med s). Förutsättningar: 1-Sample t-test • Populationen är normalfördelad (eller n 30) • Slumpmässigt stickprov man får t. ex. inte: • bara välja barn från en sportgymnasieskola • • bara välja barn från en storstadsregion subjektivt välja ut på något sätt Stickprovet måste vara representativt. 0.0 0 1.94 Exempel: astronauter (igen) • känd fördelning: antalet vita blodceller per ml blod hos friska vuxna: µ=7500; ı=1250 (mätt hos miljontals människor, kan därför anses som sanna populationsparametrar) ... men den här gången antar vi inte att standardavvikelsen är densamma som för ”jordnära” människor ... Stickprov: 7130, 6845, 7055, 7235, 7200, 7450, 7750, 7950, 7340, 7150 Ny ”population”: astronauter! samma µ? : krit Nollhypotes: Ha: µ07500 (tvåsidigt) 4. 5. D 2 9 ; t ! tD 9 2 ` Rejection Region (RR) ^ t t0.025 9 ; t ! t0.025 9 ` ^ t 2.26 ; t ! 2.26 ` H0: µ0=7500 (ingen förändring) 2. 3. ^t t tvåsidigt test ! Distribution Plot T, df=9 Signifikansnivå: D = 0.05 Stickprovets medelvärde och standardavvikelse x Testvariabel t t H :krit (kritiska området) ĺ förkasta H0 0.4 1 ¦ xi n 7310.5 1 ¦ xi x 2 n 1 s t x P0 s n D 0.3 330.1 7310.5 7500 330.1 10 Density 1. t-test.MPJ : krit 0.05 t tD 9 ; t ! tD 9 0.2 0.025 0.0 0.025 -2.26 0 2 2 ` ^ t t0.025 9 ; t ! t0.025 9 ` ^ t 2.26 ; t ! 2.26 ` 0.1 1.815 ^ 2.26 -1.815 2.26 -2.26 gäller bara för n=10: -2.26 +2.26 t-test.MPJ Exempel - Minitab • • Testvariabel (Statistika) Nollhypotes: µ0=7500 Stickprov: 7130, 6845, 7055, 7235, 7200, 7450, 7750, 7950, 7340, 7150 x P0 s n t Distribution Plot T, df=9 0.4 Stat / Basic Statistics 1-Sample t Sample in column C1 Perform hypothesis test Hypothesized mean: 7500 Density 0.3 0.2 0.1 0.0515 0.0 0.0515 -1.815 0 One-Sample T: blod Test of mu = 7500 vs not = 7500 Variable N Mean StDev SE Mean blod 10 7311 330 104 95% CI T (7074, 7547) -1.82 P 0.103 1.815 • Beräkning av en testvariabel dess fördelning är helt känd t.ex. T ~ t(n-1) • Testvariabeln var noll(1) om stickprovet stämde exakt överens med nollhypotesen. • Ju starkare testvariabeln avviker från noll, desto mindre trovärdigt blir det att nollhypotesen stämmer. • Om testvariabeln överskrider ett kritiskt värde, så förkastas nollhypotesen. • Olika test utnyttjar bara olika testvariabler, se nästa sida ... (1)Värdet för testvariabeln kan också vara något annat än noll, t.ex ett för F-testet Wackerly, p. 492 Two-Sample t-test, samma varianser X i N (P x , V ) H0: 'µ=µ1-µ2 (inte noll) Yi N ( P y , V ) samma, okänd V H0 : Px S p2 T f Py nx 1 S x2 n y 1 S y2 nx 1 n y 1 X Y 1 1 Sp nx n y nx n y 2 pooled variance statistika ; t ( f ) fördelad (om H 0 sann) lower tail: Ha: Px < Py antalet frihetsgrader Värdet av t säger oss om T kan vara t(f)-fördelad ... och därmed om H0 är trovärdig ... http://www.adryver.com/mybook/ Two-Sample t-test, olika varianser När är musklerna i fara? (Welch test, Smith-Satterthwaite test)) Grupp 1 (Pkat L-1) 2 X i N (P x , V x ) Yi N ( P y , V y ) Vx zVy H0 : Px Py t xy 2 2 s sx y nx n y under H0 t f f ª sx 2 s y 2 º » « ¬« n x n y »¼ 2 2 2 · § s x 2 · §¨ s y ¨ n ¸ ¨ n ¸¸ y x¹ © ¹ © nx 1 ny 1 rounded down if not integer Värdet av t säger oss om T kan vara t(f)-fördelad ... och därmed om H0 är trovärdig. 2,09 3,80 3,83 1,66 2,90 3,63 4,24 3,81 2,09 4,64 2,37 3,07 2,88 3,05 3,18 2,02 2,69 3,15 3,43 3,00 2,06 3,73 3,81 2,45 1,58 5,53 4,15 2,49 3,03 2,94 2,92 3,18 3,39 3,35 3,38 1,73 1,91 5,10 2,58 3,27 3,33 2,85 1,65 1,89 2,40 3,37 3,24 2,40 2,90 4,47 µ1 = µ2 ? Minitab - resultat Two-Sample t-test, Minitab Stat / Basic Statistics / 2-Sample t ... Grupp 2 (Pkat L-1) 4,02 Two-sample T for G1 vs G2 Musklerna.MPJ Om man redan har medelvärdet och s för båda stickprov N G1 28 G2 23 Mean 2.624 3.616 StDev 0.658 0.827 SE Mean 0.12 0.17 Assume equal variances Difference = mu (G1) - mu (G2) Estimate for difference: -0.992 95% CI for difference: (-1.409, -0.574) T-Test of difference = 0 (vs not =): T-Value = -4.77 Both use Pooled StDev = 0.7384 (fel kan uppstå om det inte stämmer! - man får inte anta det utan skäl) P-Value = 0.000 DF = 49 Two-sample T for G1 vs G2 V 1 V 2 eller V 1 z V 2 Bestäm: ensidigt, tvåsidigt, 'P0 (kan vara 0) Förutsättningar för 2-S t-test • Båda stickprov från normalfördelning • Stickprov är oberoende • Är man inte säker att båda populationer har samma varians måste man köra Welch-testet (Minitab: man får inte välja ”Assume equal variances”) N G1 28 G2 23 Mean StDev SE Mean 2.624 0.658 0.12 3.616 0.827 0.17 Unequal variances (CI blir lite bredare) Difference = mu (G1) - mu (G2) Estimate for difference: -0.992 95% CI for difference: (-1.421, -0.563) T-Test of difference = 0 (vs not =): T-Value = -4.67 P-Value = 0.000 DF = 41 Oberoende och parade observationer Kroppsvikten före och efter juldagarna: Oberoende stickprov: Grupp 1, före 70.4 80.1 65.8 66.7 74.3 72.1 70.9 85.4 89.3 90.4 78.9 77.0 Grupp 2, efter 70.9 65.8 66.7 74.3 87.2 89.3 93.4 82.1 74.1 70.9 Parade stickprov: person A B C D E F G H före 78.1 66.9 74.3 72.5 90.9 78.3 68.4 72.5 efter 79.2 67.0 77.1 73.3 92.0 78.1 68.4 72.9 t-test, paired samples t-test, paired samples A B C D E F G H före 78.1 66.9 74.3 72.5 90.9 78.3 68.4 72.5 efter 79.2 67.0 77.1 73.3 92.0 78.1 68.4 72.9 zi 1.1 0.1 2.8 0.8 1.1 -0.2 0 0.4 A B C D E F G H före 78.1 66.9 74.3 72.5 90.9 78.3 68.4 72.5 efter 79.2 67.0 77.1 73.3 92.0 78.1 68.4 72.9 zi 1.1 0.1 2.8 0.8 1.1 -0.2 0 0.4 X i N ( Pi , V x ) och Yi N ( Pi ', V y ) H0 : z 0 ingen skillnad mellan väntevärden xi yi zi z t ... testa om medelvärdet för z är noll (som 1-S t-test) statistika ; t ( f ) fördelad (om H 0 sann ) sz n n 1 f antalet frihetsgrader differens z är normalfördelad Paired t-test zi xi yi z ¦z n i i 1 t 0.7625 0.9606 z sz n f : krit Stat / Basic Statistics / Paired t ... 1 >1.1 0.1 2.8 0.8 1.1 - 0.2 0 0.4@ 0.7625 8 1 zi z 2 n 1 sz musklerna.MPJ Minitab: t-test för parade observationer 0.9606 8 0.7625 0.3396 2.245 Om man redan har medelvärdet för z och sz n 1 7 ª t t f ; t ! t f º D D «¬ »¼ 2 2 > t t0.025 7 ; t ! t0.025 7 @ > t 2.365 ; t ! 2.365 @ Parvis! Konfidensgrad = D ensidigt el. tvåsidigt hypotes för ' 2.365 -2.365 Minitab: t-test för parade observationer Paired T for före - efter N Mean före 8 75,24 efter 8 76,00 Difference 8 -0,762 StDev 7,51 7,82 0,961 SE Mean 2,66 2,76 0,340 95% CI for mean difference: (-1,566; 0,041) T-Test of mean difference = 0 (vs not = 0): T-test Förtecknet beror på vad som subtraheras av vad – oviktigt för 2-sidigt test 1 stickprov H0 : P P0 t T-Value = -2,25 P-Value = 0,060 x P0 s n Oberoende stickprov Vx Vy Student’s t Inte signifikant på 5% signifikansnivå t xy 1 1 Sp nx n y Se text för: s, sz, sx, sy, sp och f 2 stickprov H0: Px=Py Parade stickprov t VxVy Welch t z sz n xy 2 2 s sx y nx n y [email protected]
© Copyright 2026 Paperzz