Xử lý dữ liệu thống kê nông nghiệp với phần mềm excel và sas
Tóm tắt Xử lý dữ liệu thống kê nông nghiệp với phần mềm excel và sas: ... quả - Kết quả in ra gồm cỏc thống kờ cơ bản cho từng mức (trung bỡnh, ủộ lệch chuẩn...) và bảng phõn tớch phương sai. - Nếu giỏ trị xỏc suất P-value F lý thuyết) thỡ cỏc cụng thức cú tỏc ủộng khỏc nhau tới kết quả, ngược lại cỏc cụng thức khụng cú khỏc biệt ủỏng kể. - Nếu kết luận cỏc...minh ủược rằng ủại lượng thống kờ FR = MSST/MSSE (ủối với mẫu lý thuyết) tuõn theo phõn phối Fisher với bậc tự do là (k−1, n−k−l+1). Do ủú, nếu FR thực nghiệm = 8.91429 > FR lý thuyết = f (0.05; 3, 9) = 3.86254 thỡ giả thuyết “cỏc cụng thức khụng ảnh hưởng tới số trung bỡnh chung” khụng ủượ...n SS df MS F P-value F crit Sample 122.4167 3 40.80556 14.9898 1.71E-06 2.866265 Columns 17.54167 2 8.770833 3.221939 0.051615 3.259444 Interaction 23.95833 6 3.993056 1.466837 0.21725 2.363748 Within 98 36 2.722222 Total 261.9167 47 - Bảng SUMMARY cho kết quả tớnh toỏn từng cấp của nh...
x312 x322 x332 x412 x422 x432 x113 x123 x133 x213 x223 x233 x313 x323 x333 x413 x423 x433 x114 x124 x134 x214 x224 x234 x314 x324 x334 x414 x424 x434 20 Sau khi tiến hành thí nghệm, số liệu thu được được sắp xếp như sau: - Nhân tố A đánh theo hàng với các mức khác nhau, nhân tố B đánh theo cột với các mức khác nhau. - Mỗi mức của nhân tố A được dành s hàng (cho s lần lặp) cịn mỗi mức của nhân tố B được dành đúng 1 cột. - Tên mỗi mức của nhân tố A chỉ viết một lần trong s ơ ở cột đầu, cịn tên các mức của nhân tố B thì ghi đầu ở mỗi cột trên hàng đầu, kể từ cột thứ 2. Các ơ từ hàng 2 cột 2 trở đi ghi kết quả của các lần lặp của các tổ tổ hợp mức. - Bảng phân tích phương sai cĩ 5 hàng: Hàng cho nhân tố A, hàng dành cho nhân tố B, hàng cho tương tác A× B, hàng cho sai số và hàng Total. Giá trị F lý thuyết được tính ở cột cuối, ta cĩ thể kiểm tra qua hàm FINV (trong Excel). Cột P – value là xác suất tương ứng với giá trị F thực nghiệm, nếu giá trị này nhỏ hơn alpha thì ta kết luận nhân tố (hoặc tương tác) tương ứng cĩ ảnh hưởng đến kết quả thí nghiệm. Muốn so sánh các trung bình ta làm như phân tích một nhân tố sau khi tìm giá trị t bằng hàm TINV với số bậc tự do của sai số và căn cứ vào số lần lặp của các trung bình mà ta muốn so sánh. a. Các bước thực hiện Chọn Tools >Data Analysis >Anova: Two Factor With Replication, sau đĩ khai báo các thơng tin như trong hình I.12 và kích OK. Ví dụ 7: Nghiên cứu ảnh hưởng của việc bĩn phân khống (nhân tố A) theo bốn cơng thức và mật độ trồng (nhân tố B) gồm ba mức tới sản lượng bơng ta cĩ bảng số liệu (bảng I.8). Bảng I.8. Năng suất bơng (tạ/ha) Mức 1 Mức 2 Mức 3 C.thức 1 14 15 19 15 17 19 16 19 18 21 18 17 C.thức 2 20 18 21 19 19 20 23 18 21 19 20 23 C.thức 3 21 21 21 19 22 22 22 21 18 20 23 21 C.thức 4 20 21 24 23 22 23 21 19 21 19 20 25 21 Thực hiện các lệnh phân tích phương sai hai nhân tố tương tác như minh hoạ trên hình I.12. Hình I.12. Hộp thoại khai báo khi phân tích phương sai 2 nhân tố tương tác Kết quả phân tích phương sai cho ở bảng I.9. b. Phân tích kết quả: Theo kết quả xử lý trên bảng 1.9, ta rút ra kết luận: - FA=14.9898 > F0.5A= 2.86627, do đĩ các cơng thức phân bĩn ảnh hưởng rõ rệt đến năng suất bơng. - FB= 3.22194 < F0.5B = 3.25944, nên tăng mật độ cây khơng hy vọng làm tăng năng suất bơng. - FAB = 1.46684 < F0.5AB = 2.36375, nên ảnh hưởng đồng thời của cả hai nhân tố khơng tác động đáng kể tới năng suất bơng. Bảng I.9. Kết quả phân tích phương sai hai nhân tố tương tác SUMMARY Mức 1 Mức 2 Mức 3 Total Cơng thức 1 Count 4 4 4 12 Sum 66 69 73 208 Average 16.5 17.25 18.25 17.33333 Variance 9.666667 2.916667 0.916667 4.242424 Cơng thức 2 Count 4 4 4 12 22 Sum 81 75 85 241 Average 20.25 18.75 21.25 20.08333 Variance 3.583333 0.916667 1.583333 2.810606 Cơng thức 3 Count 4 4 4 12 Sum 82 87 82 251 Average 20.5 21.75 20.5 20.91667 Variance 1.666667 0.916667 3 1.901515 Cơng thức 4 Count 4 4 4 12 Sum 83 82 93 258 Average 20.75 20.5 23.25 21.5 Variance 2.916667 1.666667 2.916667 3.727273 Total Count 16 16 16 Sum 312 313 333 Average 19.5 19.5625 20.8125 Variance 6.8 4.395833 5.095833 ANOVA Source of Variation SS df MS F P-value F crit Sample 122.4167 3 40.80556 14.9898 1.71E-06 2.866265 Columns 17.54167 2 8.770833 3.221939 0.051615 3.259444 Interaction 23.95833 6 3.993056 1.466837 0.21725 2.363748 Within 98 36 2.722222 Total 261.9167 47 - Bảng SUMMARY cho kết quả tính tốn từng cấp của nhân tố A (viết theo hàng) và chung cho tồn bộ mẫu, bao gồm: số quan sát (Count), tổng giá trị quan sát (Sum), trị số trung bình (Average) và phương sai (Variance). - Bảng phân tích phương sai ANOVA: Cột đầu tiên là các nguồn gây ra biến động (Source of Variation) gồm cĩ: mẫu (sample) là các biến động do -nhân tố viết theo hàng gây ra, biến động của nhân tố B - viết theo cột (Columns), biến động do tác động tương tác của các nhân tố A và B (Interaction), biến động ngẫu nhiên (within) và của tất cả các yếu tố trên 23 (Total). Các cột khác gồm: tổng sai số bình phương (SS), số bậc tự do (df), tổng sai số bình phương trung bình (MS =ss/df), giá trị F thực nghiệm (F), giá trị xác suất P và giá trị F lý thuyết tương ứng với các yếu tố trong cột thứ nhất. Giải thích: Phân tích phương sai hai nhân tố tương tác nhằm tách biệt các phương sai theo bốn nguồn biến động gây nên bởi nhân tố A, nhân tố B, tác động tương tác của nhân tố A và B, cũng như sai số. Theo bảng I.9, ta cĩ: - Tổng sai lệch tồn phần là SSTO (total sum of squares) = k r s 2 2 ijq i=1 j=1 q 1 x nx = −∑∑∑ = 261.9167 (với n = k×r×s = 4×3×4 = 48). - Tổng sai lệch do nhân tố A là SSA (sum of squares due to factor A) = 2 k r s 2 ijq i 1 j 1 q=1 1 x nx rs = = − ∑ ∑∑ = 122.4167. Do đĩ tổng sai lệch trung bình giữa các nhĩm của nhân tố A là MSSA = SSA/ (k−1) =122.4167/ 3 = 40.80556. - Tổng sai lệch do nhân tố B là SSB (sum of squares due to factor B) = 2 r k s 2 ijq j 1 i 1 q=1 1 x nx ks = = − ∑ ∑∑ = 17.54167. Do đĩ tổng sai lệch trung bình giữa các nhĩm của nhân tố B là MSSB = SSB/ (r−1) = 17.54167 /2 = 8.770833. - Tổng sai lệch do tác động tương tác của nhân tố A và B là SSAB (sum of squares due to interaction of A and B) khơng tính tới các tác động riêng của A và B = 2 k r s 2 ijq i 1 j 1 q 1 1 x nx s = = = − ∑∑ ∑ − SSA − SSB = 23.95833. Do đĩ tổng sai lệch trung bình do tương tác của A và B là MSSAB = SSAB/[(k−1)(r−1)] = 23.95833/6 = 3.993056. - Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO − SSA − SSB − SSAB = 98. Do đĩ tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE = SSE/[kr(s−1)] = 98/36 = 2.722222. Với giả thiết đã nêu, cĩ thể chứng minh được rằng đại lượng thống kê FA = MSSA/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1, krs−kr). Do đĩ, FA thực nghiệm =14.9898 > FA lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả thuyết “các mức của nhân tố A (các mức bĩn phân) khơng ảnh hưởng tới số trung bình chung (sản lượng bơng)” khơng được chấp nhận theo quy tắc kiểm định cĩ mức ý nghĩa α = 0.05. ðiều này cĩ nghĩa là các mức bĩn phân khác nhau cĩ tác động khác nhau tới sản lượng bơng nĩi chung. Tương tự chúng ta cĩ thế giải thích được rằng các mức mật độ cây (nhân tố B) cũng như tác động đồng thời của A và B khơng ảnh hưởng đáng kể tới năng suất bơng. 24 5. So sánh hai mẫu Bài tốn ở đây là cần so sánh hai mẫu thơng qua việc kiểm định giả thuyết H0: m1 = m2 (kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H1: m1 ≠ m2 ở mức ý nghĩa α trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết H1 là m1 > m2 (khi x > y ) hoặc m1 < m2 (khi x < y ). 5.1. So sánh hai mẫu độc lập khi biết phương sai σ12 và σ22 Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đĩ chúng ta cĩ thể ước lượng được phương sai (thường xảy ra khi điều tra lại một tổng thể sau một thời gian chưa lâu, nên phương sai chưa thay đổi, do đĩ lấy phương sai của lần điều tra trước làm σ12 và σ22 , chẳng hạn khi xem xét các kết quả phân tích của hai phịng thí nghiệm mà độ chính xác đã ổn định, từ đĩ cĩ các ước lượng về phương sai). a. Các bước thực hiện Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đĩ lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng thể. ếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H1: m1=m2+d (d là 1 số nào đĩ) thì ghi d. - Variable 1 variance: Phương sai của biến 1(nhập σ12). - Variable 2 variance: Phương sai của biến 2 (nhập σ22). - Output Range: Chọn miền trống để đưa ra kết quả. Ví dụ 8: Thực hiện thí nghiệm với mẫu 1 cĩ 10 quan sát, mẫu 2 cĩ 12 quan sát ta cĩ bảng số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6. x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9 y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6 Kết quả so sánh hai mẫu cho ở bảng I.10. Bảng I.10. Kết quả so sánh hai mẫu độc lập z-Test: Two Sample for Means Mẫu 1 Mẫu 2 Mean 3.6 3.5 Known Variance 2.7 2.6 Observations 10 12 Hypothesized Mean Difference 0 Z 0.14335 P(Z<=z) one-tail 0.44301 z Critical one-tail 1.64485 P(Z<=z) two-tail 0.88602 z Critical two-tail 1.95996 25 b. Phân tích kết quả Bảng kết quả I.10 cĩ hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính tới hàng thứ ba). Bảng này gồm cĩ: - Trung bình của mẫu a1và a2. - Phương sai đã cho (σ 21, σ 22). - Số quan sát n1và n2. - Giá trị z thực nghiệm: z=(a1-a2)/Sqrt(σ12/n1 + σ22/n2 ) - Giá trị P một phía và giá trị P hai phía. - Giá trị z lý thuyết (tới hạn) một phía và hai phía. Chú ý rằng, cĩ thể dùng một số hàm trong Excel để tính một số kết quả: - Giá trị P một phía tính bằng hàm 1-Normsdist(z). - Giá trị P hai phía tính bằng hàm (1-Normsdist(z))×2. - Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm Normsinv(0.95). - Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975). Trong ví dụ 8 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến khơng khác nhau. 5.2. So sánh hai mẫu kiểu cặp đơi Ta xét thí dụ: lấy một ổ chim và cân trọng lượng chim cái, trọng lượng chim đực ta được hai mẫu quan sát của hai tổng thể chim cái và chim đực. Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực và lấy một số chim cái ngẫu nhiên trong nhiều chim cái thì cĩ hai mẫu quan sát độc lập. Trường hợp khác, nếu ta đem 10 mẫu đất, mỗi mẫu chia đơi, một nửa giao cho phịng phân tích A thực hiện, nửa kia giao cho phịng phân tích B thì thu được số liệu cặp đơi để so sánh kết quả của hai phịng phân tích, hoặc nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đơi, một nửa cấy giống A, một nửa cấy giống B thì cĩ hai mẫu cặp đơi để so sánh, hay nếu đo một chỉ số sinh lý hoặc sinh hố của một bệnh nhân khi mới nhập viện và đo lại chỉ số đĩ sau một thời gian điều trị thì cĩ hai mẫu quan sát cặp đơi để đánh giá hiệu quả điều trị. Chú ý rằng, khi rút hai mẫu cặp đơi ta cĩ hai mẫu cùng số quan sát n, các số liệu sắp xếp thành cặp đứng ở hai cột cạnh nhau. a. Các bước thực hiện Chọn Tools >Data Analysis > t-Test: Paired Two Sample for Means, sau đĩ lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. 26 - Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: Giả thiết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1=m2+d (d là một số nào đĩ) thì ghi d. - Output Range: Chọn miền trống để đặt ra kết quả. Ví dụ 9: Cĩ 8 cặp số liệu của hai mẫu x và y cho trong bảng sau: x 39.6 32.4 33.1 27 36 32 25.9 32.4 y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 Thực hiện phân tích trong Excel ta được bảng kết quả (bảng I.11.) Bảng I.11. Kết quả so sánh hai mẫu cặp đơi x y Giải thích Mean 32.3 30.725 Trung bình mẫu Variance 19.54 23.451 Phương sai mẫu Observations 8 8 Số quan sát Pearson Correlation 0.96187 Hệ số tương quan R Hypothesized Mean Difference 0 Giả thuyết về hiệu số trung bình df 7 Bậc tự do t Stat 3.31055 Giá trị t thực nghiệm P(T<=t) one-tail 0.00647 Giá trị P một phía t Critical one-tail 1.89458 Giá trị t lý thuyết khi kiểm định một phía P(T<=t) two-tail 0.01293 Giá trị P hai phía t Critical two-tail 2.36462 Giá trị t lý thuyết khi kiểm định hai phía b. Phân tích kết quả Bảng kết quả cĩ hai cột cho hai mẫu quan sát. Bảng này cĩ các hàng: - Trung bình mẫu a1, a2. - Phương sai mẫu s12, s22. - Số quan sát n1 và n2 (bằng nhau và bằng số cặp số liệu n). - Hệ số tương quan r của 2 mẫu (coi như 2 biến). - Bậc tự do df để kiểm định giả thuyết H0, df bằng số cặp (n-1). - Giá trị t thực nghiệm: 3.31055. 27 - Giá trị P một phía: 0.00647. - Giá trị t một phía: 1.894577508. - Giá trị P hai phía: 0.01293. - Giá trị t hai phía: 2.36462256. Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1 . 5.3. So sánh hai mẫu độc lập với giả thiết hai phương sai bằng nhau Trường hợp mẫu lớn: Khi việc rút hai mẫu quan sát từ hai tổng thể được tiến hành một cách độc lập thì chúng ta cĩ hai mẫu độc lập. Nếu dung lượng của cả hai mẫu đều lớn (thường quy ước là n1 ≥ 30, n2 ≥ 30) ta cĩ thể tiến hành z-test nhưng thay hai phương sai của tổng thể σ12 và σ22 bằng phương sai mẫu s12 và s22. Trường hợp mẫu bé (n1,n2 nhỏ hơn 30) thì ta gặp bài tốn khĩ, gọi tên là bài tốn Berens – Fisher. Trong trường hợp này, nếu coi hai phương sai của hai tổng thể bằng nhau (cần kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai) thì cĩ thể tiếp tục tính tốn như sau: a. Các bước thực hiện: Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances, sau đĩ lần lượt trả lời: - Input Variable 1 Range: Miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: Nếu đưa thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1=m2+d (d là 1 số nào đĩ) thì ghi d. - Output Range: Chọn miền trống để đưa kết quả ra. Ví dụ 10: Tiến hành thí nghiệm hai mẫu cĩ tên x và y, mẫu x cĩ 5 số liệu, mẫu y cĩ 8 số liệu như sau: x 27.5 27 27.3 27.6 27.8 y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8 ðể kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, cĩ thể chọn Tools > Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập (trong mục Input) miền biến x và y, chọn mục Labels nếu cĩ nhãn ở hàng dầu, chọn mức ý nghĩa α (ngầm định 0.05). Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là 0.328) lớn hơn 0.05. Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận. 28 Bảng I.12. Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau t-Test: Two-Sample Assuming Equal Variances x y Mean 27.44 27.05 Variance 0.093 0.26571 Observations 5 8 Pooled Variance 0.20291 Hypothesized Mean Difference 0 df 11 t Stat 1.5187 P(T<=t) one-tail 0.07852 t Critical one-tail 1.79588 P(T<=t) two-tail 0.15704 t Critical two-tail 2.20099 Hình I.13 minh hoạ các bước thực hiện so sánh hai mẫu trong Excel khi hai phương sai bằng nhau. Kết quả so sánh hai mẫu cho ở bảng I.12. Hình I.13. Các bước thực hiện trong Excel so sánh hai mẫu cùng phương sai b. Phân tích kết quả Bảng kết quả thu được cĩ hai cột cho hai mẫu quan sát, và lần lựơt cĩ các hàng sau: - Trung bình (Mean) của mẫu a1, a2; - Phương sai (Variance) của mẫu s12, s22. - Số quan sát (Observations) n1 và n2. 29 - Phương sai chung (Pooled Variance) tính theo cơng thức s2=((n1-1)s12+( n2-1)s22)/(n1+n2-2) - Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means difference). - Bậc tự do df để kiểm định giả thuyết H0, df bằng (n1+ n2-2) - Giá trị t thực nghiệm tính theo cơng thức: t = (a1-a2)/Sqrt(s2×(1/n1+1/n2)) - Giá trị P một phía và hai phía. - Các giá trị t lý thuyết một phía và hai phía. Chý ý rằng cĩ thể tìm được: - Giá trị P một phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2). - Giá trị t lý thuyết một phía qua hàm TINV(0.10, df). - Giá trị t lý thuyết hai phía qua hàm TINV(0.05, df). Trong ví dụ 10, ta cĩ: phương sai của mẫu 1: 0.093; phương sai của mẫu 2: 0.26571; giá trị t thực nghiệm: 1.5187; giá trị t lý thuyết một phía: 1.79588; giá trị t lý thuyết hai phía: 2.20099; giá trị P một phía: 0.07852 và giá trị hai phía: 0.15704. Kết luận: chấp nhận giả thuyết H0 ở mức ý nghĩa 0.05. Cần lưu ý rằng, trước khi dùng mơ hình phương sai bằng nhau phải kiểm định giả thuyết phụ H0: σ12 = σ22 với đối thuyết H1: σ12 > σ22. Người sử dụng cĩ thể tự thực hiện tính tốn bằng kiểm định Fisher như sau: - Bước 1:Tính F thực nghiệm bằng tỷ số giữa hai phương sai mẫu (lấy phương sai lớn chia cho phương sai bé). - Bước 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df1 của phương sai tử số và bậc tự do df2 của phương sai mẫu số, bằng hàm FINV(alpha, df1, df2)). Nếu F thực nghiệm bé hơn F lý thuyết thì dùng mơ hình này (σ12 = σ22). Nếu trái lại, cần chuyển sang mơ hình phương sai khác nhau (σ12 ≠ σ22) (mục 5.4). Trong ví dụ trên, ta cĩ: F thực nghiệm = 0.26571/ 0.093=2.8571 và F lý thuyết = FINV(0.05, 7, 4) = 6.09421, nên chấp nhận giả thuyết H0. 5.4. So sánh hai mẫu độc lập với giả thiết hai phương sai khác nhau Trong trường hợp mẫu bé và phương sai khác nhau thì cĩ thể tính xấp xỉ theo các bước sau: a. Các bước thực hiện: Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Unequal Variances, sau đĩ lần lượt trả lời: - Input Variable 1 Range: Miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: Nếu đưa thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0; nếu lấy giả thuyết H0: m1= m2+d (d là 1 số nào đĩ) thì ghi d. 30 - Output Range: Chọn miền trống để đưa kết quả ra. Ví dụ 11: Chúng ta dùng lại ví dụ 10, giả sử rằng hai phương sai tổng thể khơng bằng nhau. Kết quả so sánh hai mẫu cho trong bảng I.13. b. Phân tích kết quả Bảng kết quả thu được gồm hai cột cho hai mẫu quan sát và lần lượt cĩ các hàng: - Trung bình (Mean) mẫu a1, a2. - Phương sai (Variance) mẫu s12, s22. - Số quan sát (Observations) n1 và n2. - Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means difference). Bảng I.13. Kết quả so sánh hai mẫu phương sai khơng bằng nhau. t-Test: Two-Sample Assuming Unequal Variances x y Mean 27.44 27.05 Variance 0.093 0.26571 Observations 5 8 Hypothesized Mean Difference 0 df 11 t Stat 1.71333 P(T<=t) one-tail 0.05733 t Critical one-tail 1.79588 P(T<=t) two-tail 0.11466 t Critical two-tail 2.20099 - Giá trị t thực nghiệm tính theo cơng thức: t = (a1-a2)/(s21/n1+ s22/n2). - Giá trị P một phía và hai phía. - Các giá trị t lý thuyết một phía và hai phía. Trong ví dụ trên ta cĩ: - Giá trị t một phía: 1.79588 - Giá trị t hai phía: 2.20099 - Giá trị P một phía: 0.05733 - Giá trị P hai phía: 0.11466 - t thực nghiệm = 1.713325 Chú ý rằng kết quả bảng I.11 và I.12 khác nhau ở giá trị t thực nghiệm (vì dùng cơng thức khác khi tính phương sai chung), điều này kéo theo giá trị P một phía và hai phía cũng khác. Theo kết quả trên giả thuyết H0 vẫn được chấp nhận ở mức ý nghĩ 0.05 do t thực nghiệm nhỏ hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05).
File đính kèm:
- xu_ly_du_lieu_thong_ke_nong_nghiep_voi_phan_mem_excel_va_sas.pdf