Xử lý dữ liệu thống kê nông nghiệp với phần mềm excel và sas - Xu ly du lieu thong ke nong nghiep voi phan mem excel va sas

Tóm tắt Xử lý dữ liệu thống kê nông nghiệp với phần mềm excel và sas: ... quả - Kết quả in ra gồm cỏc thống kờ cơ bản cho từng mức (trung bỡnh, ủộ lệch chuẩn...) và bảng phõn tớch phương sai. - Nếu giỏ trị xỏc suất P-value F lý thuyết) thỡ cỏc cụng thức cú tỏc ủộng khỏc nhau tới kết quả, ngược lại cỏc cụng thức khụng cú khỏc biệt ủỏng kể. - Nếu kết luận cỏc...minh ủược rằng ủại lượng thống kờ FR = MSST/MSSE (ủối với mẫu lý thuyết) tuõn theo phõn phối Fisher với bậc tự do là (k−1, n−k−l+1). Do ủú, nếu FR thực nghiệm = 8.91429 > FR lý thuyết = f (0.05; 3, 9) = 3.86254 thỡ giả thuyết “cỏc cụng thức khụng ảnh hưởng tới số trung bỡnh chung” khụng ủượ...n SS df MS F P-value F crit Sample 122.4167 3 40.80556 14.9898 1.71E-06 2.866265 Columns 17.54167 2 8.770833 3.221939 0.051615 3.259444 Interaction 23.95833 6 3.993056 1.466837 0.21725 2.363748 Within 98 36 2.722222 Total 261.9167 47 - Bảng SUMMARY cho kết quả tớnh toỏn từng cấp của nh...

30 trang | Chia sẻ: havih72 | Lượt xem: 284 | Lượt tải: 0

Nội dung tài liệu Xử lý dữ liệu thống kê nông nghiệp với phần mềm excel và sas, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

x312 x322 x332 x412 x422 x432
x113 x123 x133 x213 x223 x233 x313 x323 x333 x413 x423 x433
x114 x124 x134 x214 x224 x234 x314 x324 x334 x414 x424 x434
20
Sau khi tiến hành thí nghệm, số liệu thu được được sắp xếp như sau:
- Nhân tố A đánh theo hàng với các mức khác nhau, nhân tố B đánh theo cột với
các mức khác nhau.
- Mỗi mức của nhân tố A được dành s hàng (cho s lần lặp) cịn mỗi mức của nhân
tố B được dành đúng 1 cột.
- Tên mỗi mức của nhân tố A chỉ viết một lần trong s ơ ở cột đầu, cịn tên các mức
của nhân tố B thì ghi đầu ở mỗi cột trên hàng đầu, kể từ cột thứ 2. Các ơ từ hàng 2 cột 2 trở
đi ghi kết quả của các lần lặp của các tổ tổ hợp mức.
- Bảng phân tích phương sai cĩ 5 hàng: Hàng cho nhân tố A, hàng dành cho nhân tố
B, hàng cho tương tác A× B, hàng cho sai số và hàng Total. Giá trị F lý thuyết được tính ở
cột cuối, ta cĩ thể kiểm tra qua hàm FINV (trong Excel). Cột P – value là xác suất tương
ứng với giá trị F thực nghiệm, nếu giá trị này nhỏ hơn alpha thì ta kết luận nhân tố (hoặc
tương tác) tương ứng cĩ ảnh hưởng đến kết quả thí nghiệm.
Muốn so sánh các trung bình ta làm như phân tích một nhân tố sau khi tìm giá trị t
bằng hàm TINV với số bậc tự do của sai số và căn cứ vào số lần lặp của các trung bình mà
ta muốn so sánh.
a. Các bước thực hiện
Chọn Tools >Data Analysis >Anova: Two Factor With Replication, sau đĩ khai báo
các thơng tin như trong hình I.12 và kích OK.
Ví dụ 7: Nghiên cứu ảnh hưởng của việc bĩn phân khống (nhân tố A) theo bốn cơng thức
và mật độ trồng (nhân tố B) gồm ba mức tới sản lượng bơng ta cĩ bảng số liệu (bảng I.8).
Bảng I.8. Năng suất bơng (tạ/ha)
Mức 1 Mức 2 Mức 3
C.thức 1 14 15 19
15 17 19
16 19 18
21 18 17
C.thức 2 20 18 21
19 19 20
23 18 21
19 20 23
C.thức 3 21 21 21
19 22 22
22 21 18
20 23 21
C.thức 4 20 21 24
23 22 23
21 19 21
19 20 25
21
Thực hiện các lệnh phân tích phương sai hai nhân tố tương tác như minh hoạ trên
hình I.12.
Hình I.12. Hộp thoại khai báo khi phân tích phương sai 2 nhân tố tương tác
Kết quả phân tích phương sai cho ở bảng I.9.
b. Phân tích kết quả: Theo kết quả xử lý trên bảng 1.9, ta rút ra kết luận:
- FA=14.9898 > F0.5A= 2.86627, do đĩ các cơng thức phân bĩn ảnh hưởng rõ rệt đến
năng suất bơng.
- FB= 3.22194 < F0.5B = 3.25944, nên tăng mật độ cây khơng hy vọng làm tăng
năng suất bơng.
- FAB = 1.46684 < F0.5AB = 2.36375, nên ảnh hưởng đồng thời của cả hai nhân tố
khơng tác động đáng kể tới năng suất bơng.
Bảng I.9. Kết quả phân tích phương sai hai nhân tố tương tác
SUMMARY Mức 1 Mức 2 Mức 3 Total
Cơng thức 1
Count 4 4 4 12
Sum 66 69 73 208
Average 16.5 17.25 18.25 17.33333
Variance 9.666667 2.916667 0.916667 4.242424
Cơng thức 2
Count 4 4 4 12
22
Sum 81 75 85 241
Average 20.25 18.75 21.25 20.08333
Variance 3.583333 0.916667 1.583333 2.810606
Cơng thức 3
Count 4 4 4 12
Sum 82 87 82 251
Average 20.5 21.75 20.5 20.91667
Variance 1.666667 0.916667 3 1.901515
Cơng thức 4
Count 4 4 4 12
Sum 83 82 93 258
Average 20.75 20.5 23.25 21.5
Variance 2.916667 1.666667 2.916667 3.727273
Total
Count 16 16 16
Sum 312 313 333
Average 19.5 19.5625 20.8125
Variance 6.8 4.395833 5.095833
ANOVA
Source of
Variation
SS df MS F P-value F crit
Sample 122.4167 3 40.80556 14.9898 1.71E-06 2.866265
Columns 17.54167 2 8.770833 3.221939 0.051615 3.259444
Interaction 23.95833 6 3.993056 1.466837 0.21725 2.363748
Within 98 36 2.722222
Total 261.9167 47
- Bảng SUMMARY cho kết quả tính tốn từng cấp của nhân tố A (viết theo hàng)
và chung cho tồn bộ mẫu, bao gồm: số quan sát (Count), tổng giá trị quan sát (Sum), trị số
trung bình (Average) và phương sai (Variance).
- Bảng phân tích phương sai ANOVA: Cột đầu tiên là các nguồn gây ra biến động
(Source of Variation) gồm cĩ: mẫu (sample) là các biến động do -nhân tố viết theo hàng gây
ra, biến động của nhân tố B - viết theo cột (Columns), biến động do tác động tương tác của
các nhân tố A và B (Interaction), biến động ngẫu nhiên (within) và của tất cả các yếu tố trên
23
(Total). Các cột khác gồm: tổng sai số bình phương (SS), số bậc tự do (df), tổng sai số bình
phương trung bình (MS =ss/df), giá trị F thực nghiệm (F), giá trị xác suất P và giá trị F lý
thuyết tương ứng với các yếu tố trong cột thứ nhất.
Giải thích: Phân tích phương sai hai nhân tố tương tác nhằm tách biệt các phương
sai theo bốn nguồn biến động gây nên bởi nhân tố A, nhân tố B, tác động tương tác của
nhân tố A và B, cũng như sai số. Theo bảng I.9, ta cĩ:
- Tổng sai lệch tồn phần là SSTO (total sum of squares) =
k r s
2 2
ijq
i=1 j=1 q 1
x nx
=
−∑∑∑ =
261.9167 (với n = k×r×s = 4×3×4 = 48).
- Tổng sai lệch do nhân tố A là SSA (sum of squares due to factor A) =
2
k r s
2
ijq
i 1 j 1 q=1
1
x nx
rs
= =
 
− 
 
∑ ∑∑ = 122.4167. Do đĩ tổng sai lệch trung bình giữa các nhĩm của
nhân tố A là MSSA = SSA/ (k−1) =122.4167/ 3 = 40.80556.
- Tổng sai lệch do nhân tố B là SSB (sum of squares due to factor B) =
2
r k s
2
ijq
j 1 i 1 q=1
1
x nx
ks
= =
 
− 
 
∑ ∑∑ = 17.54167. Do đĩ tổng sai lệch trung bình giữa các nhĩm của
nhân tố B là MSSB = SSB/ (r−1) = 17.54167 /2 = 8.770833.
- Tổng sai lệch do tác động tương tác của nhân tố A và B là SSAB (sum of squares
due to interaction of A and B) khơng tính tới các tác động riêng của A và B =
2
k r s
2
ijq
i 1 j 1 q 1
1
x nx
s
= = =
 
− 
 
∑∑ ∑ − SSA − SSB = 23.95833. Do đĩ tổng sai lệch trung bình do tương
tác của A và B là MSSAB = SSAB/[(k−1)(r−1)] = 23.95833/6 = 3.993056.
- Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO
− SSA − SSB − SSAB = 98. Do đĩ tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE
= SSE/[kr(s−1)] = 98/36 = 2.722222.
Với giả thiết đã nêu, cĩ thể chứng minh được rằng đại lượng thống kê FA =
MSSA/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
krs−kr). Do đĩ, FA thực nghiệm =14.9898 > FA lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả
thuyết “các mức của nhân tố A (các mức bĩn phân) khơng ảnh hưởng tới số trung bình
chung (sản lượng bơng)” khơng được chấp nhận theo quy tắc kiểm định cĩ mức ý nghĩa α
= 0.05. ðiều này cĩ nghĩa là các mức bĩn phân khác nhau cĩ tác động khác nhau tới sản
lượng bơng nĩi chung. Tương tự chúng ta cĩ thế giải thích được rằng các mức mật độ cây
(nhân tố B) cũng như tác động đồng thời của A và B khơng ảnh hưởng đáng kể tới năng
suất bơng.
24
5. So sánh hai mẫu
Bài tốn ở đây là cần so sánh hai mẫu thơng qua việc kiểm định giả thuyết H0: m1 =
m2 (kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H1: m1 ≠ m2 ở mức ý
nghĩa α trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết H1 là
m1 > m2 (khi x > y ) hoặc m1 < m2 (khi x < y ).
5.1. So sánh hai mẫu độc lập khi biết phương sai σ12 và σ22
Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đĩ
chúng ta cĩ thể ước lượng được phương sai (thường xảy ra khi điều tra lại một tổng thể sau
một thời gian chưa lâu, nên phương sai chưa thay đổi, do đĩ lấy phương sai của lần điều tra
trước làm σ12 và σ22 , chẳng hạn khi xem xét các kết quả phân tích của hai phịng thí
nghiệm mà độ chính xác đã ổn định, từ đĩ cĩ các ước lượng về phương sai).
a. Các bước thực hiện
Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đĩ lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng
thể. ếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H1: m1=m2+d (d là 1 số nào
đĩ) thì ghi d.
- Variable 1 variance: Phương sai của biến 1(nhập σ12).
- Variable 2 variance: Phương sai của biến 2 (nhập σ22).
- Output Range: Chọn miền trống để đưa ra kết quả.
Ví dụ 8: Thực hiện thí nghiệm với mẫu 1 cĩ 10 quan sát, mẫu 2 cĩ 12 quan sát ta cĩ bảng
số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6.
x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9
y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6
Kết quả so sánh hai mẫu cho ở bảng I.10.
Bảng I.10. Kết quả so sánh hai mẫu độc lập
z-Test: Two Sample for Means
Mẫu 1 Mẫu 2
Mean 3.6 3.5
Known Variance 2.7 2.6
Observations 10 12
Hypothesized
Mean Difference
0
Z 0.14335
P(Z<=z) one-tail 0.44301
z Critical one-tail 1.64485
P(Z<=z) two-tail 0.88602
z Critical two-tail 1.95996
25
b. Phân tích kết quả
Bảng kết quả I.10 cĩ hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính
tới hàng thứ ba). Bảng này gồm cĩ:
- Trung bình của mẫu a1và a2.
- Phương sai đã cho (σ 21, σ 22).
- Số quan sát n1và n2.
- Giá trị z thực nghiệm: z=(a1-a2)/Sqrt(σ12/n1 + σ22/n2 )
- Giá trị P một phía và giá trị P hai phía.
- Giá trị z lý thuyết (tới hạn) một phía và hai phía.
Chú ý rằng, cĩ thể dùng một số hàm trong Excel để tính một số kết quả:
- Giá trị P một phía tính bằng hàm 1-Normsdist(z).
- Giá trị P hai phía tính bằng hàm (1-Normsdist(z))×2.
- Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm
Normsinv(0.95).
- Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975).
Trong ví dụ 8 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn)
một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều
lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến khơng khác nhau.
5.2. So sánh hai mẫu kiểu cặp đơi
Ta xét thí dụ: lấy một ổ chim và cân trọng lượng chim cái, trọng lượng chim đực ta
được hai mẫu quan sát của hai tổng thể chim cái và chim đực. Nếu lấy một số chim đực
ngẫu nhiên trong nhiều chim đực và lấy một số chim cái ngẫu nhiên trong nhiều chim cái
thì cĩ hai mẫu quan sát độc lập.
Trường hợp khác, nếu ta đem 10 mẫu đất, mỗi mẫu chia đơi, một nửa giao cho
phịng phân tích A thực hiện, nửa kia giao cho phịng phân tích B thì thu được số liệu cặp
đơi để so sánh kết quả của hai phịng phân tích, hoặc nếu ta đem hai giống lúa cấy trên một
số ruộng, mỗi ruộng chia đơi, một nửa cấy giống A, một nửa cấy giống B thì cĩ hai mẫu
cặp đơi để so sánh, hay nếu đo một chỉ số sinh lý hoặc sinh hố của một bệnh nhân khi
mới nhập viện và đo lại chỉ số đĩ sau một thời gian điều trị thì cĩ hai mẫu quan sát cặp đơi
để đánh giá hiệu quả điều trị.
Chú ý rằng, khi rút hai mẫu cặp đơi ta cĩ hai mẫu cùng số quan sát n, các số liệu
sắp xếp thành cặp đứng ở hai cột cạnh nhau.
a. Các bước thực hiện
Chọn Tools >Data Analysis > t-Test: Paired Two Sample for Means, sau đĩ lần
lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1,
kể cả tên hàng đầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
26
- Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thiết về hiệu hai trung bình của hai tổng thể.
Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1=m2+d (d là một
số nào đĩ) thì ghi d.
- Output Range: Chọn miền trống để đặt ra kết quả.
Ví dụ 9: Cĩ 8 cặp số liệu của hai mẫu x và y cho trong bảng sau:
x 39.6 32.4 33.1 27 36 32 25.9 32.4
y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2
Thực hiện phân tích trong Excel ta được bảng kết quả (bảng I.11.)
Bảng I.11. Kết quả so sánh hai mẫu cặp đơi
x y Giải thích
Mean 32.3 30.725 Trung bình mẫu
Variance 19.54 23.451 Phương sai mẫu
Observations 8 8 Số quan sát
Pearson Correlation 0.96187 Hệ số tương quan R
Hypothesized Mean
Difference
0 Giả thuyết về hiệu số
trung bình
df 7 Bậc tự do
t Stat 3.31055 Giá trị t thực nghiệm
P(T<=t) one-tail 0.00647 Giá trị P một phía
t Critical one-tail 1.89458 Giá trị t lý thuyết khi
kiểm định một phía
P(T<=t) two-tail 0.01293 Giá trị P hai phía
t Critical two-tail 2.36462 Giá trị t lý thuyết khi
kiểm định hai phía
b. Phân tích kết quả
Bảng kết quả cĩ hai cột cho hai mẫu quan sát. Bảng này cĩ các hàng:
- Trung bình mẫu a1, a2.
- Phương sai mẫu s12, s22.
- Số quan sát n1 và n2 (bằng nhau và bằng số cặp số liệu n).
- Hệ số tương quan r của 2 mẫu (coi như 2 biến).
- Bậc tự do df để kiểm định giả thuyết H0, df bằng số cặp (n-1).
- Giá trị t thực nghiệm: 3.31055.
27
- Giá trị P một phía: 0.00647.
- Giá trị t một phía: 1.894577508.
- Giá trị P hai phía: 0.01293.
- Giá trị t hai phía: 2.36462256.
Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía
và hai phía đều nhỏ hơn mức ý nghĩa α = 0.05), nên trong ví dụ trên ta chấp nhận giả
thuyết H1 .
5.3. So sánh hai mẫu độc lập với giả thiết hai phương sai bằng nhau
Trường hợp mẫu lớn: Khi việc rút hai mẫu quan sát từ hai tổng thể được tiến hành một
cách độc lập thì chúng ta cĩ hai mẫu độc lập. Nếu dung lượng của cả hai mẫu đều lớn
(thường quy ước là n1 ≥ 30, n2 ≥ 30) ta cĩ thể tiến hành z-test nhưng thay hai phương sai
của tổng thể σ12 và σ22 bằng phương sai mẫu s12 và s22. Trường hợp mẫu bé (n1,n2 nhỏ hơn
30) thì ta gặp bài tốn khĩ, gọi tên là bài tốn Berens – Fisher. Trong trường hợp này, nếu
coi hai phương sai của hai tổng thể bằng nhau (cần kiểm định giả thuyết phụ về sự bằng
nhau của hai phương sai) thì cĩ thể tiếp tục tính tốn như sau:
a. Các bước thực hiện:
Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances, sau
đĩ lần lượt trả lời:
- Input Variable 1 Range: Miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: Nếu đưa thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1=m2+d (d là 1 số
nào đĩ) thì ghi d.
- Output Range: Chọn miền trống để đưa kết quả ra.
Ví dụ 10: Tiến hành thí nghiệm hai mẫu cĩ tên x và y, mẫu x cĩ 5 số liệu, mẫu y cĩ 8 số
liệu như sau:
x 27.5 27 27.3 27.6 27.8
y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8
ðể kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, cĩ thể chọn Tools
> Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập
(trong mục Input) miền biến x và y, chọn mục Labels nếu cĩ nhãn ở hàng dầu, chọn mức ý
nghĩa α (ngầm định 0.05). Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là
0.328) lớn hơn 0.05. Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận.
28
Bảng I.12. Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau
t-Test: Two-Sample Assuming Equal Variances
x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Pooled Variance 0.20291
Hypothesized Mean
Difference
0
df 11
t Stat 1.5187
P(T<=t) one-tail 0.07852
t Critical one-tail 1.79588
P(T<=t) two-tail 0.15704
t Critical two-tail 2.20099
Hình I.13 minh hoạ các bước thực hiện so sánh hai mẫu trong Excel khi hai phương sai
bằng nhau. Kết quả so sánh hai mẫu cho ở bảng I.12.
Hình I.13. Các bước thực hiện trong Excel so sánh hai mẫu cùng phương sai
b. Phân tích kết quả
Bảng kết quả thu được cĩ hai cột cho hai mẫu quan sát, và lần lựơt cĩ các hàng sau:
- Trung bình (Mean) của mẫu a1, a2;
- Phương sai (Variance) của mẫu s12, s22.
- Số quan sát (Observations) n1 và n2.
29
- Phương sai chung (Pooled Variance) tính theo cơng thức
s2=((n1-1)s12+( n2-1)s22)/(n1+n2-2)
- Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means
difference).
- Bậc tự do df để kiểm định giả thuyết H0, df bằng (n1+ n2-2)
- Giá trị t thực nghiệm tính theo cơng thức:
t = (a1-a2)/Sqrt(s2×(1/n1+1/n2))
- Giá trị P một phía và hai phía.
- Các giá trị t lý thuyết một phía và hai phía.
Chý ý rằng cĩ thể tìm được:
- Giá trị P một phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2).
- Giá trị t lý thuyết một phía qua hàm TINV(0.10, df).
- Giá trị t lý thuyết hai phía qua hàm TINV(0.05, df).
Trong ví dụ 10, ta cĩ: phương sai của mẫu 1: 0.093; phương sai của mẫu 2:
0.26571; giá trị t thực nghiệm: 1.5187; giá trị t lý thuyết một phía: 1.79588; giá trị t lý
thuyết hai phía: 2.20099; giá trị P một phía: 0.07852 và giá trị hai phía: 0.15704. Kết luận:
chấp nhận giả thuyết H0 ở mức ý nghĩa 0.05.
Cần lưu ý rằng, trước khi dùng mơ hình phương sai bằng nhau phải kiểm định giả
thuyết phụ H0: σ12 = σ22 với đối thuyết H1: σ12 > σ22. Người sử dụng cĩ thể tự thực hiện
tính tốn bằng kiểm định Fisher như sau:
- Bước 1:Tính F thực nghiệm bằng tỷ số giữa hai phương sai mẫu (lấy phương sai
lớn chia cho phương sai bé).
- Bước 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df1 của
phương sai tử số và bậc tự do df2 của phương sai mẫu số, bằng hàm FINV(alpha, df1, df2)).
Nếu F thực nghiệm bé hơn F lý thuyết thì dùng mơ hình này (σ12 = σ22). Nếu trái lại, cần
chuyển sang mơ hình phương sai khác nhau (σ12 ≠ σ22) (mục 5.4).
Trong ví dụ trên, ta cĩ: F thực nghiệm = 0.26571/ 0.093=2.8571 và F lý thuyết =
FINV(0.05, 7, 4) = 6.09421, nên chấp nhận giả thuyết H0.
5.4. So sánh hai mẫu độc lập với giả thiết hai phương sai khác nhau
Trong trường hợp mẫu bé và phương sai khác nhau thì cĩ thể tính xấp xỉ theo các bước sau:
a. Các bước thực hiện:
Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Unequal Variances,
sau đĩ lần lượt trả lời:
- Input Variable 1 Range: Miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: Nếu đưa thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0; nếu lấy giả thuyết H0: m1= m2+d (d là 1 số
nào đĩ) thì ghi d.
30
- Output Range: Chọn miền trống để đưa kết quả ra.
Ví dụ 11: Chúng ta dùng lại ví dụ 10, giả sử rằng hai phương sai tổng thể khơng bằng
nhau. Kết quả so sánh hai mẫu cho trong bảng I.13.
b. Phân tích kết quả
Bảng kết quả thu được gồm hai cột cho hai mẫu quan sát và lần lượt cĩ các hàng:
- Trung bình (Mean) mẫu a1, a2.
- Phương sai (Variance) mẫu s12, s22.
- Số quan sát (Observations) n1 và n2.
- Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means
difference).
Bảng I.13. Kết quả so sánh hai mẫu phương sai khơng bằng nhau.
t-Test: Two-Sample Assuming Unequal Variances
x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Hypothesized Mean
Difference
0
df 11
t Stat 1.71333
P(T<=t) one-tail 0.05733
t Critical one-tail 1.79588
P(T<=t) two-tail 0.11466
t Critical two-tail 2.20099
- Giá trị t thực nghiệm tính theo cơng thức: t = (a1-a2)/(s21/n1+ s22/n2).
- Giá trị P một phía và hai phía.
- Các giá trị t lý thuyết một phía và hai phía.
Trong ví dụ trên ta cĩ:
- Giá trị t một phía: 1.79588
- Giá trị t hai phía: 2.20099
- Giá trị P một phía: 0.05733
- Giá trị P hai phía: 0.11466
- t thực nghiệm = 1.713325
Chú ý rằng kết quả bảng I.11 và I.12 khác nhau ở giá trị t thực nghiệm (vì dùng
cơng thức khác khi tính phương sai chung), điều này kéo theo giá trị P một phía và hai phía
cũng khác.
Theo kết quả trên giả thuyết H0 vẫn được chấp nhận ở mức ý nghĩ 0.05 do t thực
nghiệm nhỏ hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều
lớn hơn mức ý nghĩa α = 0.05).

File đính kèm:

xu_ly_du_lieu_thong_ke_nong_nghiep_voi_phan_mem_excel_va_sas.pdf