Khoảng tin cậy của giá trị trung bình năm 2024

Nội dung phần này

Dùng SPSS để xây dựng Khoảng tin cậy cho trung bình, trường hợp:

  • Ước lượng trung bình của một tổng thể
  • Ước lượng sai khác trung bình của hai tổng thể
    • Hai tổng thể độc lập
    • Hai tổng thể không độc lập

Trong phần trước, ta đã xem xét ảnh hưởng của độ tin cậy (hay mức ý nghĩa `alpha`) đến khoảng ước lượng. Ta cũng biết rằng một yếu tố khác cũng có ảnh hưởng đến khoảng ước lượng là phân phối của thông số cần ước lượng. Trong phần này, ta tìm cách xác định khoảng ước lượng cho trung bình, tỷ lệ và phương sai khi chịu tác động của các yếu tố trên.

Khoảng tin cậy của trị trung bình

Phân phối Student

Xét tổng thể có trung bình `mu` và độ lệch chuẩn `sigma`. Lấy từ tổng thể này ra mẫu có `n` phần tử. Mẫu này có trung bình `bar x` và độ lệch chuẩn `s`. Do mẫu lấy ngẫu nhiên nên các thông số này của mẫu cũng là các biến ngẫu nhiên. Trong phần khảo sát về phân phối của các số thống kê ta biết rằng biến số:

`t=((bar x-mu)sqrt(n))/s`(10)

có phân phối Student.

Ước lượng khoảng cho trung bình

Sau khi đã xác định được các giá trị trung bình `bar x` và độ lệch chuẩn `s` của mẫu có kích thước là `n`, thì khoảng ước lượng của `mu` với độ tin cậy `1-alpha` là :

`bar x-t_(alpha//2,\ nu)s/sqrt(n)<=mu<=bar x+t_(alpha//2,\ nu)s/sqrt(n)`(11)

trong đó `nu=n-1` là độ tự do, giá trị của `t_(alpha//2,\ nu)` được tra trong bảng phân vị Student.

Thí dụ

Khi đo chi phí nhiên liệu của 20 xe máy thuộc model M do công ty C sản xuất, ta thu được quãng đường trung bình đi được cho mỗi lít xăng A92 là 54,2 km với độ lệch chuẩn là 6,3 km. Hãy ước lượng quãng đường đi được trung bình của model này cho mỗi lít xăng A92 với độ tin cậy là 95%.

Ta có : `alpha=0,05` ; `alpha//2=0,025` ; `nu=n-1=20-1=19`

Tra bảng phân vị Student với độ tự do `nu=19` và `a=0,025` ta có `t_(0,025,\ 19)=2,093`

Vậy : `t_(0,025,\ 19)xx(6,3)/sqrt(20)=2,948`

Vì thế với độ tin cậy 95%, quãng đường đi được trung bình cho mỗi lít xăng A92 của xe máy model M thuộc khoảng ((54,2-2,9) - (54,2+2,9)) km hay (51,3 - 57,1) km.

Các trường hợp riêng

  • Nếu mẫu lớn, ta có thể dùng `z_(alpha//2)` thay vì `t_(alpha//2)`
  • Nếu đã biết `sigma`, ta sử dụng `sigma` thay vì `s`

    Khoảng tin cậy của tỷ lệ

    Phân phối của tỷ lệ

    Xét tổng thể có tỷ lệ các phần tử có tính chất A là `pi`. Lấy một cách ngẫu nhiên từ tổng thể ấy mẫu có `n` phần tử (`n>=30`). Kết quả khảo sát trên mẫu cho thấy tỷ lệ các phần tử có tính chất A là `p`. Do lấy mẫu ngẫu nhiên nên `p` cũng là biến ngẫu nhiên. Với số lần lấy mẫu đủ lớn, `p` có phân phối chuẩn với trung bình là `pi`.

    Ước lượng tỷ lệ

    Với độ tin cậy `1-alpha`, khoảng ước lượng cho tỷ lệ `pi` các phần tử của tổng thể có tính chất A là:

    `p-z_(alpha//2)sqrt((p(1-p))/n)<=pi<= p+z_(alpha//2)sqrt((p(1-p))/n))`(12)

    với `p` là tỷ lệ phần tử có tính chất A của mẫu, `n` là số phần tử của mẫu (`n>=30`).

    Thí dụ

    Để đánh giá mức độ sử dụng máy điều hòa tại quận Q, người ta điều tra một mẫu gồm 150 gia đình. Kết quả điều tra cho thấy có 48 gia đình sử dụng máy điều hòa. Với độ tin cậy là 95%, hãy ước lượng tỷ lệ gia đình sử dụng máy điều hòa tại quận Q.

    Tỷ lệ gia đình sử dụng máy điều hòa của mẫu là: `p=48/150=0,32`

    Ta có : `alpha=0,05` ; `alpha//2=0,025`

    Sử dụng bảng phân vị Student với `a=0,025` và dòng cuối cùng (độ tự do vô cùng lớn), ta có `z_(0,025)=1,96`

    Vậy : `z_(alpha//2)sqrt((p(1-p))/n)=1,96xxsqrt((0,32xx0,68)/150)=0,0747`

    Do đó `pi` thuộc khoảng ((0,3200-0,0747) - (0,3200+0,0747))

    Vậy với độ tin cậy 95%, tỷ lệ gia đình sử dụng máy điều hòa ở quận Q được ước lượng trong khoảng 24,53% đến 39,47%

    Khoảng tin cậy của phương sai

    Khi ước lượng phương sai, ta cũng lý luận tương tự như hai trường hợp trên của trung bình và tỷ lệ. Điểm khác biệt ở đây là phương sai liên kết với phân phối `chi^2`. Do đó khoảng ước lượng của phương sai với độ tin cậy `1-alpha` là:

    `((n-1)s^2)/(chi_(alpha//2,\ n-1)^2)<=sigma^2<=((n-1)s^2)/(chi_(1-alpha//2,\ n-1)^2)`(13)

    trong đó `nu=n-1` là độ tự do, `chi_(1-alpha//2,\ n-1)^2` và `chi_(alpha//2,\ n-1)^2`được xác định từ bảng phân vị `chi^2`.

    Bài viết này đã được cùng viết bởi . Mario Banuelos là trợ lý giáo sư toán học tại Đại học Bang California, Fresno. Với hơn tám năm kinh nghiệm giảng dạy, Mario chuyên về toán sinh học, tối ưu hóa, mô hình thống kê cho sự tiến hóa của bộ gen và khoa học dữ liệu. Mario có bằng cử nhân toán học của Đại học Bang California, Fresno và bằng tiến sĩ toán học ứng dụng của Đại học California, Merced. Mario giảng dạy cả ở cấp trung học lẫn đại học.

    Bài viết này đã được xem 136.163 lần.

    Khoảng tin cậy là một chỉ số giúp ta biết được tính chính xác của phép đo. Ngoài ra, khoảng tin cậy cũng cho biết độ ổn định khi ước lượng một giá trị, tức là nhờ vào khoảng tin cậy, bạn có thể biết được kết quả của phép đo lặp lại sẽ sai lệch thế nào so với ước tính ban đầu. Bài viết dưới đây sẽ giúp bạn biết được cách để tính khoảng tin cậy.

    • Giả dụ bạn muốn kiểm tra tình huống sau : Cân nặng trung bình của sinh viên nam ở trường ABC là 81 kg (tương đương 180 lbs). Bạn cần kiểm tra xem dự đoán của bạn về cân nặng của sinh viên nam trong trường ABC có chính xác trong khoảng tin cậy cho trước hay không.
    • Đây là bước bạn sẽ thực hiện để thu thập số liệu nhằm kiểm tra giả thiết bạn đã đặt ra. Ví dụ bạn đã chọn ngẫu nhiên 1000 sinh viên nam.
    • Chọn một giá trị thống kê của mẫu (ví dụ như giá trị trung bình, độ lệch chuẩn của mẫu) mà bạn muốn sử dụng để ước lượng tham số của tổng thể bạn đã chọn. Một tham số của tổng thể là một giá trị biểu thị một đặc tính nhất định của tổng thể đó. Để tính giá trị trung bình và độ lệch chuẩn của mẫu, ta làm như sau:
    • Ta tính giá trị trung bình bằng cách lấy tổng cân nặng của 1000 sinh viên nam đã chọn và chia tổng thu được cho 1000, tức là số lượng sinh viên. Giá trị cân nặng trung bình thu được sẽ là 81 kg (180 lbs).
    • Để tính độ lệch chuẩn, bạn cần xác định được giá trị trung bình của bộ số liệu. Sau đó, bạn cần tính được độ biến thiên của số liệu, hay nói cách khác là tìm giá trị trung bình của bình phương sai lệch so với giá trị trung bình. Tiếp theo, ta sẽ lấy căn bậc hai của giá trị thu được. Giả dụ độ lệch chuẩn tính được là 14 kg (tương đương 30 lbs). (Chú ý: đôi khi giá trị độ lệch chuẩn sẽ được cho trước trong các bài toán thống kê).
    • Các khoảng tin cậy thường được dùng là 90%, 95% và 99%. Giá trị này cũng thường được cho trước. Ví dụ xét khoảng tin cậy 95%.
    • Giới hạn sai số có thể tính theo công thức: Za/2 * σ/√(n). Trong đó, Za/2 là hệ số tin cậy, với a là khoảng tin cậy, σ là độ lệch chuẩn và n là kích thước mẫu. Hay nói cách khác, bạn cần nhân giá trị giới hạn với sai số chuẩn. Để giải được công thức này, ta chia công thức thành các phần nhỏ như sau:
    • Để tính trị số giới hạn Za/2: Khoảng tin cậy đang xét là 95%. Chuyển từ giá trị phần trăm sang giá trị thập phân ta được: 0,95; lấy giá trị này chia cho 2 ta được 0,475. Tiếp đó, so sánh với bảng z table để tìm được giá trị tương ứng với 0,475. Ta thấy rằng giá trị gần nhất là 1,96 nằm ở giao điểm của hàng 1,9 và cột 0,06.
    • Để tính sai số chuẩn, lấy độ lệch chuẩn là 30 (theo lbs, và 14 theo kg), chia giá trị này cho căn bậc hai của kích cỡ mẫu là 1000. Ta được 30/31,6 = 0,95 lbs, hoặc (14/31,6 = 0,44 kg).
    • Nhân trị số tới hạn với sai số chuẩn, tức là lấy 1,96 x 0,95 = 1,86 (theo lbs) hoặc 1,96 x 0,44 =0,86 (theo kg). Tích số này chính là giới hạn sai số hay phạm vi sai số.

    Để ghi khoảng tin cậy, ta lấy giá trị trung bình (180 lbs, hoặc 81 kg) và ghi giá trị này bên trái dấu ± sau đó đến giới hạn sai số. Vậy, kết quả thu được là: 180 ± 1.86 lbs hoặc 81 ± 0,44 kg. Ta có thể xác định được cận trên và cận dưới của khoảng tin cậy bằng cách cộng thêm hoặc trừ đi giá trị trung bình một lượng bằng phạm vi sai số. Tức là, nếu tính theo lbs, cận dưới là 180 – 1,86 = 178,16 và cận trên là 180 + 1,86 = 181,86.