Kiểm định so sánh 2 trung bình SPSS

I. Giới thiệu T-test trung bình 2 mẫu độc lập

Kiểm định t-test trung bình 1 mẫu được sử dụng để kiểm chứng trung bình của một tổng thể so với 1 giá trị dự báo. Tuy nhiên, kiểm định này không thể được sử dụng trong trường hợp chúng ta muốn so sánh giá trị trung bình của 2 mẫu độc lập. Khi đó, chúng ta phải sử dụng kiểm định T-test trung bình 2 mẫu độc lập. Kiểm định T-test trung bình của 2 mẫu độc lập được sử dụng khi bạn muốn so sánh giá trị trung bình của một biến phụ thuộc liên tục có phân phối chuẩn theo hai nhóm giá trị của một biến độc lập có bằng nhau hay không.

  Xem thêm: Kiểm định tham số (Parametric tests)

Ví dụ, thu nhập trung bình của người lao động nam và người lao động nữ có bằng nhau hay không?

Để sử dụng kiểm định t-test trung bình 2 mẫu độc lập thì dữ liệu phải thỏa mãn 6 điều kiện sau:

  1. Biến phụ thuộc phải là biến liên tục (dạng khoảng hoặc tỉ lệ). Tham khảo bài viết các loại thang đo trong phân tích dữ liệu.
  2. Biến độc lập là biến phân loại 2 mức, chẳng hạn biến giới tính (nam/nữ), biến lao động (có việc làm/thất nghiệp), biến khu vực (thành thị/nông thôn)…
  3. Tính độc lập của mẫu: không có mối quan hệ giữa các quan sát trong cùng một nhóm hoặc giữa 2 nhóm,
  4. Không có các điểm dị biệt. Điểm dị biệt sẽ ảnh hưởng xấu đến kết quả và làm giảm tính hợp lý của kiểm định,
  5. Biến phụ thuộc phải có (hoặc xấp xỉ) phân phối chuẩn trong từng nhóm,
  6. Phương sai của biến phụ thuộc phải có tính đồng nhất (homogeneity of variances)

Phần hướng dẫn thực hành và đọc kết quả kiểm định t-test trung bình 2 mẫu trên SPSS được trình bày chi tiết ở trang 2.II. Minh họa thực hành kiểm định t-test trung bình 2 mẫu trên SPSS

Sử dụng bộ dữ liệu hsb2.sav

Đối tượng khảo sát của bộ dữ liệu này là 200 học sinh từ trung học trở xuống. Các biến chính trong bộ dữ liệu bao gồm điểm số các môn toán (math), đọc (read), viết (write), chương trình học (prog), giới tính (female)… Giả sử chúng ta muốn kiểm tra liệu điểm trung bình môn toán (math) giữa các học sinh nam và nữ có bằng nhau hay không? Để kiểm chứng điều này, chúng ta thực hiện T-test trung bình 2 mẫu như sau:

Kiểm chứng phân phối chuẩn của biến math bằng kiểm định Kolmogorov – Smirnov trong kiểm định phi tham số. Thực hiện tương tự như kiểm định T-test trung vị mẫu, tuy nhiên ở tab Settings, chọn ô Test observed distribution against hypothesized (Kolmogorov – Smirnov test)

Kết quả cửa sổ Model Viewer như sau:


Kết quả cho thấy, chưa đủ cơ sở để bác bỏ giả thuyết \({H_0}\) về tính chuẩn hóa của biến (hay có thể chấp nhận biến math có phân phối chuẩn).

– Vào Analyze \( \to \) Compare Means \( \to \) Independent-Samples T Test…

– Cửa sổ Independent-Samples T Test đưa biến math vào khung Test Variable(s): và biến female vào ô Grouping Variable:

– Bấm Define Groups… và thiết lập các thông số như hình:

– Bấm Continue để trở về cửa sổ Independent-Samples T Test

– Bấm OK để thực hiện kiểm định

III. Đọc kết quả kiểm định t-test trung bình 2 mẫu

Kết quả thực hiện hiện T-test trung bình 2 mẫu như sau:

Kết quả thống kê ở Group Statistics cho thấy điểm trung bình môn toán (math) ở nhóm nam cao hơn nữ (52.95 so với 52.39). Tuy nhiên, kết quả kiểm định t-test trung bình 2 mẫu cho thấy sự chênh lệch này không có ý nghĩa thống kê ở mức 5% (sig = 0.432 > 0.05).

Đối với những ai đã từng làm luận văn hay nghiên cứu khoa học, hẳn đều biết sự “lợi hại” của công cụ thống kê. Có thể nói, thống kê giúp bài luận mang tính xác thực và tin cậy cao hơn. Một trong những công cụ mạnh nhất mà bất cứ ai đã từng tiếp xúc với thống kê đều biết, đó chính là kiểm định T-test. Hãy cùng Tri Thức Cộng Đồng tìm hiểu về công cụ này nhé!

Mục lục

Trong thống kê, "Kiểm định T-test là một công cụ giúp so sánh giá trị trung bình (the mean) của một hoặc hai tổng thể bằng cách sử dụng phương pháp kiểm tra giả thuyết" (Paul, 2008). Tri Thức Cộng Đồng sẽ giúp quý Anh/chị tìm hiểu sâu hơn qua thông tin dưới đây.

1.1. Khái niệm về kiểm định T-test

Khái niệm: Phương pháp kiểm định T-test (còn gọi là phương pháp kiểm định sự khác biệt) được sử dụng để:

  • Xác định khác biệt về giá trị trung bình của một tổng thể so với giá trị cho trước nào đó (thường gọi là giá trị trung bình giả thuyết - α hypothesized mean)
  • Kiểm định sự khác biệt về giá trị trung bình giữa hai tổng thể trong mẫu.

Trường hợp áp dụng: Đo biến dạng thang đo khoảng cách hoặc thang đo tỷ lệ. 

Ứng dụng: Khi sử dụng SPSS, một kiểm định T-test 

  • Chấp nhận nếu có mức ý nghĩa quan sát (Sig) lớn hơn haowjc bằng mức ý nghĩa α = 0.05 (mặc định trong phần mềm), tức là Sig ≥ α
  • Bác bỏ nếu mức ý nghĩa quan sát (Sig) nhỏ hơn mức ý nghĩa α = 0.05, tức là Sign < α

1.2. Các dạng kiểm định T-test trong SPSS

Trong thống kê, kiểm định T-test được chia thành 3 loại chính như sau:

  • One-Sample T-test: So sánh giá trị trung bình của một tổng thể với một giá trị cụ thể nào đó.

Ví dụ: Kiểm tra chiều cao trung bình của học sinh một trường cấp 3 cao hơn/ thấp hơn/ bằng mức 1,70 mét

  • Independent Samples T-test: So sánh giá trị trung bình của hai tổng thể độc lập

Ví dụ: So sánh mức độ hài lòng khi sử dụng sản phẩm của 2 nhóm tuổi (Nhóm dưới 30 tuổi; Nhóm trên 30 tuổi)

  • Paired Sample T-test: So sánh giá trị trung bình của hai nhóm tổng thể riêng biệt A và B, với đặc điểm mỗi phần tử của tổng thể A có điểm tương đồng theo cặp với mỗi phần tử của tổng thể B.

Ví dụ: So sánh điểm kiểm tra chất lượng đầu vào của một nhóm học viên sau 3 tháng nhập học so với thời điểm bắt đầu. 

2. Kiểm định One-Sample T-Test 

Trên thực tế, rất nhiều người đã từng làm quen và sử dụng kiểm định T-test nhưng đều cảm thấy khó khăn, phức tạp. 

Tuy nhiên, bạn sẽ không phải đối mặt với tình trạng đó nữa, hãy tham khảo ngay 4 bước thực hiện kiểm định đơn giản nhất - kiểm định One-Sample T-test dựa trên ví dụ cụ thể sau đây.

2.1. Giả thuyết

Yêu cầu: Trong phạm vi các lớp đại học năm nhất, yêu cầu xác định: Trung bình số lượng học sinh lớn tuổi có lớn hơn 1 không?

Giả thuyết: Từ đề bài trên, ta chia thành 2 giả thuyết để kiểm định

  • H0: Số lượng học sinh lớn tuổi ≤ 1
  • H1: Số lượng học sinh lớn tuổi > 1

2.2. Cách thực hiện với 4 bước

Bước 1: Trên thanh công cụ của phần mềm SPSS, chọn Analyze → Compare Means → One-Sample T-test.

Khi đó, cửa sổ One-Sample T-test sẽ xuất hiện dưới dạng

Bước 2: Chọn các biến cần phân tích ở cột bên trái sang cột bên phải (Test Valuables) thông qua nút mũi tên ở giữa. Đồng thời, tại ô Test Value điền giá trị 1. Rồi tiếp tục nhấn Options.

Bước 3: Một cửa sổ mới sẽ hiện ra, tại ô Confidence Interval Percentage, nhập độ tin cậy là 95%. Sau đó, nhấn Continue

Bước 4: Đọc và phân tích kết quả

Hệ thống SPSS phân tích và trả về bảng kết quả như dưới đây:

Từ bảng trên, ta có thể đọc các kết quả như sau:

  • Giá trị trung bình biến (Mean) bằng 1.26
  • Độ lệch chuẩn (Std Deviation) là 1.255
  • Giá trị t = 1.410
  • Khoảng tin cậy cho độ chênh lệch giữa trung bình tổng thể (Number of older Siblings) lần lượt là -0.11 và 0,63
  • Giá trị p-value (Sig. (2-tailed)) là 0.165 > 0.05

⇒ Chấp nhận giả thuyết H0, bác bỏ H1

Kết luận: Với giá trị p-value = 0.165 > 0.05, không đủ bằng chứng để kết luận rằng: Trung bình số lượng học sinh lớn tuổi trong các lớp đại học lớn hơn 1.

3. Kiểm định Independent Samples T-Test 

Đến với kiểm định Independent Samples T-test - so sánh giá trị trung bình của 2 mẫu độc lập. 

Đặc điểm nhận dạng của kiểm định này là bao gồm 2 biến:

  • Biến định lượng để tính trung bình
  • Biến định tính để chia nhóm so sánh

Cụ thể, Tri Thức Cộng Đồng sẽ lấy ví dụ về kiểm định Independent Samples T-test như sau.

3.1. Giả thuyết

Yêu cầu: Xác định Thời gian trung bình chạy một dặm của một vận động viên của khác với một người không phải vận động viên hay không?

Chúng ta sẽ sử dụng 2 biến theo đề bài: Athlete và MileMinDur

  • Biến độc lập: Vận động viên (Athlete) có giá trị “0” (không là vận động viên), “1” (vận động viên)
  • Biến phụ thuộc: Thời gian chạy trung bình 1 dặm (MileMinDur)

Giả thuyết: Từ đề bài trên, ta chia thành 2 giả thuyết để kiểm định

  • H0: Thời gian chạy trung bình không phải vận động viên - vận động viên = 0
  • H1: Thời gian chạy trung bình không phải vận động viên - vận động viên ≠ 0

3.2. Cách thực hiện với 5 bước

Bước 1: Trên thanh công cụ phần mềm, chọn Analyze → Compare Means → Independent Samples T-test.

Bước 2: Cửa sổ mới mở ra, chọn các biến dữ liệu muốn phân tích ở cột bên trái và di chuyển đến khu vực Grouping Variable (Biến phụ thuộc) hoặc Test Variable(s) (Biến độc lập) bằng cách nhân vào mũi tên ở giữa. Trong ví dụ này, Biến độc lập là Athlete, còn biến phụ thuộc là MileMinDur.

Bước 3: Bấm chọn Options để mở ra cửa sổ mới. Tại đây nhập độ tin cậy (Confidence Interval Percentage) là 95% rồi chọn Continue để trở lại cửa sổ cũ.

Bước 4: Chọn Define Groups để nhập mã số của hai nhóm (0 và 1). Nhấn Continue để trở lại hộp thoại chính → Chọn OK để thực hiện lệch.

Bước 5: Đọc và phân tích kết quả

Nhìn vào bảng kết quả trên, chúng ta có thể đọc các thông tin như:

  • Thông tin chung: 226 người không phải là vận động viên có thời gian chạy trung bình (Mean) là 0:09:06 và độ lệch chuẩn (Std.Deviation) là 0:02:01.668. Tương tự, 166 vận động viên có thời gian chạy trung bình (Mean) là 0:06:51 và độ lệch chuẩn (Std.Deviation) là 0:00:49.464
  • Phân tích kiểm định Levene: Giá trị Sig. trong kiểm định Levene (kiểm định F) là 0.000 < 0.05 ⇒ phương sai của 2 tổng thể khác nhau, ta sử dụng kết quả kiểm định t tại dòng Equal variances not assumed ⇒ Bác bỏ giả thuyết H0, kết luận: Phương sai trong thời gian chạy trung bình một dặm của vận động viên khác biệt đáng kể so với người không là vận động viên.
  • Phân tích Independent Samples T-test: Chỉ số Sig. (2-tailed) là 0.000 nhỏ hơn mức ý nghĩa α = 0.05 ⇒ Bác bỏ giả thuyết H0, kết luận: Thời gian chạy trung bình một dặm của vận động viên và người không là vận động viên khác nhau đáng kể.

Kết luận: 

Có sự khác biệt đáng kể về thời gian chạy trung bình một dặm giữa người không là vận động viên và người là vận động viên (t 315.846 = 15.047, p < 0.05).

Thời gian trung bình chạy một dặm của vận động viên là 2 phút 14 giây, nhanh hơn thời gian của một người không là vận động viên.

4. Kiểm định Paired Sample T-Test

Cuối cùng trong kiểm định T-test là loại kiểm định Paired Sample T-test, giúp so sánh giá trị trung bình của 2 tổng thể riêng biệt với mối quan hệ tương đồng giữa các phần tử. 

Lợi thế của phép kiểm định Paired Sample T-test là loại trừ được những yếu tố tác động bên ngoài vào các nhóm thử. Do đó, phương pháp này rất thích hợp với dạng thử nghiệm trước và sau.

Để Quý Anh/chị dễ dàng hình dung và hiểu rõ, Tri Thức Cộng Đồng đã minh họa thông qua ví dụ sau:

4.1. Giả thuyết

Yêu cầu: Kiểm định giả thuyết: Đánh giá của người dùng về Tính thời sự cập nhật và tính xác thực công tin của báo Tiền Phong là như nhau.”

Giả thuyết: Căn cứ vào đề bài, chúng ta thiết lập được 2 giả thuyết

  • H0: Tính thời sự cập nhật = Tính xác thực thông tin
  • H1: Tính thời sự cập nhật ≠ Tính xác thực thông tin

4.2. Cách thực hiện với 5 bước

Bước 1: Trên thanh công cụ của SPSS, chọn Analyze → Compare Means → Independent Samples T-test.

Bước 2: Cửa sổ Paired Samples T-test mở ra, bạn chọn các biến muốn kiểm định ở cột trái và di chuyển sang khu vực Paired Variables bằng cách chọn và nhấn vào mũi tên ở giữa.

Bước 3: Bấm chọn Options để mở ra một cửa sổ mới, nhập độ tin cậy 95% rồi chọn Continue để trở về cửa sổ cũ, bấm OK để nhận kết quả.

Bước 4: Đọc và phân tích kết quả

Nhìn vào bảng kết quả, dữ liệu chúng ta cần quan tâm nhất là chỉ số Sig. (2-tailed) - 0.668 lớn hơn mức ý nghĩa α = 0.05 ⇒ Chấp nhận giả thuyết H0

Kết luận: Trung bình tổng thể của tính thời sự cập nhật và tính xác thực thông tin của báo Tiền Phong do người đọc đánh giá là như nhau.

Như vậy, Tri Thức Cộng Đồng đã giúp làm rõ và cụ thể hóa các kiến thức liên quan đến Kiểm định T-test. Mong rằng với những thông tin được chia sẻ trên, bạn có thể dễ dàng áp dụng và thực hành ngay trong bài nghiên cứu của mình. Nếu gặp bất kỳ vấn đề hoặc khó khăn gì trong quá trình chạy SPSS, hãy liên lạc ngay với Tri Thức Cộng Đồng để được hỗ trợ.

Tải thêm tài liệu liên quan đến bài viết Kiểm định so sánh 2 trung bình SPSS