Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)

Power

Power

Việc xác định qui luật xác suất của các biến (variable) có mặt trong tổng thể (population) là một điều cần thiết trong xử lí số liệu. Bài toán ước lượng tham số (parameter estimation) mới chỉ giải quyết việc ước lượng tham số có mặt trong phân phối xác suất của tổng thể (probability distribution of population). Trong baì viết này, ta sẽ xây dựng các qui tắc đánh giá giả thuyết (evaluate hypothesis) về các tham số. Qua các qui tắc kiểm định, ta có thể biết được cách xây dựng các giả thuyết (NULL hypothesis) và đối thuyết (alternative hypothesis) trong từng trường hợp cụ thể. Bài toán kiểm định giả thuyết thống kê (hypothesis testing) là một bài toán lớn và quan trọng của thống kê toán học.

Dẫn nhập

Một khái niệm quan trọng trong kiểm định giả thuyết đó là giả thuyết không (NULL hypothesis) thường ký hiệu là H_0. Là giả thuyết hiện tại đang được chấp nhận (status_quo) và giả định là đúng (true). Giả thuyết phản lại là giả thuyết nghịch (alternative hypothesis) thường ký hiệu là H_a.

Ta thường dùng H_0 để chỉ một giả thuyết. Giả thuyết là một mệnh đề nên có thể đúng hoặc không đúng. Tuy nhiên để kiểm tra tính đúng của một mệnh đề ta phải dựa trên tiêu chí thế nào là một mệnh đề đúng. Để khẳng định tính đúng sai của một mệnh đề ta thường kiểm tra mệnh đề này có thoả một số yêu cầu nào đó hay không hoặc đưa ra một mệnh đề khác trái với mệnh đề đã cho, trên cơ sở thực tế ta đưa ra quyết định coi mệnh đề ban đầu là đúng hoặc mệnh đề mới đưa ra là đúng.

Ví dụ về rối loạn hô hấp

Chỉ số rối loạn hô hấp – respiratory disturbance index (RDI) lớn hơn 30 triệu chứng (events)/giờ được xem là dấu hiệu của chứng rối loạn hô hấp khi ngủ – sleep disordered breathing (SDB). Giả sử ta có 100 đối tượng khảo sát, giá trị trung bình RDI (X’) là 32 triệu chứng/giờ với độ lệch chuẩn là 10 triệu chứng/giờ.

Bài toán: ta muốn kiểm định giả thuyết không H_0 rằng mu = 30 (không có dấu hiệu SDB). Giả thuyết nghịch H_a là mu > 30 (có dấu hiệu SDB). Ở đây mu biểu diễn giả thuyết trung bình quần thể (population) RDI.

Như vậy ta cần đối sánh hai giả thuyết này, H_0 và H_a, để xem chúng ta sẽ chọn cái nào (sử dụng chứng cứ thống kê – statistical evidence). Ta sẽ có 4 trường hợp (outcomes) xảy ra.

Four outcomes

Four outcomes

Từ mẫu đã cho ta xây dựng một qui tắc chấp nhận giả thuyết H_0 (tương ứng với việc bác bỏ đối thuyết H_a) hoặc bác bỏ giả thuyết H_0 (tương ứng với việc chấp nhận đối thuyết H_a) được gọi là bài toán kiểm định giả thuyết thống kê. Việc đưa ra một qui tắc chấp nhận hoặc bác bỏ giả thuyết H_0 dựa trên mẫu đã cho tương đương với việc xây dựng một qui tắc chia không gian mẫu V ra làm hai phần W và W’.

Nếu mẫu (X1, X2, … , Xn) thuộc W ta quyết định bác bỏ giả thuyết H_0.
Nếu mẫu (X1, X2, … , Xn) thuộc W’ ta quyết định chấp nhận giả thuyết H_0.

Với một qui tắc hành động chấp nhận hay bác bỏ H_0 ta có thể mắc phải các loại sai lầm sau:

Sai lầm loại 1: Bác bỏ giả thuyết H_0 khi H_0 đúng (Type I error REJECTS a TRUE null hypothesis H_0). Tương ứng với sai lầm loại 1, xác suất sai lầm loại 1: P(W|H_0) = alpha (mức ý nghĩa của bài toán kiểm định).

Sai lầm loại 2: Chấp nhận giả thuyết H_0 khi H_0 sai (Type II error ACCEPTS a FALSE null hypothesis H_0). Tương ứng với sai lầm loại 2, xác suất sai lầm loại 2: P(W’|H_a) = beta (1 – beta được gọi là lực lượng – POWER của phép kiểm định).

Type-I-and-II-errors.jpg

Mong muốn của người làm thống kê là xây một qui tắc chấp nhận hoặc bác bỏ một giả thuyết sao cho xác suất cả hai loại sai lầm càng nhỏ càng tốt. Tuy nhiên ta có:

P(W|H_0) + P(W'|H_0) = 1 ; P(W|H_a) + P(W'|H_a) = 1

Từ đây suy ra khi alpha giảm thì beta tăng và ngược lại. Với mẫu có kích thước cố định, để xây dựng một qui tắc hành động chấp nhận hoặc bác bỏ giả thuyết ta có thể đi theo một trong hai hướng sau:

Hướng thứ nhất: Cố định xác suất sai lầm loại 1, xây dựng một qui tắc sao cho xác suất sai lầm loại 2 là nhỏ nhất hoặc có thể chấp nhận được
Hướng thứ hai: ngược lại với hướng thứ nhất.

Do đối thuyết H_a thường là mệnh đề hợp (là hợp của các mệnh đề) nên việc cố định xác suất sai lầm loại hai là phức tạp và khó khả thi. Trong bài viết này, ta tập trung cho hướng thứ nhất, bác bỏ một giả thuyết đúng.

Kiểm định kì vọng của phân phối chuẩn khi phương sai đã biết

Giả sử đặc trưng X ở tổng thể có phân phối chuẩn N(mu; s^2) với s^2 đã biết. Từ mẫu ngẫu nhiên (X1, X2, …,Xn) ta xây dựng qui tắc kiểm định giả thuyết không H_0 rằng mu = 30 (không có dấu hiệu SDB). Giả thuyết nghịch H_a mu > 30 (có dấu hiệu SDB).

Quay lại ví dụ tập dữ liệu sleep. Chiến lược để bác bỏ giả thuyết không (null hypothesis) nếu trung bình mẫu X’ lớn hơn một giá trị hằng số C. Ta chọn C sao cho xác suất lỗi loại I, alpha, là 0.05 (nhiều bài báo khoa học sử dụng 0.05 là giá trị chuẩn để bác bỏ một giả thuyết). Nghĩa là P(X > C|H_0)=5%.

x <- seq(-8,8, length = 2000)
dat <- data.frame(x=x, y=dnorm(x,sd=2))
g <- ggplot(dat, aes(x = x, y = y)) + geom_line(size = 1.5)+scale_y_continuous(limits=c(0,max(dat$y)))
suppressWarnings(g qnorm(.95,sd=2),x,NA)),
            geom_params=list(fill="red",alpha=.5)) )
suppressWarnings(print(g))
Null hypothesis 1

Đây là biểu đồ cho chúng ta thấy xác suất các giá trị X > C là 5% được tô màu đậm. Giá trị nhỏ nhất của X để phân ranh giới này là phần trăm phân vị 95.

qnorm(.95)
[1] 1.644854

Phần trăm phân vị (percentile) 95 của phân phối chuẩn là 1.645. Với mean của giả thuyết là 30, giá trị C = 30 + 1.645 * 1 = 31.645. Ta có trung bình mẫu quan sát X’ là 32 lớn hơn C=31.645, nên nó rơi vào vùng lỗi alpha 5%. Khi đó, ta có thể bác bỏ giả thuyết H_0.

Như vậy luật “Bác bỏ H_0 khi trung bình mẫu X’ >= 31.645” có ý nghĩa là xác suất để bác bỏ H_0 khi điều này đúng là 5%, với thông số giả thuyết mu=30, variance=1, n=100.

Thay vì tính hằng số C dùng để làm ngưỡng (cutpoint) cho việc chấp nhận hay bác bỏ giả thuyết không, ta có thể đơn giản tính Z score, là giá trị độ lệch chuẩn giữa trung bình mẫu so với trung bình quần thể. Sau đó, ta có thể so sánh Z với phân vị định nghĩa bởi alpha.

Làm thế nào ta làm được điều này? Tính khoảng cách giữa hai trung bình (32-30) sau đó chia cho độ lỗi trung bình của mean, (s/sqrt(n)).

Z score được tính bởi công thức X’-mu chia cho độ lỗi chuẩn của mean. Trong ví dụ này, X’=32, mu=30 và độ lỗi chuẩn bằng 10/sqrt(100)=1. Vậy Z=2/1=2.

Z score bằng 2. Phân vị bằng 1.645, như vậy 2 > 1.645. Ta có thể bác bỏ giả thuyết H_0.

Trường hợp đối thuyết H_a xét ở hai bên đuôi của phân phối chuẩn

Ta xét trường hợp đối thuyết H_a có mu khác mu_0. Ta sẽ bác bỏ H_0 (chấp nhận H_a) khi trung bình mẫu khác mu_0, nghĩa là lớn hơn hay nhỏ hơn mu_0 (cả hai vế).

Ta vẫn giữ mức độ lỗi là 5%, ta chia cho hai vì ta xét cả hai bên của phân phối chuẩn, như vậy một bên phân vị sẽ là 0.025 và một bên là 0.975. Ta có kiểm định thống kê (X’-mu) / s/sqrt(n) nhỏ hơn 0.025, Z_(alpha/2), hay lớn hơn 0.975, Z_(1-alpha/2).

Null hypothesis 2

Null hypothesis 2

Như hình vẽ trên, phần được tô đậm là vùng bác bỏ với mức ý nghĩa 5%. Như vậy, khi chia đều ra hai bên ta sẽ có mỗi bên có mức ý nghĩa là 2.5%.  Lưu ý rằng, nãy giờ ta có dựa trên định lý giới hạn trung tâm (CENTRAL LIMIT THEOREM (CLT)) để nói về phân phối chuẩn. Vì kích thước của quần thể lớn nên ta có thể xấp xỉ phân bố này là phân bố chuẩn.

Trong trường hợp mẫu dữ liệu của chúng ta không đủ lớn, ta có thể dùng phân bố t với kiểm định thống kê như ban nãy là (X’-mu) / s/sqrt(n). Nghĩa là với ví dụ tính toán trên ta sẽ thực hiện như nhau chỉ trừ thay vì sử dụng phân vị của phân bố chuẩn, ta sử dụng phân vị t với n-1 bậc tự do.

Quay lại với ví dụ về tập dữ liệu sleep, lần này giả sử kích thước mẫu bằng 16 (thay vì 100). Tương tự, trung bình mẫu X’=32, độ lệch chuẩn s=10. H_0 phát biểu rằng mu=30, và H_a cho rằng mu > 30. Với kích thước mẫu nhỏ hơn như vậy ta sử dụng kiểm định theo phân phối t. Như vậy giá trị kiểm định sẽ là (X'-mu)/(s/sqrt(n)) = (32-30)/(10/4) = 0.8.

Với kích thước mẫu là 16, bậc tự do sẽ là 16-1=15. Ta cần tìm phân vị 95% của phân phối t bằng cách sử dụng hàm qt trong R với đối số là 0.95 và bậc tự do bằng 15 để tính phân vị này.

qt(.95,15)
[1] 1.75305

Như vậy giá trị kiểm định thống kê 0.8 30. Như vậy ta không bác bỏ được H_0.

qt(.25,15)
[1] -2.13145

Tương tự, ta có giá trị kiểm định thống kê 0.8 > -0.69. Như vậy, cả hai bên kiểm định đều không bác bỏ được H_0.

Qua bài viết này, ta có thể thấy được sự liên quan giữa lý thuyết khoảng tin cậy (confidence intervals) và kiểm định giả thuyết thống kê (hypothesis tests). Bởi vì hai lý thuyết này là như nhau.

Nguồn tham khảo:

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s