Statistical Inference: Khoảng tin cậy T (Confident Interval)

T plot 2 df

Trong bài viết này, ta sẽ thảo luận về một vài phương pháp thống kê trên tập dữ liệu nhỏ, cụ thể là phân phối T của Student/Gosset và khoảng tin cậy T.

Dẫn nhập

Ở bài viết trước (Asymptotics – tiệm cận), ta đã thảo luận về khoảng tin cậy sử dụng định lý giới hạn trung tâm (Central Limit Theorem (CLT)) và phân phối chuẩn. Cả hai đều cần kích thước mẫu dữ liệu lớn và công thức tính khoảng tin cậy bằng Est +/- qnorm *std error(Est). Trong đó, Est (estimated value) là giá trị ước lượng (ví dụ trung bình mẫu) với độ lỗi chuẩn (standard error). qnorm thể hiện giá trị phân vị (quantile) cụ thể từ phân phối chuẩn.

Ta cũng đề cập đến thống kê Z=(X'-\mu)/(\sigma/\sqrt n) có phân phối chuẩn. Phân phối đã được chuẩn hóa (normalized) này trông rất “đẹp” vì ta có mean=0 và variance=1.

Như vậy mean và variance của phân phối chuẩn đã biết và không thay đổi. Bây giờ, ta sẽ định nghĩa thống kê t, trông khá giống Z. Ta định nghĩa t=(X'\-mu)/(s/\sqrt n). Như thống kê Z, t có trọng tâm tại 0. Điểm khác biệt duy nhất là độ lệch chuẩn của quần thể (population), sigma, trong Z được thay thế bởi độ lệch của của tập dữ liệu mẫu (sample) trong t. Do đó, phân phối của thống kê t độc lập với trung bình và phương sai quần thể. Thay vì vậy, t phụ thuộc vào kích thước tập dữ liệu mẫu n.

Kết quả là, đối với phân phối t, công thức tính khoảng tin cậy tương tự như những gì ta đã làm ở phần trước. Tuy nhiên, thay vì lấy phân vị cho phân phối chuẩn, ta sử dụng phân vị cho phân phối t. Cho nên, công thức sẽ là Est +/- t-quantile *std error(Est). Điểm lưu ý là ta sẽ sử dụng độ lệch chuẩn của tập dữ liệu mẫu khi ước lượng độ lỗi chuẩn của Est. Xem thêm

Khoảng tin cậy t rất tiện dụng, nếu bạn được chọn một trong hai với phân phối chuẩn, bạn nên chọn phân phối t. Ta sẽ thấy khi tập dữ liệu càng lớn, t xấp xĩ phân phối chuẩn.

Phân phối t

Phân phối t, được phát minh bởi William Gosset vào năm 1908, có phần đuôi “mập” hơn phân phối chuẩn. Thay vì có hai thông số mean và variance như phân phối chuẩn, phân phối t chỉ có duy nhất thông số bậc tự do (degrees of freedom (df)).

Khi df tăng, phân phối t trông giống phân phối chuẩn, trọng tâm tiến gần về 0. t cũng giải định dữ liệu là iid từ Gaussian, nên thống kê (X' - \mu)/(s/\sqrt n) có n-1 bậc tự do. Xem thêm

Để minh họa điều trên, ta xây dựng hàm myplot với đối số là df. Hàm này sẽ xuất ra biểu đồ phân phối t với số bậc tự do là df.

k xvals myplot d x = xvals,
dist = factor(rep(c("Normal", "T"), c(k,k))))

Ta thử hàm myplot với bậc tự do là 2

myplot(2)

T plot 2 df

Ta thấy phần “mông” của phân phối t (màu xanh) không cao như phân phối chuẩn. Theo đó, hai phần “đuôi” của phân phối t nhận nhiều giá trị hơn nên dày hơn phân phối chuẩn. Chú ý rằng với bậc tự do là 2, ta chỉ có 3 điểm dữ liệu. Tiếp theo, ta thử myplot với df là 20.

myplot(20)
T plot 20 df

T plot 20 df

Cả hai phân phối gần như chồng lên nhau khi ta nâng df lên. Một cách khác để so sánh hai phân phối này là sử dụng phân vị (quantiles). Ta xây dựng hàm myplot2 xuất ra biểu đồ với đường màu xanh nhạt thể hiện phân vị của phân phối chuẩn và đường màu đen thể hiện phân vị của phân phối t. Cả hai phân vị đều bắt đầu ở phần trăm phân vị 50th đến 99th.

Ta thử dùng hàm myplot2 với 2 df

myplot2(2)
T quantile 2 df

T quantile 2 df

Khoảng cách giữa hai đường này thể hiện sai biệt về kích thước phân vị của chúng. Lưu ý đường kẻ mảnh hơn theo chiều ngang và dọc. Chúng thể hiện 0.975 phân vị của phân phối t và chuẩn. Dù gì thì bạn cũng nhận ra vị trí của đường kẻ dọc là 1.96 như bài viết về tiệm cận (Asymptotics).

Kiểm tra vị trí đường kẻ ngang bằng cách sử dụng hàm qt() của R với đối số phân vị là 0.975 và bậc tự do df là 2.

qt(.975,2)
[1] 4.302653

Ta thấy giá trị này trùng với đường kẻ ngang cắt qua trong biểu đồ trên. Bây giờ, ta chạy hàm myplot2 với 20 df.

myplot2(20)
T quantile 20 df

T quantile 20 df

Hai phân vị ngày càng gần nhau hơn khi bậc tự do càng cao. Tại phần trăm phân vị 97.5, phân vị của t vẫn lớn hơn phân phối chuẩn. Đây là luật Student.

Student’s Rules

Điều này có nghĩa là khoảng tin cậy của t luôn rộng hơn phân bố chuẩn. Do việc ước lượng độ lệch chuẩn phát sinh tính toán không chắc chắn nên kết quả tin cậy cần rộng hơn.

Vậy khoảng tin cậy t được định nghĩa bởi X' +/- t_{n-1}*s/\sqrt n. Trong đó, t_{n-1} là phân vị. Khoảng tin cậy t giả định rằng tập dữ liệu là idd từ phân phối chuẩn. Mặc dù với giả định cứng nhắc, phép tính này hoạt động hiệu quả với bất kì phân bố dữ liệu nào có tính đối xứng và có dạng hình chuông.

Tuy nhiên khoảng tin cậy t không phải lúc nào cũng khả dụng. Với phân phối lệch, tinh thần giả định (trọng tâm nằm ở 0) của khoảng tin cậy t bị vi phạm. Ta có thể điều chỉnh lại bằng cách lấy logs hay sử dụng giá trị trung vị median.

Đối với dữ liệu rời rạc như phân phối nhị phân, ta cần áp dụng các khoảng tin cậy khác ngoài t. Tuy nhiên, các quan sát cặp (paired observations) thường được phân tích bởi khoảng tin cậy t bằng cách lấy sai biệt giữa các dữ liệu quan sát.

Nguồn tham khảo: http://swirlstats.com/

Advertisements

One thought on “Statistical Inference: Khoảng tin cậy T (Confident Interval)

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s