Statistical Inference: Tiệm cận (Asymptotics)

Coin plot 10000

Trong bài viết này ta sẽ thảo luận về tiệm cận (asymptotics), làm thế nào để miêu tả dáng điệu của thống kê khi kích thước mẫu ngày càng tiến đến vô cùng. Giả định kích thước mẫu và kích thước quần thể là vô cùng, điều này hữu ích cho việc suy diễn thống kê và xấp xĩ.

Luật số lớn

Luật số lớn (Law of Large Numbers (LLN)) phát biểu rằng giá trị trung bình (mean) có xu hướng tiệm cận về giá trị mà nó đang ước lượng. Nghĩa là kích thước mẫu dữ liệu càng lớn thì ước lượng quần thể càng chính xác. Như chúng ta tung một con xúc sắc nhiều lần liên tiếp, nó có xu hướng hội tụ về giá trị xác suất 0.5. LLN tạo cơ sở cho kiểu suy luận dựa trên tần xuất. Lấy ví dụ minh hoạ với hàm coinPlot(). Hàm này nhận vào đối số n là số lượt tung xúc sắc. Sau mỗi lần tung, hàm này sẽ cộng dồn các giá trị 1 (head) và 0 (tail) sau đó tính trung bình cộng lại. Sau đó, hàm này sẽ xuất ra biểu đồ biến thiên của giá trị trung bình vừa mới tính được này.

coinPlot <- function(n){
  means <- cumsum(sample(0 : 1, n , replace = TRUE)) / (1  : n)
  g <- ggplot(data.frame(x = 1 : n, y = means), aes(x = x, y = y))
  g <- g + geom_hline(size=1.5 ,yintercept = 0.5,alpha=0.6,
                      linetype="longdash") + geom_line(size = 1)
  if(n<100){
    g <- g + geom_point(colour="red",size=3,alpha=0.8)
  }
  g <- g + labs(x = "Number of obs", y = "Cumulative mean")
  g <- g + scale_x_continuous(breaks=seq(0,n+1,ceiling(n/10)))
  print(g)
  invisible()
}

Ví dụ tung xúc sắc 10 lần

Coin plot 10

Biểu đồ xuất ra phụ thuộc vào giá trị ngẫu nhiên mà R tạo được. Vì vậy, biểu đồ trên có vẻ khác một chút khi chạy trên máy tính của bạn. Nếu bạn thử chạy hàm trên coinPlot(10) vài lần bạn sẽ thấy mỗi lần như vậy sẽ cho ra kết quả khác một chút. Bây giờ, ta thử tung xúc sắc 10,000 lần

Coin plot 10000

Coin plot 10000

Bạn đã thấy được sự khác biệt phải không nào. Đây là minh chứng cho lý thuyết tiệm cận (asymptotics). Đường biến thiên hội tụ tại giá trị 0.5. Ta bảo rằng một ước lượng thống kê như vậy thì đồng nhất nếu nó hội tụ tại giá trị mà nó đang ước lượng. Định lý số lớn bảo rằng trung bình mẫu của biến ngẫu nhiên iid thì đồng nhất với trung bình của quần thể. Tương tự như vậy, phương sai mẫu (sample variance) cũng có xu hướng hội tụ về phương sai của quần thể (population variance).

Định lý giới hạn trung tâm

Central Limit Theorem

Định lý giới hạn trung tâm (Central Limit Theorem (CLT)) là một trong những định lý quan trọng trong thống kê. Định lý phát biểu rằng phân phối của các giá trị trung bình của các biến ngẫu nhiên iid hội tụ về các giá trị chuẩn khi kích thước mẫu dữ liệu tăng lên.

Để minh hoạ CLT trực quan hơn ta quan sát hình sau.

nosim <- 1000
cfunc <- function(x, n) sqrt(n) * (mean(x) - 3.5) / 1.71
dat <- data.frame(
  x = c(apply(matrix(sample(1 : 6, nosim * 10, replace = TRUE),
                     nosim), 1, cfunc, 10),
        apply(matrix(sample(1 : 6, nosim * 20, replace = TRUE),
                     nosim), 1, cfunc, 20),
        apply(matrix(sample(1 : 6, nosim * 30, replace = TRUE),
                     nosim), 1, cfunc, 30)
  ),
  size = factor(rep(c(10, 20, 30), rep(nosim, 3))))
g <- ggplot(dat, aes(x = x, fill = size)) + geom_histogram(alpha = .20, binwidth=.3, colour = "black", aes(y = ..density..))
g <- g + stat_function(fun = dnorm, size = 2)
g <- g + facet_grid(. ~ size)
print(g)
CLT dice

Hình trên biểu diễn 3 histogram của 1000 giá trị trung bình khi thực hiện 1000 lần lấy mẫu trên kích thước mẫu n (10, 20, 30). Mỗi giá trị trung bình của n mẫu (n=10,20,30) được chuẩn hoá bằng cách trừ cho mean (3.5) sau đó chia cho độ lỗi chuẩn (standard error), sqrt(2.92/n). Việc chuẩn hoá này khiến cho các histogram có dạng như phân phối chuẩn (với mean bằng 0 và độ lệch chuẩn bằng 1).

Chú ý rằng CLT không nói gì về phân bố ban đầu của quần thể là phân phối chuẩn. Ta có thể giả định tính phân phối chuẩn của trung bình quần thể bất chấp phân bố của quần thể ta đang có. Chỉ cần kích thước mẫu dữ liệu đủ lớn và các mẫu dữ liệu độc lập với nhau.

Khoảng tin cậy

Bây giờ chúng ta sẽ nói về khoảng tin cậy (confidence intervals). Từ CLT với n đủ lớn, trung bình mẫu là mean \mu và độ lệch chuẩn \sigma/\sqrt n. Ta biết rằng 95% diện tích phía dưới đường cong nằm trong khoảng độ lệch chuẩn này.

Standard normal

Standard normal

Biểu đồ trên là phân phối chuẩn với mu=0 và sigma=1, để minh họa điều trên, toàn bộ bóng đỏ mô tả diện tích nằm trong độ lệch chuẩn 2, bóng đậm hơn mô tả 68% diện tích nằm trong độ lệch chuẩn 1. Theo đó, 5% diện tích còn lại không được tô bóng đỏ. Nghĩa là xác suất trung bình mẫu X' > \mu+2\sigma/\sqrt n, X' < \mu-2\sigma/\sqrt n là 5%.

Tương tự, xác suất nằm trong giới hạn này là 95%. Tất nhiên ta có thể có nhiều khoảng tin cậy khác nhau. Nếu ta muốn giá trị khác 95%, ta có thể sử dụng phân vị (quantile) thay cho 2. Nếu ta muốn tìm khoảng tin cậy 90% thì phân vị chúng ta được tính như sau (100-90)/2 + 90 = 95. Ta dùng hàm qnorm của R để tìm phân vị 95 cho phân phối chuẩn. Hàm này lấy đối số là xác suất. Các đối số còn lại ta có thể lấy mặc định.

qnorm(.95)
[1] 1.644854

Tổng kết

Định lý số lớn cho chúng ta biết rằng các giá trị trung bình của mẫu dữ liệu iid hội tụ về các giá trị trung bình của quần thể. Định lý giới hạn trung tâm cho chúng ta biết rằng các giá trị trung bình xấp xĩ phân phối chuẩn khi kích thước lấy mẫu càng lớn. Và phân phối này có trọng tâm đặt tại trung bình của quần thể, độ lệch chuẩn xấp xỉ với độ lỗi chuẩn. Để tính khoảng tin cậy (confidence interval) cho mean ta lấy trung bình mẫu +/- cho tích của phân vị chuẩn (normal quantile) và độ lỗi chuẩn (standard error). Khi dữ liệu của bạn có phương sai nhỏ thì khoảng tin cậy của chúng ta cũng nhỏ.

Nguồn tham khảo:

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s