Statistical Inference: Tiệm cận (Asymptotics)

Coin plot 10000

Trong bài viết này ta sẽ thảo luận về tiệm cận (asymptotics), làm thế nào để miêu tả dáng điệu của thống kê khi kích thước mẫu ngày càng tiến đến vô cùng. Giả định kích thước mẫu và kích thước quần thể là vô cùng, điều này hữu ích cho việc suy diễn thống kê và xấp xĩ.

Notebooks: LoLN and CTL.

Luật số lớn (Law of Large Number: LoLN)

Giả sử X_1, X_2, ..., X_n là các biến ngẫu nhiên độc lập (independent random variables) được lấy mẫu trên cùng một phân bố (ví dụ phân bố Gaussian). Lúc này, ta nói rằng X_i là độc lập và đồng nhất phân bố (independent and identical-distributed: i.i.d). Cụ thể, X_i có cùng giá trị mean \mu và độ lệch chuẩn \sigma. Đặt \bar{X_n} là trung bình của X_1, ..., X_n:

\bar{X_n} = \frac{X_1 + X_2 + ... + X_n}{n} = \frac{1}{n} \sum_{i=1}^n X_i.

Ghi chú: \bar{X_n} là biến ngẫu nhiên. Luật số lớn và định lý giới hạn trung tâm (Central Limit Theorem: CLT) sẽ cho ta biết giá trị và phân bố của \bar{X_n} như thế nào.

  • LoLN: khi n tăng, xác suất của \bar{X_n} bằng \mu sẽ tiến đến 1.

\lim_{n \to \infty} P(|\bar{X_n} - \mu| < a) = \lim_{n \to \infty} P(\mu - a \le \bar{X_n} \le a - \mu) 1, \forall a > 0.

  • CLT: khi n tăng, phân bố của \bar{X_n} sẽ là phân bố chuẩn N(\mu, \sigma^2/n).

Định lý giới hạn trung tâm ( Central Limit Theorem: CLT)

Cho biến ngẫu nhiên X với mean \mu và độ lệch chuẩn \sigma, ta chuẩn hoá X theo công thức sau:

Z = \frac{X - \mu}{\sigma}.

Khi đó, Z sẽ có \mu = 0\sigma = 1.

Giả sử X_1, X_2, ..., X_n là các biến ngẫu nhiên i.i.d có cùng \mu\sigma. Đặt S_n là tổng và \bar{X_n} là trung bình của X_1, ..., X_n.

S_n = X_1 + X_2 + ... + X_n = \sum_{i=1}^n X_i

\bar{X_n} = \frac{X_1 + X_2 + ... + X_n}{n} = \frac{S_n}{n}.

Ta có các tính chất cho mean và độ lệch chuẩn như sau:

E(S_n) = n\mu, \ Var(S_n) = n\sigma^2, \ \sigma_{S_n} = \sqrt{n} \sigma

E(\bar{X_n}) = \mu, \ Var(\bar{X_n}) = \frac{\sigma^2}{n}, \ \sigma_{\bar{X_n}} = \frac{\sigma}{\sqrt{n}}.

Do S_n\bar{X_n} tỉ lệ với nhau nên chúng có cùng dạng chuẩn hoá:

Z = \frac{S_n - n\mu}{\sigma \sqrt{n}} = \frac{\bar{X_n} - \mu}{\sigma/\sqrt{n}}.

CLT phát biểu rằng, khi n đủ lớn:

\bar{X_n} \approx N(\mu, \sigma^2/n), \ S_n \approx N(n\mu, n\sigma^2), \ Z_n \approx N(0, 1).

standardize_pdf

Để ứng dụng được CLT ta cần chuẩn bị một vài snippets cho phân phối chuẩn. Đặt Z \sim N(0, 1) là biến ngẫu nhiên có phân phối chuẩn. Ta có:

  • P(|Z| < 1) = 0.68
  • P(|Z| < 1.96) \approx 0.95
  • P(|Z| < 2) = 0.95
  • P(|Z| < 3) = 0.997

Suy ra:

  • P(Z < 1) = P(|Z| < 1) + P(left-hand \ tail) \approx 0.84
  • P(Z < 2) \approx 0.977
  • P(Z < 3) \approx 0.999

Ví dụ, tung đồng xu 100 lần, ước lượng xác suất nhận được nhiều hơn 55 heads. Đặt X_j là kết quả lần tung j^{th}, nên X_j = 1 là head, X_j = 0 là tail. Ta có:

S = X_1 + X_2 + ... + X_{100}.

Khi đó, theo tính chất của CTL ta có:

E(X_j) = 0.5, \ Var(X_j) = 1/4

E(S) = 50, \ Var(S) = 25, \sigma_S = 5.

Do Z = \frac{S - n\mu}{\sigma \sqrt{n}} \sim N(0, 1), ta có:

P(S > 55) = P(\frac{S - 50}{5} > \frac{55 - 50}{5}) = P(Z > 1) = 1 - P(Z < 1) = 1 - 0.84 \approx 0.16.

Nhờ có CTL mà ta có thể ước lượng được giá trị và phân bố của quần thể dựa vào mẫu dữ liệu thu thập được. Vì trong thực tế, phân bố của quần thể khó hoặc không thể quan sát được.

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

w

Connecting to %s