SMA 2017 – Lý thuyết ra quyết định

bayesian_mindset

Khi làm việc với các bài toán ra quyết định, xác suất thống kê được sử dụng rất nhiều trong việc đưa ra những dự báo mang hàm nghĩa không chắc chắn. Ta chỉ có thể cung cấp kết quả dự đoán đại loại như 86%, 91%, hay 99% nhưng không bao giờ bạn chắc chắn được 100%. Bù lại kết quả này cho bạn biết, khi ra quyết định 100 lần thì ít ra bạn cũng đạt được chừng ấy mục tiêu của mình, đồng thời bạn cũng sẵn sàng chấp nhận trả giá cho những phần trăm còn lại.

Tham dự khoá học SMA-2017 cũng là cơ hội cho tôi ôn lại kiến thức lý thuyết xác suất thống kê đã từng bỏ bê thời còn đi học. Đặc biệt là hướng tiếp cận của Bayesian đang được cộng đồng nghiên cứu và áp dụng rất nhiều trong việc dự báo tương lai. Buổi học bắt đầu bằng những kiến thức căn bản để học viên có thể bắt nhịp lại các khái niệm, các thuật ngữ, lý do tại sao ngành thống kê ra đời. Sau đó là những so sánh chi tiết hơn giữa hướng tiếp cận truyền thống và hướng tiếp cận của Bayesian. Thống kê truyền thống (classical statistics) thường tin vào xác suất tính được sẽ luôn lặp lại đúng như vậy và dùng nó để dự đoán trong tương lai, nghĩa là nếu tung đồng xu 1000 lần ta có tỉ lệ head/tail đều là 70/30 thì các lượt tung tiếp theo tỉ lệ head xuất hiện sẽ cao hơn tail. Ngược lại, Bayesian sử dụng dữ liệu thu thập được theo thời gian để điều chỉnh lại niềm tin ban đầu (prior knowledge) này sao cho ít bị chủ quan hơn, nhờ vậy mà dự đoán trong tương lai sẽ thận trọng hơn nhiều.

Ở đây là ghi chú cũng khá ngắn gọn của tôi, mặc dù đã cố gắng hoàn chỉnh lại nội dung để bạn đọc dễ theo dõi và tìm hiểu nhưng sẽ còn nhiều chỗ khó hiểu cần tham khảo các nguồn tài liệu bên ngoài, nên tôi cũng cung cấp thêm các đường link liên quan, các bạn có thể từ đó bù đắp lại các kiến thức mơ hồ. Hoặc bạn cũng có thể sử dụng bài viết này để làm cheat sheet tham khảo nhanh cho công việc hiện tại của mình.

Các khái niệm cơ bản

Khi nhắc đến thống kê, bạn cần liệt kê được 5 thành phần cấu thành nên lĩnh vực nghiên cứu này:

  1. Quần thể: giả sử bạn bán một sản phẩm và muốn biết tỉ lệ các hộ gia đình sử dụng sản phẩm của bạn. Thị trường là gì? Quần thể ở đây là gì? Tập hợp các đối tượng/thành phần/đơn vị/cá thể độ lập được định nghĩa cụ thể. POP = tập hợp hộ gia đình ở HCMC có dùng sản phẩm của bạn.
  2. Biến ngẫu nhiên: họ có sử dụng sản phẩm của ta hay không? Ta cần nghiên cứu từng yếu tố một thể hiện tính chất của quần thể. Định tính (yes/no: có sử dụng sản phẩm hay không), định lượng (bỏ bao nhiêu tiền).
  3. Tham số: đặc trưng của quần thể (là tham số chưa xác định), nếu quần thể không thay đổi thì biến ngẫu nhiên không thay đổi. Tại sao tham số lại không được xác định? Bởi vì quần thể quá lớn để khảo sát, nếu ta biết mọi thứ về một quần thể nào đó thì lý thuyết thống kê không còn tồn tại và thực tế điều này không thể xảy ra, ngược lại thì đây là bài toán của Toán học chứ không phải của thống kê. Tham số mu = số tiền trung bình chi cho sản phẩm. Ta quan tâm đến median chứ không phải mean vì mean không thể hiện chính xác bức tranh tổng quát.
  4. Mẫu: một mẫu nhỏ của quần thể (lấy một cách ngẫu nhiên nhưng phải thể hiện được toàn bộ quần thể), các phân khúc của quần thể cần phải lấy được mẫu (già/trẻ, giàu/nghèo, có học/vô học, …). Ta dùng phương pháp survey và phân bố ra nhiều vùng miền để giảm đi các thông tin chủ quan (bias). Ví dụ ta lấy mẫu 500 hộ gia đình.
  5. Thống kê: khác với ngành thống kê (lên plan, thu thập, phân tích, rút ra luật từ dữ liệu). Đây là đặc trưng của mẫu dữ liệu. Về toán học, nó là hàm thể hiện phân bố của dữ liệu.

Dữ liệu

Dữ liệu là ngẫu nhiên.

X = (x_1, x_2, ..., x_n) = data \sim f(x|\theta): phân bố xác suất của dữ liệu.
\theta = parameter \in \Theta (parameter \ space)

Giả sử X lấy mẫu từ n hộ gia đình, x_i là số tiền mỗi hộ gia đình chi cho sản phẩm của bạn.

Phân bố đồng nhất độc lập (Independent and identically distributed distribution – iid) là giả định khi rút trích mẫu dữ liệu X. Điều này là không có thật, thực tế không xảy ra điều này, nhưng trong thực nghiệm ta sẽ giả định như vậy. N là kích thước quần thể >> n là kích thước mẫu. Nếu không giả định thì phân bố của bạn sẽ không còn đúng.

distribution

distribution

X \overset{iid}{\sim} f(x|\theta) = N(\mu, \sigma^2), \theta = (\mu, \sigma) - 2 \ dimension

Mục tiêu của chúng ta là đi ước lượng tham số \theta. Lúc này, ta sẽ có 2 nhánh là thống kê truyền thống (classical statistics) và lý thuyết quyết định (decision theory, ta nói rằng một quyết định \delta(X) là hình dạng của dữ liệu).

Ước lượng (estimate) có nghĩa là “đoán mò có học thức (educated guess)”, nói cho vui như vậy thôi chứ thật ra nó cũng là một dạng đoán mò nhưng có cơ sở khoa học rõ ràng. Đây sẽ là giá trị cụ thể bạn ước lượng được từ dữ liệu đang xét. Estimator là dạng hàm toán học của dữ liệu được sử dụng để ước lượng \theta. Ví dụ \delta(X) = \frac{1}{n} \sum_n x_i đây là công thức tính trung bình \mu đọc là mean, tham số \theta lúc này là vector 1 chiều.

\theta được ước lượng bởi \delta(X). Hệ quả là ta sẽ có lỗi/rủi ro phát sinh gọi là Loss = L = (\delta(X) - \theta). Ước lượng thấp hơn (under-estimate) hay cao hơn (over-estimate) đều sinh ra lỗi/rủi ro này. Vậy ta nên ước lượng thấp hay ước lượng cao hơn? Trong kĩ thuật rất nguy hiểm nếu ta ước lượng tham số chịu tải này cao hơn, nhất là khi bạn ước lượng khả năng chịu tải trong vận chuyển hàng không.

Một số hàm lỗi thông dụng

AEL_vs_SEL

AEL_vs_SEL

Hàm lỗi tuyệt đối (Absolute Error Loss – AEL): L(\delta(X), \theta) = |\delta| không lấy đạo hàm được.

Hàm lỗi bình phương (Squared Error Loss – SEL): ta bình phương AEL để có thể tìm cực trị cho hàm lỗi L(\delta(X), \theta) = \delta^2.

Entropy loss:

  • (\frac{\delta(X)}{\theta}) - ln(\frac{\delta(X)}{\theta}) - 1; if \ \theta > 0, \delta(X) > 0
  • (ln(\delta(X)) - ln(\theta))^2 = (ln(\frac{\delta(X)}{\theta} = \Delta))^2, if \ \theta > 0, \delta(X) > 0
LINEX_loss

LINEX_loss

LINEX (linear and exponential) loss: là hàm lỗi không đối xứng (nửa đầu có vẻ là hàm tuyến tính, nhưng nửa sau thì là hàm phi tuyến tính) và thường được dùng rộng rãi trong banking (cho vay tín dụng). L(\theta) = e^{a\theta} - a\theta -1; a =\ constant, \theta \ne 0. Tham số \theta cho biết mức độ trung bình vượt qua nó thì ta xác định được đây là khách hàng có thể tin tưởng cho vay tín dụng (mean level beyond which a customer can default).

reliability of the system life

reliability of the system life

Nghiên cứu thêm: \theta = R(X) = P(X > x) = độ tin cậy theo thời gian (reliability of the system life) tại x. Ước lượng được tham số \theta bằng cách sử dụng hàm lỗi LINEX, kết quả sẽ cho ta biết thời điểm nào là thích hợp để chấm dứt việc cho vay đối với khách hàng này.

Ước lượng tham số

Cho hàm lỗi xác định L(\delta(X), \theta), có thể viết dưới dạng \Delta = (\delta(X) - \theta) hay \frac{\delta(X)}{\theta}.

Ta định nghĩa rủi ro cho \delta là hàm R(\delta, \theta) = E(L(\delta(X), \theta)) = E(\delta(X) - \theta)^2 = bình phương trung bình lỗi (MSE – Mean Square Error) = phương sai của \delta(X) nếu \theta = E(\delta(X)).

Cho hai luật quyết định \delta_1, \delta_2, ta nói \delta_1 tốt hơn \delta_2 nếu R(\delta_1, \theta) \le R(\delta_2, \theta), \forall \theta \in \ThetaR(\delta_1, \theta) < R(\delta_2, \theta) đối với một vài \theta.

Luật quyết định \delta^* được gọi là chấp nhận được (admissible – weak criteria) nếu \not \exists \delta \in \Delta | R(\delta, \theta) \le R(\delta^*, \theta). Ngược lại \delta^* được gọi là không chấp nhận được (inadmissible) nếu \exists \delta \in \Delta | R(\delta, \theta) \le R(\delta^*, \theta). Luật chấp nhận được có thể được xem là điều kiện tối ưu (optimal criterion).

Ta áp dụng phương pháp Minimax: đảm bảo trường hợp xấu nhất không thể xảy ra. Luật quyết định \delta^* được gọi là minimax nếu nó có độ rủi ro thấp nhất (smallest max risk). Nghĩa là, sup_{\theta \in \Theta}R(\delta^*, \theta) = Inf_{\delta \in \Delta} sup_{\theta \in \Theta} R(\delta, \theta).

minimax

minimax

Nhắc lại chặn trên nhỏ nhất (Supremum) và chặn dưới lớn nhất (Infimum) có thể xem lại ở link này.

Bayesian framework

Prior, likelihood, & posterior distributions.

mariginal_distribution

mariginal_distribution

join PDF

join PDF

Phân phối có điều kiện (conditional distribution): X|\theta \sim f(x|\theta), \theta \in \Theta
Phân phối tiền nghiệm (prior distribution): \Pi(\theta), \theta \in \Theta. Phân phối này ta giả sử đã biết/đã cho trước mặc dù ta chưa biết thật hư tham số này như thế nào. Theo thời gian thu thập dữ liệu thì tham số này sẽ có phân bố thay đổi dần.

Ta có thể viết lại phát biểu trên như sau:

  • \theta \sim \Pi(\theta), \theta \in \Theta
  • X|\theta \sim f(x|\theta), x \in R_X. Trong đó, R_X là khoảng giá trị của x

Hướng tiếp cận truyền thống (classical approach): \hat{\theta} = \frac{x}{n} = Bino(n, \theta) \sim X là phân phối nhị thức (binomial distribution).
Hướng tiếp cận Bayesian: không có tri thức là một tri thức hữu ích (No knowledge is useful knowledge) = Beta(1,1) Beta lúc này là phân phối đều (uniform distribution).

Bayesian nói rằng “Tại sao không kết hợp cả hai thành phân phối có điều kiện (join distribution)” (x,\theta) = f(x|\theta)PI(\theta). Khi đó, phân phối lề (marginal distribution) của

X = m(x) = \int f(x|\theta)PI(\theta) d \theta.

Lúc này, phân phối hậu nghiệm (posterior distribution)

(\theta|X=x) = \frac{f(x|\theta)PI(\theta)}{m(x)}

được gọi là cập nhật kiến thức \theta khi cho trước dữ liệu X (đây chính là Machine Learning).

Ví dụ: \theta là market share số lượng hộ gia đình sử dụng sản phẩm. Mỗi lần = 1,2,3 ta có \theta = 1,2,3. Dần dần theo thời gian ta sẽ có phân phối của \theta.

x_1|\theta_1 \sim B(n, \theta_1), \theta_1 \sim PI(\theta_1) = Beta(a, b)
Hậu nghiệm của \theta_1: \theta_1|x_1 \sim Beta(x_1+a, n_1-x_1+b) =\frac{x + a}{n+a+b} là trung bình hậu nghiệm \frac{x_1+1}{n_1+2}. Trong khi đó, classical estimator = \frac{x_1}{n_1}

Tính chất này của Bayesian giúp bạn tránh được việc đạt đến ngưỡng 0 hoặc 1 của xác suất. Ví dụ, thay vì xác suất mắc bệnh là 11/11 = 100%, ta sử dụng Bayesian sẽ có xác suất 11/12 < 100%.

Tiếp tục, \theta_2 sẽ được cập nhật vào công thức vừa rồi \theta_1 \sim Beta(x_2+x_1+1, n_2+x_2+n_1+x_1+2). Lưu ý, ước lượng này chỉ xấp xỉ chứ không bằng thật sự.

Ứng dụng khác:

Dữ liệu: X|\mu \sim N(\mu, \sigma^2)
Tiền nghiệm: \mu \sim PI(\mu) \equiv N(\eta, \tau^2)
Hậu nghiệm: PI(\mu|x) \equiv N(\eta(x), \frac{\sigma^2 \tau^2}{\tau^2 + \sigma^2}). Trong đó, \eta(x) = \frac{\sigma^2}{\sigma^2 + \tau^2} \eta + \frac{\tau^2}{\sigma^2 + \tau^2}x

Trung bình hậu nghiệm (được dùng để ước lượng \mu):

\eta(x) =\frac{\tau^2}{\sigma^2 + \tau^2}x + \frac{\sigma^2}{\sigma^2 + \tau^2} \eta
=\frac{\frac{1}{\sigma^2}}{\frac{1}{\tau^2} + \frac{1}{\sigma^2}}x + \frac{\frac{1}{\tau^2}}{\frac{1}{\tau^2} + \frac{1}{\sigma^2}} \eta

Toán hạng đầu là độ chính xác tương đối (relative precision) của X, toán hạng sau là độ chính xác tương đối của tiền nghiệm.

Thống kê đầy đủ (Sufficient statistic): đảm bảo mọi dữ liệu khi cho trước tham số thống kê đều phải đúng với mọi dữ liệu khác.

Phân tích Bayesian

highest_posterior_density

highest_posterior_density

Phân bố hậu nghiệm (\theta|x) \sim \Pi(\theta|x), \theta \in \Theta

  • (X|\theta) = (x_1, x_2, ..., x_n) \sim f(X|\theta), \theta \in \Theta
  • \theta \sim \Pi(\theta)

Câu hỏi: giá trị nào của \theta là thích hợp nhất sau khi quan sát dữ liệu X?
Trả lời: giá trị mode của hậu nghiệm là giá trị thích hợp nhất của \theta.

Câu hỏi: Làm sao tìm được khoảng ước lượng (interval estimate) cho \theta sau khi quan sát X?
Trả lời: Ta tìm khoảng miền xác suất dựa trên xác suất hậu nghiệm lớn nhất (HPD – highest posterior probability). Lưu ý, chỉ số này là một hướng tính toán khác của khoảng tin cậy. Khoảng tin cậy ta sẽ lấy xác suất hai bên đuôi của phân bố bằng nhau (equal-tail credible interval), còn HPD ta sẽ dùng một đường thẳng cắt ngang phân bố sao cho cũng đạt được khoảng tin cậy mong muốn. Nếu đường thẳng này cắt thành 2 khoảng (a, b), (c, d) ta có HPD = (a, b) \cup (c,d). Từ đây, ta có thể tìm giá trị thích hợp cho (1 - \alpha) = \int_{\theta:\Pi(\theta|x) \ge k} \Pi(\theta|x) d\theta

Ví dụ: X = (x_1, x_2, ..., x_n) \overset{iid}{\sim} f(x|\theta) = N_2(\mu, \Sigma), \theta = (\mu | x) \sim \Pi(\theta | x). Hầu hết trong các trường hợp, ta sẽ giả định \Pi(\theta) là dạng không thông tin (non informative) \Pi(\theta) = \sqrt{|I(\theta)|}. Đây là thông tin khởi tạo, trong đó I là một ma trận nếu \theta là vector nhiều chiều.

X là số hộ gia đình lấy từ tập mẫu kích thước n có sử dụng sản phẩm.
(X|\theta) \sim Bino(n, \theta)
\theta \sim \Pi(\theta), \theta \in \Theta = (0, 1)

Một trong những khả năng non-informative của tiền nghiệm I(\theta) = 1 = Beta(1,1), hậu nghiệm Beta(x+1, n - x + 1). Để tính mật độ xác suất ta lấy Log trước khi tính toán, vì thông thường hàm phân bố xác suất thường có đuôi tiến đến vô cực.

Jeffrey's non informative prior

Jeffrey’s non informative prior

Ngoài ra, non informative hữu dụng hơn của tiền nghiệm \Pi(\theta) = \sqrt{I(\theta)} gọi là Jeffrey’s non informative prior. I(\theta) bằng fisher information number -E(\frac{\delta^2}{\delta \theta^2} ln f(x|\theta)), trong đó f(x|\theta) = \frac{PMF}{PDF} tương ứng với quan sát x_i.

f(x|\theta) = {{n}\choose{x}} \theta^x (1 - \theta)^{n - x}
ln f(x|\theta) = - \frac{x}{\theta^2} - \frac{n-x}{(1 - \theta)^2}
I(\theta) = E[\frac{x}{\theta^2} + \frac{n-x}{(1 - \theta)^2}] = \frac{n}{\theta} + \frac{n}{1-\theta} = \frac{n}{\theta(1-\theta)}

Giả sử, ta có x_1, x_2, ..., x_n \overset{iid}{\sim} N(\mu, \sigma^2), \theta = (\mu, \sigma), \theta là vector 2 chiều. Lúc này, Jefferey’s non-informative prior là \Pi(\theta) = \sqrt{|I(\theta)|} = \frac{const}{\sigma^2} là ma trận 2×2.

Hướng tiếp cận Empirical bayes

probabilistic graphical models

probabilistic graphical models

Bayesian based: giả định tham số \theta xuất phát từ phân bố đều hay Jefferey non informative prior.
Empirical based: sử dụng dữ liệu hiện hành để tìm ra \theta prior, hướng tiếp cận này lai giữa phương pháp classical và bayesian, giúp ta chọn được giá trị tiền nghiệm cụ thể từ tập các phân bố tiền nghiệm cho trước. Ở đây, dữ liệu X được dùng để chọn ra giá trị tiền nghiệm.

Đặt (x|\theta) \sim f(x|\theta). Ta sẽ suy nghĩ tiền nghiệm \Pi(\theta) = \Pi(\theta|\lambda), \lambda \in \Lambda, trong đó \lambda được gọi là tham số đa tầng (super/hyper parameter). Chú ý: ta không biết trước giá trị của \lambda nhưng ta sẽ sử dụng dữ liệu thu thập được để xấp xỉ \lambda.

Ta đi tìm m(x|\lambda) là phân phối lề của tập dữ liệu X. Marginal này phụ thuộc vào dữ liệu quan sát X và tham số cao tầng chưa biết \lambda. Tiếp theo, ta tìm \lambda \sim \hat{\lambda} sao cho tối đa hoá m(x|\lambda). \hat{\lambda} được gọi là Type-II maximum likelihood estimator của \lambda.

Khi \hat{\lambda} này được tìm thấy dựa trên dữ liệu thu thập được thì tiền nghiệm của chúng ta \Pi(\theta|\lambda) \sim \Pi(\theta|\hat{\lambda}). Sau đó, ta suy ra được phân bố hậu nghiệm

\Pi_{\hat{\lambda}}(\theta|x) = \frac{f(x|\theta) \Pi(\theta|\hat{\lambda})}{\int {f(x|\theta) \Pi(\theta|\hat{\lambda}) d \theta}}

Notes: bạn nào tinh ý sẽ thấy cách làm này khá giống Neural Network ở chỗ ta ước lượng giá trị tham số hiện tại bằng giá trị tham số khác, và giá trị tham số này lại có thể được ước lượng bởi tham số tiếp theo và cứ thế tuỳ thuộc vào cách mà ta thiết kế mô hình, ta có thể thấy multiple layẻ được dàn dựng ở đây càng ngày mô hình càng phức tạp. Và điều kiện dừng là ta đi tính tích phân của phân bố tham số sau cùng để truy ngược lại giá trị ban đầu.

Ứng dụng

Trong một nghiên cứu điều trị ung thư, người ta thấy rằng 7 trong số 11 bệnh nhân được điều trị có thể sống sót qua ung thư. Cho \theta là tỷ lệ thành công (true proportion/success rate) cho điều trị kế tiếp.

  1. Sử dụng phương pháp Empirical Bayes sử dụng phân bố Beta để tìm ra phân bố hậu nghiệm.
  2. Sử dụng phân bố hậu nghiệm này để ước lượng \theta.
  • x|\theta \sim Bino(n, \theta)
  • \theta \sim \Pi(\theta|a,b) \equiv Beta(a,b) \equiv \frac{1}{B(a,b)} \theta^{a - 1} (1 - \theta)^{b - 1}
  • Posterior = \Pi(\theta|a,b) \equiv Beta(x + a, n - x + b)

Marginal của X = \int_0^1 f(x|\theta)\Pi(\theta|a,b) d \theta
= \int_0^1 {{n}\choose {x}} \theta^x(1 - \theta)^{n-x}\frac{1}{B(a,b)} \theta^{a - 1} (1 - \theta)^{b - 1} d \theta
= {{n}\choose{x}} \frac{B(x + a, n - x + b)}{B(a,b)}
= {{11}\choose{7}} \frac{B(7 + a, 4 + b)}{B(a,b)}. Tìm (\hat{a}, \hat{b}) để maximize hàm marginal này.

Trong khi đó, Classical estimator của \theta\hat{\theta} = x/n = 7/11 = 63.7\%

conjugate_family

conjugate_family

Câu hỏi: Khi áp dụng Empirical Bayes, ta nên sử dụng phân bố tiền nghiệm nào cho \theta?
Trả lời: hầu hết ta sẽ chọn prior family thuộc “conjugate family”. Nghĩa là cả prior và posterior đều có cùng dạng phân bố. Ví dụ:

  • Binomial model, Beta là conjugate family.
  • Poisson model, Gamma là conjugate family.
  • Normal model, Normal là conjugate family.

Predictive inference

Làm thế nào ta có thể dự đoán được tương lai bằng cách dựa vào tập dữ liệu quá khứ. Output ở đây sẽ là khoảng giá trị chứ không thể trả về một giá trị được, ta gọi là khoảng dự đoán (predictive interval).

Ví dụ: Ta có tập dữ liệu số lượt tai nạn giao thông lấy ngẫu nhiên theo tuần: 3,4,2,1,2,3. Nếu ta muốn dự đoán số lượng tai nạn ở tuần bất kỳ trong tương lai thì làm thế nào? Ta sẽ chọn ra một điểm giá trị trong tương lai và dự đoán khoảng dự đoán cho giá trị này.

Dữ liệu quá khứ: X_1, X_2, ..., X_n  \overset{iid}{\sim} f(x|\theta), \theta \in \Theta. Ta muốn dự đoán giá trị tương lai gồm:

  • X_{n+1} là biến ngẫu nhiên (chưa biết), biến này không phải hằng số. Ta có thể tưởng tượng mình đang cố gắng bắt một con mèo đang chạy trong phòng tối, dù cho ta có dùng cái rổ chộp bắt liên tục nhưng có thể sẽ không bao giờ bắt được con mèo. Vì vậy, ở mỗi lần chộp bắt ta cần sử dụng một cái rổ lớn predictive inference  (predictive interval).
  • E(X_{n+1}) là tham số chưa biết nhưng tham số này là hằng số. Nghĩa là con mèo đã ngồi sẵn trong phòng tối, không di chuyển, nếu ta sử dụng cái rổ để chộp bắt liên tục thì một lúc nào đó ta sẽ thật sự bắt được con mèo. Ở đây ta dùng các phương pháp đã khảo sát như MLE, Bayesian regular inference để suy ra được confident interval.

Theo cách truyền thống, ta sẽ sử dụng mô hình cụ thể: X_1, X_2, ..., X_n  \overset{iid}{\sim} N(\mu, \sigma^2);. Vậy X_{n+1} = ? \sim N(\mu, \sigma^2) . Hướng tiếp cận không đúng vì đây là ước lượng tham số chứ không phải giá trị tương lai.

Giải pháp:

X = \Sigma X_i \sim Poi(n \theta) \Rightarrow f(x|\theta) = e^{-n \theta} (n \theta)^x/x!
\theta \sim Pi(\theta)

Do chúng ta không có cở sở tri thức gì của \theta nên ta muốn sử dụng  Jeffrey’s prior trong trường hợp này \Pi(\theta) - \sqrt{I(\theta)}. Trong đó I(\theta) = Fisher info = -E(\frac{d^2}{d \theta^2} ln f(x|\theta)) = ... = c/\sqrt{\theta}.

Phân bố của (x,\theta) = f(x|\theta) \Pi(\theta) = e^{-n \theta} (n \theta)^x/x/@ = c/sqrt{\theta}
Phân bố lề x = m(x) = \int_0^{inf} c e^{-n \theta}(n^x \theta^{x-1/2})/x! d \theta = ... = c n^x/x! Gamma(x + 1/2)(1/n)^{x + 1/2}.

Hậu nghiệm = f(x|\theta) \Pi(\theta)/m(x) = [e^{-n \theta} \theta^{x - 1/2}]/(Gamma(x+1/2)(1/n)^{x+1/2}). Nghĩa là \theta \sim \Pi(\theta|x) = Gamma (x+1/2, 1/n)

Quan sát tương lai = w \sim Poi(\theta) \Rightarrow g(w|\theta) = e^{-\theta} \theta^w/w!, n = 6, X = \Sigma Xi = 15.
Phân bố dự đoán của w|x = \int_0^{inf} g(w|\theta) \Pi(\theta|x) d \theta = ... = Gamma(w + 15.5)(1/7)^{w + 15.5}/(Gamma(15.5)(1/6)^15.5)w! = h(w|x). Cuối cùng ta tìm mode và đưa ra confident interval cho predictive interval.

Trong thống kê truyền thống, ta sử dụng pivot (pivotal element) mà phân bố của nó đã biết trước.

\bar{X} \sim N(\mu, \sigma^{2/n}) độc lập với X_{n+1} \sim N(\mu, \sigma^2)

(X_{n+1} - \bar{X}) \sim N(0, \sigma^{2/n} - \sigma^2)
\Rightarrow (X_{n+1} - \bar{X})/(\sigma \sqrt{1 + 1/n}) \sim N(0,1)
\Rightarrow (X_{n+1} -\bar{X})/(s \sqrt{1 + 1/n}) \sim t_{n-1} đây là pivot

Vậy,

(1 - \alpha) = p(-t_{n-1, \alpha/2})
\Leftarrow (X_{n+1} - \bar{X})/(s \sqrt{1 + 1/n})
\Leftarrow t_{n-1, \alpha/2}, n tiến tới vô cùng, khoảng này sẽ co lại nhưng không bị giới hạn.

Hướng tiếp cận của Bayesian giải quyết predictive inference:

Dữ liệu quá khứ: X_1, ..., X_n = \tilde{X} \sim f(\tilde{x}|\theta), \theta \in \Theta
Phân bố tiền nghiệm \theta \sim \Pi(\theta) \ on\ \Theta [ta sử dụng non informative/Jeffrey’s prior].
Ta có phân bố hậu nghiệm: \theta \sim \Pi(\theta|\tilde{x}) (1)

Khi quan sát dữ liệu tương lai: W \sim g(w|\theta) (2) [g có thể khác f, không cùng phân bố xác suất].

Từ (1), (2), ta có predictive distribution của w|\tilde{x} = h(w|x) = \int_\Theta {g(w|\theta) \Pi(\theta|x) d\theta}. Ta sử dụng predictive distribution này cho predictive inference [w_1, w_2].

Tham khảo thêm:

Advertisements

3 thoughts on “SMA 2017 – Lý thuyết ra quyết định

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s