Statistical Inference: Xác suất có điều kiện (Conditional Probability)

Conditional probability

Conditional probability

Trong bài viết này, ta sẽ khảo sát các khái niệm liên quan đến xác suất có điều kiện (Conditional probability).

Xác suất có điều kiện

Nếu tôi cho bạn một con xúc sắc và hỏi bạn xác suất tung được mặt 3 là bao nhiêu? Bạn sẽ trả lời rằng 1/6 vì có tất cả 6 biến cố có thể xảy ra khi tung một con xúc sắc.

Giả sử có một người trước đó đã tung được xúc sắc với giá trị là số lẻ, vậy xác suất tung được mặt 3 lúc này là bao nhiêu? Ta có 3 giá trị số lẻ khi tung một con xúc sắc vì vậy xác suất tung được mặt 3 cũng là số lẻ sẽ là 1/3. Xác suất của biến cố thứ hai này phụ thuộc vào thông tin mới đưa vào nên xác suất tung được mặt 3 là 1/3.

Chúng ta biểu diễn xác suất có điều kiện của biến cố A khi cho trước biến cố B là P(A|B). Cụ thể, ta định nghĩa xác suất có điều kiện của biến cố A khi cho trước B với biểu thức sau: P(A|B) = \frac{P(A \& B)}{P(B)}. P(A|B) là xác suất mà cả biến cố A và B đồng thời xảy ra chia cho xác suất biến cố B xảy ra.

Quay lại ví dụ tung xúc sắc. Nếu A là biến cố tung được mặt 3 và B là biến cố tung được mặt lẻ thì biểu thức P(A&B) sẽ bằng 1/6. Do A là tập con của B nên xác suất xảy ra đồng thời A và B chính bằng xác suất xảy ra biến cố A.

Tiếp theo ví dụ trên. Nếu A là biến cố tung được mặt 3 và B là biến cố tung được mặt lẻ thì biểu thức P(A&B)/P(B) sẽ bằng (1/6)/(1/2). Do xác suất xảy ra biến cố B bằng 1/2.

Từ định nghĩa của P(A|B), ta có thể viết thành P(A&B) = P(A|B)*P(B). Do đó, P(B|A) = \frac{P(B \& A)}{P(A)} = P(A|B)\frac{P(B)}{P(A)}.

Định lý Bayes

bayes_illustration

bayes_illustration

Giả sử chúng ta không biết P(A) nhưng biết xác suất có điều kiện của nó. Nghĩa là xác suất xảy ra A khi B xảy ra và xác suất xảy ra A khi B không xảy ra. Ta có P(A|B) và P(A|~B). Ta dùng ~B thể hiện cho “không B” hay “phần bù của B”.

Khi đó ta có biểu thức P(A) = P(A|B) P(B) + P(A|\sim B)P(\sim B). Ta có thể thế biểu thức này vào mẫu số của công thức Bayes.

P(B|A) = P(A|B) \frac{P(B)}{P(A|B)P(B) + P(A|\sim B)P(\sim B)}

Định lý Bayes được ứng dụng trong việc chẩn đoán bênh. Ta sẽ thảo luận về ví dụ chẩn đoán bệnh HIV sau. Giả sử chúng ta biết độ chính xác của việc chẩn đoán bệnh dương tính (khi người bệnh mắc HIV) và âm tính (khi người bệnh không mắc HIV).

Gọi ‘D’ là biến cố người bệnh mắc HIV. Đặt ‘+’ là kết quả chẩn đoán dương tính, ‘-‘ là kết quả chẩn đoán âm tính. Khi đó, ta có thông tin về độ chính xác sau: P(+|D) (chẩn đoán dương khi có bệnh) và P(-|~D) (chẩn đoán âm khi không có bệnh).

Giả sử một người có kết quả dương tính và đến từ vùng bị nhiễm HIV với tỉ lệ là 0.001 (trong 10000 người chỉ có 1 người bị bệnh). Chúng ta muốn biết xác suất anh ta có mắc bệnh HIV hay không. Nghĩa là ta quan tâm đến xác suất P(D|+). Theo công thức Bayes ta có: P(D|+) = P(+|D) * P(D) / ( P(+|D) * P(D) + P(+|~D) * P(~D) ).

Chúng ta có thể sử dụng tỉ lệ nhiễm bệnh HIV của vùng là P(D). Để ý rằng P(~D)=1-P(D) and P(+|~D) = 1-P(-|~D), ta có thể tính P(D|+). Nói cách khác, ta đã có tất cả giá trị để tính xác suất P(D|+).

P(HIV|positive) = \frac{P(positive|HIV)P(HIV)}{P(positive)} = \frac{0.98\cdot 0.001}{0.01097} = \frac{0.00098}{0.01097} \simeq 0.08933

Vậy, bệnh nhân này chỉ có 8% cơ hội mắc bệnh HIV với kết quả chẩn đoán dương tính trên. Biểu thức P(D|+) được gọi là giá trị dự đoán dương (positive predictive value). Tương tự, P(~D|-) được gọi là giá trị dự đoán âm (negative predictive value).

Tỷ lệ khả năng chẩn đoán của một xét nghiệm dương (diagnostic likelihood ratio of a positive test), DLR_+, là tỷ lệ người mắc bệnh khi chẩn đoán dương (true positive) với người không mắc bệnh được chẩn đoán dương (false positive). Cụ thể, DLR_+ = P(+|D) / P(+|~D). Tương tự, DLR_- = P(-|D) / P(-|~D). Những giá trị này được tổng hợp thành bảng Confusion matrix.

Confution matrix

Confution matrix

Trong đó P(+|D) là độ nhạy (sensitivity), P(-|~D) là độ đặc hiệu (specificity) là độ chính xác (accuracy) trong xét nghiệm chẩn đoán ứng với hai độ đo trên. Các giá trị này phải sát với 1 (gần 100%) vì không ai muốn kết quả xét nghiệm không chính xác. Với DLR_+ = P(+|D) / P(+|~D), ta có thể nhận ra sensitivity nằm ở tử số còn specificity nằm ở mẫu số.

Tiếp theo, ta hãy nói về một vài tính chất cơ bản của xác suất có điều kiện. Hai biến cố A và B độc lập với nhau nếu chúng không ảnh hưởng đến nhau. Nghĩa là, P(A&B) = P(A)*P(B). Ta dễ dàng thấy rằng nếu A và B độc lập với nhau thì P(A|B) = P(A).

Ta có xem qua các ví dụ về sự độc lập ở bài viết xác suất trước. Ta cùng nhắc lại ví dụ sau. Xác suất tung được mặt 6 hai lần liên tiếp là bao nhiêu? Vì hai biến cố độc lập với nhau nên ta có 1/6*1/6 = 1/36.

Nếu bạn được cho một con xúc sắc và tung nó hai lần. Xác suất lần tung thứ hai có giá trị như lần tung thứ nhất là bao nhiêu? Lúc này, hai biến cố không còn độc lập nữa. Ta không quan tâm lần đầu tung được giá trị bao nhiêu nên xác suất sẽ là 1. Lần thứ hai phụ thuộc vào lần thứ nhất nên xác suất sẽ là 1/6. Do đó, xác suất cần tìm là 1*1/6 = 1/6.

Ta kết thúc bài viết này với khái niệm iid. Các biến ngẫu nhiên được gọi là iid nếu chúng độc lập (independent) và phân phối giống nhau (identically distributed). Độc lập với hàm ý “không tương quan thống kê với nhau”. Phân phối giống nhau hàm ý “tất cả được rút ra từ cùng phân phối quần thể (same population distribution)”.

Các biến ngẫu nhiên iid là mô hình mặc định cho các mẫu ngẫu nhiên (ramdon samples) và những lý thuyết thống kê quan trong khác. Chúng ta thường giả định các mẫu dữ liệu đều lấy ngẫu nhiên và các biến đều iid.

Xin chúc mừng, như vậy chúng ta đã hoàn tất bài viết về xác suất có điều kiện (conditional probabilty).

Nguồn tham khảo: http://swirlstats.com/

Tham khảo thêm:

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s