
Trong bài viết này, ta sẽ khảo sát các khái niệm về xác suất (probability), là một số thực diễn tả khả năng xảy ra của một biến cố (event, outcome).
Các khái niệm cơ bản
Xác suất xảy ra một biến cố cụ thể là tỉ số giữa kích thước của biến cố (event, outcome) với không gian mẫu (sample space).
Xác suất của biến cố E được ký hiệu là , số này nằm trong khoảng 0 và 1. Những biến cố bất khả thi (impossible events) có xác suất là 0 vì không thể nào xảy ra. Những biến cố chắc chắn (certain) xảy ra có xác suất là 1.
Nếu ta thu được n các biến cố có thể xảy ra gồm e1, e2, …, en thì tổng xác suất của các biến cố này bằng 1. Nếu các biến cố xảy ra như nhau (likely), như ví dụ tung xúc sắc trên, thì xác suất của mỗi biến cố sẽ bằng 1/n.
Nếu A và B là hai biến cố độc lập (independent events) nhau thì xác suất xảy ra đồng thời hai biến cố trên sẽ bằng tích xác suất xảy ra các biến cố đó.
Nếu xác suất xảy ra một biến cố E có nhiều hơn một cách và các cách này tách rời nhau (disjoint, mutually exclusive) thì xác xuất P(E) bằng tổng của từng xác suất xảy ra các biến cố này.
Biến cố hợp (union): Hợp của hai biến cố A và B là biến cố chứa tất cả các thành phần của A và B. Ký hiệu: . Công thức tính:
Điều này cũng dễ hiểu, khi ta cộng hai xác suất P(A) và P(B), ta đã lỡ đếm xác suất xảy ra biến cố A và B hai lần. Khi A và B là hai biến cố giao nhau (intersection), ta cần loại bớt xác suất P(A & B) này.
Biến cố giao (intersection): Giao của hai biến cố A và B là biến cố chứa các thành phần vừa thuộc A vừa thuộc B. Ký hiệu: . Công thức tính:
Biến ngẫu nhiên
Biến ngẫu nhiên là ánh xạ từ một tập hợp, xây dựng trên nền không gian mẫu S, vào tập các xác suất có thể xảy ra.
- Biến ngẫu nhiên rời rạc: nếu nó chỉ có hữu hạn, hoặc vô hạn đếm được các giá trị (ví dụ: X1 = Tổng điểm thi đại học khối A).
- Biến ngẫu nhiên liên tục (ví dụ: X2 = Chiều cao của 1 người Việt Nam).
Biến ngẫu nhiên liên tục thường được kết hợp với các phép đo thời gian, khoảng cách, hoặc một số quy trình sinh học vì ta có thể xét bất kỳ giá trị nào. Ví dụ, biến ngẫu nhiên liên tục có phân bố Gaussian:
Probability mass function
Hàm độ lớn xác suất (pms – probability mass function) của biến ngẫu nhiên rời rạc là hàm gán xác suất cho từng giá trị của X, ký hiệu P(x).
Trong đó,
.
.
Probability density function
Hàm mật độ xác suất (pdf – probability density function) được đặc trưng cho biến ngẫu nhiên liên tục. Để tìm xác suất của một biến ngẫu nhiên liên tục, thường ta tính diện tích phần dưới đường cong nằm giữa 2 điểm cần tính xác suất.
Phân phối được gọi là liên tục nếu biến ngẫu nhiên nhận giá trị trong một miền vô hạn không đếm được. Hàm phân bố tích lũy tạo thành một đường cong liên tục. Nếu X là một biến ngẫu nhiên liên tục, ta không thể sử dụng hàm độ lớn xác suất (pmf) cho X. Ta chỉ có thể tính xác suất cho một khoảng giá trị của X.
Cumulative distribution function
Hàm phân phối tích lũy (cdf – cumulative distribution function) của biến ngẫu nhiên X được đặc trưng cho biến ngẫu nhiên rời rạc và liên tục. Là hàm F(x) được tính bằng tổng các xác suất của biến ngẫu nhiên X nhỏ hơn hay bằng giá trị a. Ở ví dụ trên, diện tích hình tam giác màu xanh thể hiện xác suất mà biến ngẫu nhiên X nhỏ hơn hay bằng a = 1.6.
Ở ví dụ trên thì hàm CDF thể hiện bằng hàm F(x) = x*x/4. Trong đó, x là cạnh đáy, y=x/2 là đường cao. CDF là diện tích của hình tam giác chúng ta tính được. Nếu bạn đã từng làm việc với giải tích (calculus), ắt hẳn bạn đã nhận ra khi chúng ta tính diện tích dưới đường cong thật chất chúng ta đi tính tích phân của hàm đó.

Khi biến ngẫu nhiên là liên tục, như ví dụ trên, PDF là đạo hàm của CDF. Do đó, khi ta tính nguyên phân của PDF ta sẽ được CDF. Khi ta tính CDF trong một khoảng [a, b] ta sẽ được kết quả là diện tích phía dưới đường cong.
Lấy ví dụ pmf và cdf cho biến ngẫu nhiên rời rạc là số lần xuất hiện mặt phải (heads) của đồng xu khi tung 3 lần liên tiếp.
value a: | 0 | 1 | 2 | 3 |
pmf p(a) | 1/8 | 3/8 | 3/8 | 1/8 |
cdf F(a) | 1/8 | 4/8 | 7/8 | 1 |
Phân vị (quantile)
Media của là giá trị tại
mà ở đó
. Nghĩa là,
có xác suất như nhau kể cả phía trái và phía phải median. Nếu ta có cdf
, thì median theo
sẽ thoả
. Hay quantile
của
sẽ là
mà ở đó
.
Một số thuật ngữ liên quan:
- 60th percentile là 0.6 quantile.
- deciles là 1/10. Khi đó, decile thứ 3 sẽ là 0.3 quantile.
- quartiles là 1/4. Khi đó, quartiles thứ 3 sẽ là 0.75 quantile hay 75th percentile.
Một vài ví dụ:
Tìm 0.6 quantile của . Do cdf của
là
nằm trong khoảng [0, 1] nên
.
Tìm 0.6 quantile của theo phân phối chuẩn. Ta có thể dùng R để tính.
q0.6 = qnorm(0.6, 0, 1) = 0.25335
Chúng ta sẽ kết thúc bài viết này với một vài điểm đáng lưu ý. Một mô hình xác suất kết nối dữ liệu đến một quần thể (population) bằng cách sử dụng những giả định. Cần lưu ý sự khác biệt giữa trung bình quần thể (population medians) và trung bình mẫu (sample medians). Trung bình mẫu là một ước lượng (estimator) của trung bình quần thể. Xin chúc mừng, chúng ta đã tìm hiểu được các khái niệm của xác suất.
Nguồn tham khảo: http://swirlstats.com/
excellent, you saved my day
ThíchĐã thích bởi 1 người
Cám ơn bạn rất nhiều
ThíchĐã thích bởi 1 người
Biến cố giao có vẻ có công thức không đúng. P(A.B)= P(A).P(B)
ThíchThích