Statistical Inference: Xác suất (Probability)

distribution

distribution

Trong bài viết này, ta sẽ khảo sát các khái niệm về xác suất (probability), là một số thực diễn tả khả năng xảy ra của một biến cố (event, outcome). Ta sử dụng các ví dụ về tung xúc sắc và rút các lá bài để minh hoạ cho các khái niệm này.

Ví dụ tung một xúc sắc

Bước đầu tiên để hiểu được xác suất, ta cần hiểu được thế nào là biến cố (outcome) của một thí nghiệm (experiment). Ví dụ, khi ta tung một xúc sắc, có bao nhiêu biến cố có thể xảy ra? Dĩ nhiên, số biến cố sẽ bằng 6 vì xúc sắc có 6 mặt.

Dice

Dice

Xác suất xảy ra một biến cố cụ thể là tỉ số giữa kích thước của biến cố (event, outcome) với không gian mẫu (sampel space).

Ta có không gian mẫu bằng 6 khi tung một xúc sắc. Do đó, biến cố tung được xúc sắc có mặt bằng 2 được tính bằng 1/6. Xác suất xảy ra biến cố tung được xúc sắc có mặt là số chẵn được tính bằng tỉ số giữa kích thước của biến cố là 3 (các mặt chẵn: 2, 4, 6) với không gian mẫu là 6 (các mặt: 1, 2, 3, 4, 5, 6). Như vậy, xác suất tung được mặt chẵn là 3/6 = 1/2.

Xác suất của biến cố E được ký hiệu là P(E), số này nằm trong khoảng 0 và 1. Những biến cố bất khả thi (impossible events) có xác suất là 0 vì không thể nào xảy ra. Những biến cố chắc chắn (certain) xảy ra có xác suất là 1.

Nếu ta thu được n các biến cố có thể xảy ra gồm e1, e2, …, en thì tổng xác suất của các biến cố này bằng 1. Nếu các biến cố xảy ra như nhau (likely), như ví dụ tung xúc sắc trên, thì xác suất của mỗi biến cố sẽ bằng 1/n.

Nếu A và B là hai biến cố độc lập (independent events) nhau thì xác suất xảy ra đồng thời hai biến cố trên sẽ bằng tích xác suất xảy ra các biến cố đó. P(A&B) = P(A) * P(B).

Lấy ví dụ, ta tung một xúc sắc hai lần thì xác suất tung được mặt 4 hai lần liên tiếp là bao nhiêu? Ta có xác suất tung được mặt 4 lần thứ nhất là 1/6. Việc tung xúc sắc lần thứ hai không phụ thuộc vào biến cố xảy ra lần thứ nhất. Do đó, xác suất tung được mặt 4 lần thứ hai cũng bằng 1/6. Vậy, xác suất tung được mặt 4 hai lần liên tiếp bằng 1/6 * 1/6 = 1/36. Điều này là hợp lý vì xác suất tung được mặt 4 hai lần liên tiếp phải nhỏ hơn xác suất chỉ tung một lần để được mặt 4. Lấy ví dụ tương tự, ta tung một xúc sắc hai lần liên tiếp, khả năng tung được cùng một mặt là bao nhiêu? Vì ta không quan tâm đến kết quả biến cố thứ nhất nên xác suất của nó bằng 1. Việc tung xúc sắc lần thứ hai phụ thuộc vào biến cố lần thứ nhất nên xác xuất phải bằng 1/6. Do đó, xác suất tung được cùng một mặt hai lần liên tiếp bằng 1 * 1/6 = 1/6. Bây giờ, ta thí nghiệm với hai xúc sắc, một đỏ một xanh. Có bao nhiêu biến cố có thể xảy ra khi tung hai xúc sắc này? Mỗi xúc sắc đều có 6 biến cố có thể xảy ra và biến cố của hai xúc sắc này độc lập với nhau. Ví dụ, khi xúc sắc đỏ tung được mặt 1 thì kết quả này độc lập với 6 biến cố xảy ra ở xúc sắc xanh. Nên số biến cố có thể xảy ra là 6 * 6 = 36.

Red and green dices

Red and green dices

Nếu xác suất xảy ra một biến cố E có nhiều hơn một cách và các cách này tách rời nhau (disjoint, mutually exclusive) thì xác xuất P(E) bằng tổng của từng xác suất xảy ra các biến cố này.

Ví dụ tung 2 xúc sắc

Xác suất tung hai xúc sắc cho ra tổng các mặt bằng 10 là bao nhiêu? Trên xúc sắc, số lớn nhất có thể xảy ra là 6, để kết hợp ra tổng bằng 10 ta có các kết hợp sau 4+6 = 10 và 5+5 = 10. Cách kết hợp thứ nhất có hai trường hợp xảy ra là đỏ 4 xanh 6 hoặc đỏ 6 xanh 4. Như vậy, xác suất bằng 1/36 + 1/36 + 1/36 = 3/36 = 1/12.

Tương tự ví dụ trên, tổng nào sinh ra bởi hai xúc sắc xảy ra nhiều nhất? Dĩ nhiên, ta không thể chọn tổng là 1 vì điều này không thể xảy ra khi tung hai xúc sắc. Ta cũng không thể chọn 2 và 12 vì những biến cố này chỉ xảy ra một lần. Vậy, ta chỉ có thể chọn 7 hoặc 9. Để thu được tổng là 7 từ hai xúc sắc ta có các kết hợp từ 1 đến 6. Trong khi, tổng là 9 chỉ có thể kết hợp từ số 3 trở lên. Vậy ta chọn 7 để có tần xuất (frequency) xảy ra nhiều nhất.

Biến cố hợp (union): Hơp của hai biến cố A và B là biến cố chứa tất cả các thành phần của A và B. Ký hiệu: P(A U B), P(A + B). Công thức tính: P(A U B) = P(A) + P(B) – P(A&B).
Điều này cũng dễ hiểu, khi ta cộng hai xác suất P(A) và P(B), ta đã lỡ đếm xác suất xảy ra biến cố A và B hai lần. Khi A và B là hai biến cố giao nhau (intersection), ta cần loại bớt xác suất P(A&B) này.

Union probability

Union probability

Quay lại ví dụ tung hai xúc sắc, ta thử tính xác suất tung được mặt chẵn (biến cố A) hay tổng hai mặt lớn hơn 8 (biến cố B). Ta có xác suất tung được mặt chẵn bằng 1/2 hay 18/36. Có tất cả 10 cách để tung được tổng số lớn hơn 8. Trong đó, tổng số là 9 có 4 cách (6+3, 5+4, 3+6, 4+5), tổng số là 10 có 3 cách (6+4, 4+6, 5+5), tổng số là 11 có 2 cách (6+5, 5+6), và tổng số 12 có 1 cách (6+6). Hai biến cố A và B giao nhau ở các số (6+3, 4+5, 6+4, 6+6) nên ta cần trừ 4 trong biểu thức tính xác suất của mình. Do đó, biểu thức tính xác suất cuối cùng là (18+10-4)/36 = 0.667.

Biến cố giao (intersection): Giao của hai biến cố A và B là biến cố chứa các thành phần vừa thuộc A vừa thuộc B. Ký hiệu: P(A U B), P(AB). Công thức tính: P(A U B) = P(A) + P(B).
Ta thử tính xác suất tung hai xúc sắc có tổng lớn 10. Các biến cố có tổng lớn hơn 10 chỉ có thể là 11 và 12. Để có được biến cố 11 ta có hai cách (6+5, 5+6). Để có được biến cố 12 ta có 1 cách (6+6). Vì vậy, xác suất sẽ là (2 + 1)/36 = 0.083. Dựa vào kết quả trên, ta có thể dùng tính chất tổng xác suất của các biến cố bằng 1 để suy ra xác suất của biến cố có tổng nhỏ hơn hay bằng 10. Như vậy, xác suất sẽ là 12/12 – 1/12 = 11/12 = 0.917.

Ví dụ các lá bài

Tiếp theo, ta lấy ví dụ về các lá bài bằng cách xây dựng các hàm sau:

values suits

# Create a deck as a 13x4 matrix which is easy to verify by eye.
deck

# Select n cards from a deck at random without replacement.
hand

# Deal k hands of n cards each as a kxn matrix.
deal # Select kxn cards at random without replacement.
temp # Reshape selections into a kxn matrix. Since R
# fills by column, this is like dealing the cards
# out in circular order around the table. (Not that
# it makes any difference since the selection process
# is a random permutation of the deck anyway.)
matrix(temp, k, n)
}
Cards

Cards

Một bộ bài có 52 lá, 4 loại (suits) và 13 giá trị cho mỗi loại. Loại đỏ có 2 dạng Rô (diamonds) và Cơ (hearts), loại đen có 2 dạng Bích (spades) và Chuồn (clubs). 13 giá trị trong mỗi loại được liệt kê như sau: Ách (Ace) được xem là giá trị 1, sau đó là các số từ 2 đến 10, tiếp đến là 3 loại quân (face cards) Bồi (Jack), Đầm (Queen), Già (King). Ta đã tạo biến deck để lưu bộ bài này dưới dạng ma trận.

# Verify.
deck
spades hearts diamonds clubs
[1,] "A:spades" "A:hearts" "A:diamonds" "A:clubs"
[2,] "2:spades" "2:hearts" "2:diamonds" "2:clubs"
[3,] "3:spades" "3:hearts" "3:diamonds" "3:clubs"
[4,] "4:spades" "4:hearts" "4:diamonds" "4:clubs"
[5,] "5:spades" "5:hearts" "5:diamonds" "5:clubs"
[6,] "6:spades" "6:hearts" "6:diamonds" "6:clubs"
[7,] "7:spades" "7:hearts" "7:diamonds" "7:clubs"
[8,] "8:spades" "8:hearts" "8:diamonds" "8:clubs"
[9,] "9:spades" "9:hearts" "9:diamonds" "9:clubs"
[10,] "10:spades" "10:hearts" "10:diamonds" "10:clubs"
[11,] "J:spades" "J:hearts" "J:diamonds" "J:clubs"
[12,] "Q:spades" "Q:hearts" "Q:diamonds" "Q:clubs"
[13,] "K:spades" "K:hearts" "K:diamonds" "K:clubs"
# Note the value of a card is its row index (if Aces are low.)

Ta tiến hành các phép tính đơn giản sau: Có tất cả 52 biến cố khi rút một lá trong bộ bài này. Xác suất rút được quân Bồi (Jack) là 4/52 = 1/13. Vì số lượng quân Bồi (Jack) có trong bộ bài là 4. Ta chia cho không gian mẫu là 52 để có kết quả trên. Xác suất rút được 5 lá bài có giá trị như nhau bằng 0. Vì mỗi giá trị chỉ có 4 loại bài tương ứng (Rô, Cơ, Bích, Chuồn). Xác suất rút ra được 3 loại quân (Bồi, Đầm Già) là 4*3/52 = 3/13. Vì ta có 4 lá bài tương ứng với 3 loại quân trên tổng số 52 lá. Giả sử ta rút được 1 trong 3 loại quân (face) ở lượt đầu tiên (không hoàn lại). Xác suất ta rút được 1 trong 3 loại quân lần thứ hai là bao nhiêu? Sau khi rút lần thứ nhất, ta chỉ còn 51 lá trong bộ bài và dĩ nhiên chỉ còn 11 lá bài có chứa 3 loại quân trên. Nên xác suất tính được là 11/51. Giả sử ta rút được 1 trong 3 loại quân (face) ở lượt đầu tiên (không hoàn lại). Xác suất ta rút được 1 trong 3 loại quân lần thứ hai có cùng loại (suits) là bao nhiêu? Sau khi rút lần thứ nhất, ta chỉ còn 51 lá trong bộ bài và dĩ nhiên chỉ còn 2 lá bài có cùng loại (suits) với lá bài trên. Nên xác suất tính được là 2/51.

Biến ngẫu nhiên

Biến ngẫu nhiên là ánh xạ từ một tập hợp, xây dựng trên nền không gian mẫu S, vào tập các xác suất có thể xảy ra. Biến ngẫu nhiên rời rạc: nếu nó chỉ có hữu hạn, hoặc vô hạn đếm được các giá trị (ví dụ: X1 = Tổng điểm thi đại học khối A). Biến ngẫu nhiên liên tục (ví dụ: X2 = Chiều cao của 1 người Việt Nam).

Biến ngẫu nhiên liên tục thường được kết hợp với các phép đo thời gian, khoảng cách, hoặc một số quy trình sinh học vì ta có thể xét bất kỳ giá trị nào. Những hạn chế về độ chính xác trong việc đo lường có thể ngụ ý rằng các giá trị là rời rạc.

Probability mass function

Hàm độ lớn xác suất (pms – probability mass function) của biến ngẫu nhiên rời rạc là hàm gán xác suất cho từng giá trị của X, ký hiệu P(x). Giả sử ta có một đồng xu với x=0 thể hiện biến cố xảy ra mặt phải (head), x=1 thể hiện biến cố xảy ra mặt trái (tail). Nếu p là xác suất biến cố xảy ra mặt phải ta có biểu thức của PMF như sau:

p^{1 - x} (1 - p)^x

Probability density function

Hàm mật độ xác suất (pdf – probability density function) được đặc trưng cho biến ngẫu nhiên liên tục. Để tìm xác suất của một biến ngẫu nhiên liên tục, thường ta tính diện tích phần dưới đường cong nằm giữa 2 điểm cần tính xác suất.

Phân phối được gọi là liên tục nếu biến ngẫu nhiên nhận giá trị trong một miền vô hạn không đếm được. Hàm phân bố tích lũy tạo thành một đường cong liên tục.

Nếu X là một biến ngẫu nhiên liên tục, ta không thể sử dụng hàm độ lớn xác suất (pmf) cho X. Ta chỉ có thể tính xác suất cho một khoảng giá trị của X.

Quan sát hình sau

probability density function

probability density function

Ta có hình chữ nhật với chiều cao bằng 1 và chiều rộng bằng 2, đường chéo nối từ điểm (0, 0) đến điểm (2, 1) chia hình chữ nhật thành hai phần bằng nhau. Đường chéo này có thể được xem như là hàm PDF cho biến ngẫu nhiên x trong khoảng từ 0 đến 2.

Bây giờ ta thử quan sát hình tam giác được tô đậm bên dưới

PDF shaded

PDF shaded

Hình tam giác được tô đậm này có chiều dài x bằng 1.6 và chiều cao y được tính dựa vào đường chéo. Ta muốn tính tỉ lệ giữa hình tam giác được tô đậm này với hình tam giác lớn. Tỉ lệ này cho ta biết xác suất ném một mẫu bánh qua lỗ hình tam giác nhỏ hơn này là bao nhiêu.

Đầu tiên, chúng ta cần tính diện tính hình tam giác màu xanh. Ta đã biết giá trị cạnh đáy là 1.6. Để tính chiều cao y ta lấy hệ số góc 1/2 nhân với cạnh đáy 1.6. Như vậy y = 1/2 * 1.6 = 0.8. Suy ra diện tích hình tam giác màu xanh bằng (0.8*1.6)/2 = 0.64. Cuối cùng ta có xác suất ném một mẫu bánh qua lỗ hình tam giác nhỏ là 0.64/1 = 0.64 (do diện tích hình tam giác lớn bằng 1).

Ví dụ trên cho ta cái nhìn đơn giản về hàm mật độ xác suất. Trên thực tế các hàm mật độ này là các đường cong phức tạp hơn ví dụ này.

Cumulative distribution function

Hàm phân phối tích lũy (cdf – cumulative distribution function) của biến ngẫu nhiên X được đặc trưng cho biến ngẫu nhiên rời rạc và liên tục. Là hàm F(x) được tính bằng tổng các xác suất của biến ngẫu nhiên X nhỏ hơn hay bằng giá trị a. Ở ví dụ trên, diện tích hình tam giác màu xanh thể hiện xác suất mà biến ngẫu nhiên X nhỏ hơn hay bằng a = 1.6.

Ở ví dụ trên thì hàm CDF thể hiện bằng hàm F(x) = x*x/4. Trong đó, x là cạnh đáy, y=x/2 là đường cao. CDF là diện tích của hình tam giác chúng ta tính được. Nếu bạn đã từng làm việc với giải tích (calculus), ắt hẳn bạn đã nhận ra khi chúng ta tính diện tích dưới đường cong thật chất chúng ta đi tính tích phân của hàm đó.

PDF vs CDF

PDF vs CDF

Khi biến ngẫu nhiên là liên tục, như ví dụ trên, PDF là đạo hàm của CDF. Do đó, khi ta tính tích phân của PDF ta sẽ được CDF. Khi ta tính CDF trong một khoảng [a, b] ta sẽ được kết quả là diện tích phía dưới đường cong.

Phân vị (quantile)

Hàm sống sót S(x) (survivor function) của một biến ngẫu nhiên X được định nghĩa là một hàm của giá trị x để tính xác suất của biến ngẫu nhiên X có giá trị lớn hơn x. Đây là phần bù của CDF F(x), trong ví dụ của chúng ta, là phần còn lại của hình tam giác lớn không được tô màu xanh.

Như vậy, trong ví dụ của chúng ta, biểu thức thể hiện hàm sống sót là : 1 – (x*x/4). Vì tổng diện tích của PDF bằng 1 mà hàm sống sót là phần bù của CDF, nên ta chỉ cần lấy phần bù của hàm CDF để tính hàm S(x).

Phân vị (quantile) v của CDF là điểm x_v mà tại đó CDF có giá trị là v. Cụ thể, F(x_v) = v. Phần trăm phân vị (percentile) là một phân vị trong đó v được biểu diễn dưới dạng phần trăm (percentage).

Theo đó, phần trăm phân vị của trung vị (median) là 50-th. Nếu ta có F(x)=(x^2)/4 như ví dụ trên thì điểm phân vị x_v = sqrt(x^2) = sqrt(4*.5) = sqrt(2) = 1.414214.

Chúng ta sẽ kết thúc bài viết này với một vài điểm đáng lưu ý. Một mô hình xác suất kết nối dữ liệu đến một quần thể (population) bằng cách sử dụng những giả định. Cần lưu ý sự khác biệt giữa trung bình quần thể (population medians) và trung bình mẫu (sample medians). Trung bình mẫu là một ước lượng (estimator) của trung bình quần thể. Xin chúc mừng, chúng ta đã tìm hiểu được các khái niệm của xác suất.

Nguồn tham khảo: http://swirlstats.com/

Advertisements

2 thoughts on “Statistical Inference: Xác suất (Probability)

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s