Ở phần trước, ta đã tìm hiểu các khái niệm cơ bản của thống kê như means, median, standard deviations, probability, normal distribution, central limit theorem. Những độ đo này giúp ta hiểu biết tổng quan về dữ liệu đang phân tích. Trong phần tiếp theo, ta sẽ tìm hiểu về suy luận thống kê từ các độ đo này. Ta sẽ biết thế nào là độ lỗi chuẩn (standard error), làm sao để tính khoảng tin cậy (confidence interval) cho một mẫu bất kỳ vừa thu thập được, và thực hiện kiểm định giải thuyết như thế nào cho những câu hỏi được đặt ra.
Tất cả những thao tác này được gọi là suy luận thống kê (inferential statistics). Ví dụ, một lớp học gồm 50 học sinh. Trong đó, các bạn nữ cho rằng mỗi lần khảo bài thì họ bị gọi lên nhiều hơn các bạn nam. Họ cho rằng như vậy giáo viên đã thiên vị. Còn giáo viên thì cho rằng họ thực hiện điều này một cách ngẫu nhiên. Vậy ai đúng trong trường hợp này. Thông qua suy luận thống kê, ta sẽ tiến hành lấy mẫu thực nghiệm, đặt giả thuyết thống kê, xác định ngưỡng bác bỏ , tính toán z-score và p-value, cuối cùng là so sánh
và p-value để xem kết luận cuối cùng là gì.
Download: Jupyter notebook
Xem thêm:
- Statistical hypothesis testing cho dân lập trình
- Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)
- A/B testing là gì
- Statistical Inference: Khoảng tin cậy T (Confident Interval)
- Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)
- Statistical Inference: P Values
- Statistical inference: Thiết kế thực nghiệm