Học thống kê thông qua lập trình sẽ giúp ta không chỉ kiểm chứng lại lý thuyết đã học mà còn hỗ trợ nắm bắt các khái niệm phức tạp một cách dễ dàng hơn. Thêm vào đó, ta sẽ biết cách ứng dụng những kiến thức này vào trong công việc khi cần thiết.
Ta sử dụng Jupyter notebook để điểm qua các khái niệm, thao tác cơ bản giúp quan sát và mô tả dữ liệu. Ta sẽ phân biệt được các loại dữ liệu (nomial, numbers, odinal, ratio) trong dataset như thế nào, tìm trọng tâm của tập dữ liệu, quan sát sự biến đổi của dữ liệu thông qua các chỉ số cơ bản (range, variance, standard deviation, z-score, percentile), cùng với một vài nguyên lý tính xác suất Bayes và cách mô phỏng central limit theorem.
- Download: Jupyter notebook, PySpark version
- Tập dữ liệu test: Dresses_Attribute_Sales dataset
- Ảnh trong bài
Anh ơi trong Notebook cell 16, em nghĩ công thức tính Z-score:
z_score_rating = df_ratio[“Rating”] – mean_rating / std_rating
cần thêm dấu ngoặc kép:
z_score_rating = (df_ratio[“Rating”] – mean_rating) / std_rating
đúng không ạ
ThíchThích
đúng rồi e, a bị nhầm đấy. Cám ơn e nhé
ThíchThích