Việc xác định qui luật xác suất của các biến (variable) có mặt trong tổng thể (population) là một điều cần thiết trong xử lí số liệu. Bài toán ước lượng tham số (parameter estimation) mới chỉ giải quyết việc ước lượng tham số có mặt trong phân phối xác suất của tổng thể (probability distribution of population). Trong baì viết này, ta sẽ xây dựng các qui tắc đánh giá giả thuyết (evaluate hypothesis) về các tham số. Qua các qui tắc kiểm định, ta có thể biết được cách xây dựng các giả thuyết (NULL hypothesis) và đối thuyết (alternative hypothesis) trong từng trường hợp cụ thể. Bài toán kiểm định giả thuyết thống kê (hypothesis testing) là một bài toán lớn và quan trọng của thống kê toán học.
Notebooks: hypothesis_testing.
Anh có thể nói về T-test, F-Test, Anova, Manova được ko ạ. Em không biết khi nào cần sử dụng những phương pháp này!
ThíchThích
em có thể tham khảo ví dụ này https://nbviewer.jupyter.org/github/ongxuanhong/data-science-works/blob/master/statistics/notebooks/issues_in_statatistics.ipynb
ThíchThích
cảm ơn anh!
ThíchThích
Em có một bài tập như thế này https://github.com/TrinhDinhPhuc/ML-by-CBD-Robotics/blob/master/week2/Movie%20report%20project.PNG
Làm sao để em biết với mỗi câu thì em nên sử dụng kiểm định nào ạ?
ThíchThích
a thấy 3 câu hỏi đều liên quan đến correlation giữa các variables để đánh giá tầm ảnh hưởng, họ có gợi ý dùng t-test để biện luận nhưng dữ liệu của Movie khá nhiều em có thể dùng Hypothesis testing vì t-test chỉ áp dụng cho tập dữ liệu nhỏ < 30 samples.
Kiểm định thường đi kèm với câu hỏi Yes/No, trong từng câu em có thể tự đặt câu hỏi như vậy để phân tích. Ví dụ em thống kê thấy variable 1 là ảnh hưởng đến revenue nhiều nhất, em sẽ kiểm định xem có thật là nó ảnh hưởng nhất ko.
ThíchĐã thích bởi 1 người
Anh ơi, cho em hỏi ở ví dụ của anh 0.975 có phải là lower or upper tail probability đúng ko ạ? Và tại sao anh lại chọn 0.975 ạ?
ThíchThích
do Confident Interval (CI) anh muốn cho nó significant thôi, em có thể chọn 0.9 cũng được.
ThíchĐã thích bởi 1 người
Da chao anh, neu anh khong phien co the giup em giai bai nay nhu the nao khong a.
The amount of time it takes a student to solve a homework problem in mathematical statistics(in minutes) follows a normal distribution with unknown mean u and a variance equal to 81. We want to verify the null hypothesis that u = 34 against the alternative that u = 68 on the base of a single observation X using the following procedure: if X > c, we reject the null. Find c such that the test has a signicance level of 3%. Calculate the probability of committing an error of the second type for this test.
em cam on a.
ThíchĐã thích bởi 1 người
hóng ké 😀
ThíchThích