Statistical hypothesis testing cho dân lập trình

Statistics for Hackers
Statistics for Hackers

Hai kỹ năng cần có của các data scientist là kỹ thuật lập trình và tư duy thống kê. Nhiều data scientist hiện nay có kỹ thuật lập trình rất tốt nhưng họ cảm thấy như là kẻ mạo danh khi nói đến các số liệu thống kê. Trong buổi nói chuyện này, John sẽ lập luận rằng khả năng lập trình máy tính cho phép bạn có những ý tưởng sâu sắc và cơ bản nhất về thống kê học. Mục tiêu của John là thuyết phục các kỹ sư không chuyên về thống kê rằng lộ trình để hiểu thấu đáo các khái niệm trong thống kê học ngắn hơn bạn tưởng.

Lĩnh vực thống kê từ lâu đã có tiếng là khó nhai: nó xoay quanh các biệt ngữ dường như vô tận về phân phối, kiểm định thống kê, khoảng tin cậy, chỉ số p, và hơn thế nữa, với các khái niệm và các giả định tinh tế của riêng chúng. Nhưng ta không nhất thiết phải đi theo cách này. Trong slide trình bày dưới đây, Jake sẽ thảo luận về cách sử dụng kỹ năng lập trình để “hack các lý thuyết thống kê” – để thay thế một số lý thuyết và biệt ngữ khó hiểu bằng phương pháp tính toán trực quan như lấy mẫu (sampling), xáo trộn ngẫu nhiên (shuffling), kiểm chứng chéo (cross-validation), và các phương pháp Bayesian – để thấy rằng ta có thể nắm bắt được các khái niệm cơ bản chỉ cần bạn có thể viết được vài vòng lặp để làm phân tích thống kê.

Tham khảo thêm:

A/B testing là gì

Ngay tại thời điểm này, có rất nhiều khả năng ứng dụng Twitter của các bạn hoàn toàn khác với tôi, và hoàn toàn có thể bạn đang sở hữu những tính năng mới mà tôi không nhìn thấy. Thật ra, kể từ khi có nhiều người dùng hơn, Twitter đã trích ra một phần trăm nhỏ băng thông của mình để kiểm nghiệm một số tính năng mới nào đó mà chưa được chính thức công bố. Do đó, để hiểu được những người dùng cụ thể này phản ứng như thế nào so với nhóm người không được sử dụng tính năng mới (control group) được gọi là A/B testing. Đây là phương pháp kiểm nghiệm xem nhóm A hoặc B, nhóm nào có phản ứng tích cực hơn.

Trước khi đi vào quy trình cụ thể, ta hãy xem qua đoạn video ngắn nói về A/B testing layout của một website.

Xem tiếp

Statistical Inference: P Values

P Values
P Values

Trong bài viết này ta sẽ nói về p-values, không phải là một phương thức để kiểm định mà là một độ đo về tầm quan trọng của thống kê (nghĩa là xác suất của dữ kiện D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết đảo H_0 là sự thật.). Tuy nhiên, bởi vì chúng phổ biến và chúng được sử dụng rất nhiều, và thường bị hiểu lầm hay diễn giải sai. Trong phần này, ta sẽ tập trung vào làm thế nào để phát sinh và diễn giải giá trị này một cách đúng đắn.

Xem tiếp

Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)

Power
Power

Việc xác định qui luật xác suất của các biến (variable) có mặt trong tổng thể (population) là một điều cần thiết trong xử lí số liệu. Bài toán ước lượng tham số (parameter estimation) mới chỉ giải quyết việc ước lượng tham số có mặt trong phân phối xác suất của tổng thể (probability distribution of population). Trong baì viết này, ta sẽ xây dựng các qui tắc đánh giá giả thuyết (evaluate hypothesis) về các tham số. Qua các qui tắc kiểm định, ta có thể biết được cách xây dựng các giả thuyết (NULL hypothesis) và đối thuyết (alternative hypothesis) trong từng trường hợp cụ thể. Bài toán kiểm định giả thuyết thống kê (hypothesis testing) là một bài toán lớn và quan trọng của thống kê toán học.

Xem tiếp

Statistical Inference: Tiệm cận (Asymptotics)

Coin plot 10000

Trong bài viết này ta sẽ thảo luận về tiệm cận (asymptotics), làm thế nào để miêu tả dáng điệu của thống kê khi kích thước mẫu ngày càng tiến đến vô cùng. Giả định kích thước mẫu và kích thước quần thể là vô cùng hữu ích cho việc suy diễn thống kê và xấp xĩ.

Xem tiếp

Statistical Inference: Xác suất (Probability)

distribution
distribution

Trong bài viết này, ta sẽ khảo sát các khái niệm về xác suất (probability), là một số thực diễn tả khả năng xảy ra của một biến cố (event, outcome). Ta sử dụng các ví dụ về tung xúc sắc và rút các lá bài để minh hoạ cho các khái niệm này.

Xem tiếp