A/B testing là gì

Ngay tại thời điểm này, có rất nhiều khả năng ứng dụng Twitter của các bạn hoàn toàn khác với tôi, và hoàn toàn có thể bạn đang sở hữu những tính năng mới mà tôi không nhìn thấy. Thật ra, kể từ khi có nhiều người dùng hơn, Twitter đã trích ra một phần trăm nhỏ băng thông của mình để kiểm nghiệm một số tính năng mới nào đó mà chưa được chính thức công bố. Do đó, để hiểu được những người dùng cụ thể này phản ứng như thế nào so với nhóm người không được sử dụng tính năng mới (control group) được gọi là A/B testing. Đây là phương pháp kiểm nghiệm xem nhóm A hoặc B, nhóm nào có phản ứng tích cực hơn.

Trước khi đi vào quy trình cụ thể, ta hãy xem qua đoạn video ngắn nói về A/B testing layout của một website.

Đây là quy trình điển hình khi chạy A/B testing: Thu thập mẫu (gather samples) -> Chia nhóm (assign buckets) -> Áp dụng thử nghiệm (apply treatments) -> Đo lường kết quả (measure outcomes) -> So sánh kết quả (make comparisons). Nghe có vẻ đơn giản phải không? Ngược lại, A/B testing là một quy trình chưa được nhìn nhận đúng mực và đòi hỏi nhiều thủ thuật trong phân tích, và đó là một kỹ năng mà hiếm khi được dạy trong nhà trường. Ta lần lượt khảo sát 5 pha của quy trình này:

Thu thập mẫu (gather samples) – chúng ta cần bao nhiêu mẫu dữ liệu? Ta nên chia bao nhiêu người dùng vào từng nhóm thử nghiệm? Chúng ta có đảm bảo các thử nghiệm đạt được chỉ số power?

Chia nhóm (assign buckets) – Ai đủ điều kiện để đưa vào thử nghiệm? Có nên đưa một số người dùng được chỉ định để thử nghiệm nhưng không được phép thấy tính năng này không?

Áp dụng thử nghiệm (apply treatment) – có team nào trong tổ chức cũng đang chạy thực nghiệm trên cùng tính năng của ứng dụng này hay không? Làm thế nào để đối phó với các thực nghiệm trùng lặp và đảm bảo dữ liệu của chúng ta không bị xáo trộn?

Đo lường kết quả (measure outcome) – những giả thuyết của thử nghiệm là gì? Các số liệu thành công và thất bại của thí nghiệm này là gì? Chúng ta có thể theo dõi chúng không? Và làm thế nào? Ta cần thêm những thông tin gì trong quá trình ghi file log?

So sánh kết quả (make comparisons) – giả sử chúng ta thấy rằng số lượng người dùng đăng nhập vào gia tăng đáng kể, dữ liệu này có bị nhiễu không? Làm thế nào chúng ta biết kết quả như vậy là có ý nghĩa (significant)? Nếu thật sự có ý nghĩa thì trong thực tế điều này còn đúng không?

Kỹ năng cần có:

  • Kiểm định giả thuyết thống kê (Hypothesis Testing): Statistical test, p-values, statistical significance, power, effect size, multiple testing.
  • Những cạm bẫy trong thí nghiệm (Pitfalls of Experimentation): Carryover effect, metrics cherry-picking, data dilution, bucket anomaly.

Nguồn: https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6

Advertisements

One thought on “A/B testing là gì

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s