Getting and cleaning data: Các phương pháp lấy mẫu (Sampling)

Tasting soup

Tasting soup

Trong bài viết này, ta sẽ khảo sát một số vấn đề liên quan đến quần thể, các phương pháp lấy mẫu và những sai lầm chủ quan thường mắc phải khi lấy mẫu.

Quần thể và lấy mẫu

Khi mới đầu làm quen với thống kê, ta thường có câu hỏi sau về việc lấy mẫu

Ta có nên thu thập tất cả dữ liệu của quần thể, hay chỉ cần lấy một số mẫu dữ liệu trong quần thể đó để đánh giá?

Do việc thu thập toàn bộ dữ liệu của quần thể tốn nhiều chi phí, ví dụ như việc điều tra dân số trên toàn quốc. Ngoài ra, có một số dữ liệu khó có thể thu thập được ví dụ như những người ở vùng sâu vùng xa, những người cư trú bất hợp pháp, dẫn đến kết quả thu thập dữ liệu không chính xác. Hơn nữa, quần thể luôn luôn biến đổi và không cố định nên ta khó có thể xem xét hết tất cả các trường hợp.

Ta lấy một ví dụ đơn giản sau. Khi nấu một nồi súp, ta chỉ cần nếm một muỗng nhỏ canh súp (exploratory data analysis) để phán đoán được mùi vị của toàn bộ nồi súp (statistical inference). Chúng ta không cần phải ăn hết nồi súp này mới có thể đánh giá được mùi vị của nó (representative sample).

Những sai lầm chủ quan khi lấy mẫu

Mẫu dữ liệu dễ thu thập (convenient sample): ví dụ, bạn muốn điều tra ý kiến của mọi người trong thành phố về việc giá xăng dầu leo thang. Thay vì thu thập dữ liệu của mọi người trong thành phố, bạn chỉ thu thập dữ liệu từ bà con hàng xóm vì như vậy sẽ dễ hơn việc phải đi khắp thành phố.

Mẫu dữ liệu không được phản hồi (non-response): trường hợp này xảy ra khi chỉ một phần nhỏ những người trong cuộc điều tra phản hồi lại thông tin điều tra, dẫn đến thông tin điều tra không mô tả được toàn bộ quần thể.

Mẫu dữ liệu lấy từ những tình nguyện viên (voluntary response): trường hợp này xảy ra khi những người tình nguyện viên mang ý kiến chủ quan phản hồi lại thông tin điều tra, do vậy mẫu dữ liệu thu thập được không còn mô tả được toàn bộ quần thể.

Các phương pháp lấy mẫu

Như vậy, sau khi khảo sát các vấn đề trên, ta thấy việc lấy mẫu (sampling) là cần thiết trong quá trình điều tra nghiên cứu. Trong nghiên cứu, ta thường dùng 4 phương pháp sau để lấy mẫu:

Sampling methods

Sampling methods

  • simple random sample (SRS): đây là phương pháp lấy mẫu ngẫu nhiên đơn giản. Ta chọn ra các đối tượng một cách ngẫu nhiên trong quần thể sao cho mẫu dữ liệu thu được mô tả gần giống với quần thể. Phương pháp này tương tự như việc ta bóc thăm tên người nhận giải thưởng được bỏ trong một cái mũ.
  • stratified sample: đây là phương pháp lấy mẫu phân tầng. Đầu tiên, ta phân chia quần thể thành từng nhóm khá tương đồng nhau gọi là strata. Sau đó, ta lấy mẫu ngẫu nhiên cho từng nhóm stratum này. Ví dụ, khi ta muốn cả hai giới tính được lấy mẫu bình đẳng trong cuộc điều tra. Đầu tiên, ta sẽ phân chia quần thể thành hai nhóm nam và nữ. Sau đó, ta lấy mẫu ngẫu nhiên từ hai nhóm này.
  • cluster sample: đây là phương pháp lấy mẫu theo cụm. Đầu tiên, ta phân chia quần thể thành các cụm. Sau đó, ta lấy ngẫu nhiên các cụm này và tiến hành lấy mẫu toàn bộ các đối tượng trong các cụm vừa được chọn.
  • multistage sample: đây là phương pháp lấy mẫu nhiều tầng. Sau khi thực hiện phương pháp lấy mẫu cluster, thay vì lấy toàn bộ các đối tượng trong từng cluster, ta lấy mẫu ngẫu nhiên từ các cluster này. Ví dụ, ta có thể chia việc điều tra dân số trên toàn quốc thành các vùng nhỏ hơn. Sau đó, chọn ra ngẫu nhiên một vài vùng để tiến hành lấy mẫu ngẫu nhiên. Nhờ vậy, ta có thể hạn chế được việc điều tra dân số trên toàn quốc.
Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s