Gom nhóm (Clustering analysis) tập dữ liệu Labor

Trong bài viết này, ta sẽ áp dụng các phương pháp gom nhóm (clustering) trên tập dữ liệu Labor. Đây là tập dữ liệu chứa các thông tin (số ngày nghỉ, số giờ làm việc, lương tăng hàng năm, …) để phân biệt nhân viên tốt (good) và nhân viên không tốt (bad). Hai thuật toán được sử dụng là K-meanHierarchical Clustering (AGNES). Để dễ tiếp cận, các phương pháp được thực hiện với Weka.

Labor
Labor

Tập dữ liệu: labor
Địa chỉ: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.data
Mô tả: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.names
Github: https://github.com/ongxuanhong/Clustering-analysis-with-Labor-dataset

Mô tả sơ lược về dữ liệu

Sau khi nạp dữ liệu labor.arff vào Weka, ta khảo sát các thông tin về tập dữ liệu này.

Load labor dataset
Load labor dataset
  • Số mẫu dữ liệu: 57
  • Số thuộc tính: 17
Tên thuộc tinh loại thuộc tính số giá trị thiếu
duration numeric 1 (2%)
wage increase in first year numeric 1 (2%)
wage increase in second year numeric 11 (19%)
wage increase in third year numeric 42 (74%)
cost of living allowance nomial 20 (35%)
working hours numeric 6 (11%)
pension nomial 30 (53%)
standby pay numeric 48 (84%)
shift differencial numeric 26 (46%)
education allowance nomial 35 (61%)
statutory holidays numeric 4 (7%)
vacation nomial 6 (11%)
longterm disabil nomial 29 (51%)
contribution towards the dental plan nomial 20 (35%)
bereavement nomial 27 (47%)
contribution towards the health plan nomial 20 (35%)

Gom nhóm dữ liệu

Thuật toán chạy 2 lần với dữ liệu chưa điền giá trị thiếu và đã điền giá trị thiếu (sử dụng bộ lọc ReplaceMissingValues). Ta thiết lập các thông số trước khi tiến hành gom nhóm dữ liệu.

Clustering labor dataset
Clustering labor dataset
  • Chọn số nhóm bằng 2
  • Sử dụng kỹ thuật đánh giá Classes To Clusters
  • Chọn độ đo khoảng cách Euclide
  • A: Chưa xử lý giá trị thiếu, B: Đã xử lý giá trị thiếu
Thuật toán Số mẫu gom nhóm sai (A) Số mẫu gom nhóm sai (B)
SimpleKMeans 13.0 (22.807%) 13.0 (22.807%)
AGNES với Single Link 20.0 (35.0877%) 19.0 (33.333%)
AGNES với Complete Link 21.0 (36.8421%) 17.0 (29.824%)
AGNES với Adjusted Complete Link 21.0 (36.8421%) 19.0 (33.333%)
AGNES với Average Link 20.0 (35.0877 %) 15.0 (26.315%)
AGNES với Mean Link 15.0 (26.3158%) 16.0 (28.070%)
AGNES với Centroid Link 25.0 (43.8596%) 19.0 (33.333%)

Phương pháp đánh giá Classes To Clusters

Đánh giá chất lượng nhóm là nhiệm vụ khó khăn và phức tạp nhất trong phân tích nhóm. Chất lượng nhóm thể hiện qua:

  • Xác định xu hướng gom nhóm của dữ liệu.
  • So sánh kết quả gom nhóm với kết quả/thông tin bên ngoài đã có (ví dụ so sánh với các nhãn lớp đã cho).
  • Đánh giá kết quả gom nhóm không dùng thông tin bên ngoài : chỉ sử dụng dữ liệu.
  • So sánh kết quả của 2 phương pháp gom nhóm khác nhau.
  • Xác định chính xác số nhóm.

Phương pháp Classes To Clusters sử dụng độ đo chất lượng nhóm External index (đo mức độ các nhãn lớp tương đồng với các nhãn lớp bên ngoài đã cung cấp sẵn).

External index được tính như sau: đối với mỗi nhóm j, xác định p_{ij} là xác suất để một mẫu thuộc nhóm j(cluster j) thuộc về lớp i(class i).

p_{ij} = \frac{|m_{ij}|}{m_j}

* m_j là số mẫu của cluster j.
* m_{ij} là số mẫu của class i thuộc cluster j.

Đánh giá mô hình

SimpleKMean

K clustering
K clustering

Ưu điểm

  • Đơn giản, dễ hiểu, tương đối hiệu quả.
  • Các đối tượng tự động gán vào các nhóm.
  • Thường đạt được tối ưu cục bộ.

Nhược điểm

  • Thuộc tính phi số (nomial) cần sử dụng độ đo khoảng cách riêng.
  • Cần xác định số nhóm (k) trước.
  • Tất cả các đối tượng phải gán vào các nhóm.
  • Phụ thuộc vào việc chọn các nhóm đầu tiên.
  • Gặp vấn đề khi các nhóm có kích thước, mật độ khác nhau hoặc hình dáng không phải là hình cầu.
  • Nhạy cảm với dữ liệu nhiễu, cá biệt.

AGNES

Hierachical clustering
Hierachical clustering

Không cần xác định trước số nhóm k. Xác định số nhóm cần thiết bằng việc cắt ngang sơ đồ hình cây tại mức thích hợp.

Nhược điểm

  • Tính co dãn thấp : Độ phức tạp là O(n^2) với n – số đối tượng.
  • Không thể quay lui về bước trước.
  • Khó xác định phương pháp tích tụ hay chia nhỏ.
  • Nhạy cảm với nhiễu, cá biệt.
  • Gặp vấn đề khi các nhóm có kích thước khác nhau và có hình dáng lồi.
  • Có xu hướng phân chia các nhóm dữ liệu lớn.

One thought on “Gom nhóm (Clustering analysis) tập dữ liệu Labor

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s