C4.5 hỏi gì đáp nấy

Decision tree 4

Decision tree

Dùng để làm gì? C4.5 xây dựng một phân lớp (classifier) dưới dạng một cây quyết định. Để làm điều này, dữ liệu đầu vào C4.5 là mẫu dữ liệu quan sát đã được gán nhãn phân lớp.

Classifier là gì? classifier là một công cụ trong khai thác dữ liệu nhận vào một loạt các dữ liệu đã được gán nhãn phân loại và cố gắng dự đoán dữ liệu mới thuộc về phân lớp nào.

Xin cho một ví dụ? giả sử ta có tập dữ liệu các bệnh nhân. Ta có thông tin của từng bệnh nhân như tuổi, mạch đập, huyết áp, tiền sử gia đình, … Đây gọi là các thuộc tính.

Với những thuộc tính này, chúng ta muốn dự đoán xem bệnh nhân có bị ung thư hay không. Bệnh nhân có thể rơi vào 1 trong 2 lớp: sẽ bị ung thư hay sẽ không bị ung thư. C4.5 sẽ cho biết mỗi bệnh nhân thuộc về lớp nào bằng cách xây dựng một cây quyết định có thể dự đoán dựa vào thông tin của bệnh nhân đó.

Cây quyết định là gì? Học cây quyết định tạo ra một cái gì đó tương tự như một sơ đồ để phân loại dữ liệu mới. Sử dụng ví dụ bệnh nhân, một con đường cụ thể trong sơ đồ có thể là:

  • Bệnh nhân có tiền sử ung thư
  • Bệnh nhân có gen liên quan với bệnh ung thư
  • Bệnh nhân có khối u
  • Kích thước khối u của bệnh nhân lớn hơn 5cm

Tại mỗi điểm trên sơ đồ là một câu hỏi liên quan đến gía trị của một vài thuộc tính, và dựa vào các giá trị này, ta có thể phân lớp mẫu dữ liệu đầu vào. Ta có thể tìm thấy nhiều ví dụ về sơ đồ cây quyết định ở đây.

C4.5 có gì khác so với các cây quyết định khác?

  • Đầu tiên, C4.5 sử dụng information gain khi tạo cây quyết định.
  • Thứ hai, mặc dù các hệ thống khác cũng kết hợp tỉa cành, C4.5 sử dụng quá trình cắt tỉa single-pass để giảm thiểu hiện tượng quá khớp (overfitting).
  • Thứ ba, C4.5 có thể làm việc với cả dữ liệu liên tục và rời rạc. Bằng cách xác định phạm vi hoặc các ngưỡng cho dữ liệu liên tục nhờ vậy dữ liệu liên tục được chuyển sang dạng rời rạc.
  • Cuối cùng, dữ liệu bị thiếu được xử lý theo cách riêng của mình.

Tại sao sử dụng C4.5? Có thể cho rằng, ưu điểm của cây quyết định là chúng dễ diễn giải và giải thích. Thuật toán cũng khá nhanh, khá phổ biến và kết quả sơ đồ đầu ra con người có thể đọc được.

Nó được sử dụng ở đâu? mã nguồn mở được cài đặt bằng Java như OpenTox. Orange, một công cụ mã nguồn mở dùng để trình bày và phân tích dữ liệu trong các tác vụ khai thác dữ liệu cũng cài đặt thuật toán cây quyết định C4.5.

Nguồn: http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s