Vọc thử Orange: phần mềm data mining

Tôi thường nhận được nhiều câu hỏi từ các bạn ở nhóm ngành khác IT, rất quan tâm đến lĩnh vực Data mining và Machine learning, rằng họ không biết nên bắt đầu từ đâu và như thế nào, có cần phải học lập trình không, có cần phải biết xác suất thống kê không. … Tiếp tục đọc Vọc thử Orange: phần mềm data mining

Expectation maximization (EM) hỏi gì đáp nấy

Dùng để làm gì? Trong khai thác dữ liệu, phương pháp tối đa hóa kì vọng (EM) là thuật toán gom nhóm (clustering) dữ liệu (như k-means) được dùng trong tác vụ khám phá tri thức (knowledge discovery). Trong thống kê, thuật toán EM lặp (iterate) và tối ưu hóa (optimize) khả năng (likelihood) nhìn thấy … Tiếp tục đọc Expectation maximization (EM) hỏi gì đáp nấy

Gom nhóm (Clustering analysis) tập dữ liệu Labor

Trong bài viết này, ta sẽ áp dụng các phương pháp gom nhóm (clustering) trên tập dữ liệu Labor. Đây là tập dữ liệu chứa các thông tin (số ngày nghỉ, số giờ làm việc, lương tăng hàng năm, …) để phân biệt nhân viên tốt (good) và nhân viên không tốt (bad). Hai thuật … Tiếp tục đọc Gom nhóm (Clustering analysis) tập dữ liệu Labor

Áp dụng các phương pháp phân lớp (Classification) trên tập dữ liệu Mushroom

Trong bài viết này, ta sẽ áp dụng các phương pháp phân lớp (classification) lên tập dữ liệu Mushroom. Đây là tập dữ liệu mô tả các đặc tính vật lý của nấm, cùng với nhãn phân loại có độc hoặc ăn được. Các thuật toán được sử dụng gồm Naive Bayes, Nearest neighbor, ID3, J48. … Tiếp tục đọc Áp dụng các phương pháp phân lớp (Classification) trên tập dữ liệu Mushroom

Apriori và FP-Growth với tập dữ liệu plants

Trong bài viết này, ta sẽ khai thác các tập phổ biến (frequent itemset) trên tập dữ liệu Plants (sự phân bố của một số loài thực vật ở khu vực Mỹ và Canada). Các công đoạn tiền xử lý được thực hiện bởi Python. Để dễ tiếp cận, các bước khai thác dữ liệu … Tiếp tục đọc Apriori và FP-Growth với tập dữ liệu plants

Tiền xử lý dữ liệu (Horse Colic dataset)

Trong bài viết này, ta sẽ áp dụng những kiến thức liên quan đến lấy và làm sạch dữ liệu (gọi chung là tiền xử lý dữ liệu) trên tập dữ liệu Horse Colic (chứng đau bụng ở ngựa). Để dễ tiếp cận, các thao tác được thực hiện với Weka. Tập dữ liệu: horse-colic … Tiếp tục đọc Tiền xử lý dữ liệu (Horse Colic dataset)

Những ứng dụng thương mại của Deep learning

Deep learning có mặt ở mọi nơi. Trên Amazon và Netflix: cung cấp những thông tin được cá nhân hóa (personalized recommendations). Trên smartphone: giúp kích hoạt trợ lý bằng giọng nói. Trên các website và ứng dụng di động: giúp cho nội dung quảng cáo nhắm đến khách hàng tiềm năng chính xác hơn. … Tiếp tục đọc Những ứng dụng thương mại của Deep learning