Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

Outlier

Outlier

Các phần tử ngoại lai (Outliers hay anomalies) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán. Trong bài viết này, ta sẽ tìm hiểu thế nào là điểm ngoại lai trong thống kê cũng như liệt kê một số phương pháp để xử lý các điểm dữ liệu này.

Tiếp tục đọc

So sánh Pig, Hive và SQL

Pig vs Hive vs SQL

Pig vs Hive vs SQL

Hadoop là công nghệ mới đang hot, còn SQL là công nghệ đã cũ và không còn khả năng đáp ứng lại nhu cầu phân tích dữ liệu lớn Big Data như hiện nay. Tuy nhiên, Hadooop MapReduce là kỹ thuật khá phức tạp đối với các nhà phát triển và phân tích dữ liệu đang là. May thay, cộng đồng đã đưa ra hai ngôn ngữ Pig (10 dòng code Pig = 200 dòng code Java) và Hive tương tự như SQL để giúp việc cài đặt Hadooop trở nên dễ dàng hơn rất nhiều, bạn không cần nhọc công cài đặt MapReduce từ đầu thông qua ngôn ngữ Java.

Nhưng các công nghệ này khác nhau như thế nào để ta có thể đưa ra một lựa chọn tiết kiệm và hiệu quả nhất. Trong bài viết này, tôi xin đưa ra một vài so sánh giữa các công nghệ này cũng như đề ra một vài lời khuyên khi nào nên vận dụng các công nghệ này tương ứng với từng dự án trong thực tế.

Tiếp tục đọc

Áp dụng Convolutional Neural Networks cho Xử lý ngôn ngữ tự nhiên

Illustration of a Convolutional Neural Network (CNN)

Illustration of a Convolutional Neural Network (CNN)

bài viết trước, ta đã tìm hiểu về mô hình Convolutional Neural Networks (CNNs) ứng dụng như thế nào trong Thị giác máy tính (Computer Vision). Trong phần này, tôi xin tiếp tục bài viết của mình về cách làm thế nào để ứng dụng CNNs vào xử lý ngôn ngữ tự nhiên (Natural Language Processing).

Tiếp tục đọc

Những dự án Machine Learning tập dợt khi rảnh rỗi

Machine Learning projects

Machine Learning projects

Các dự án thực tế giúp cho những kiến thức trừu tượng về Machine Learning trở nên rõ ràng hơn. Trong bài viết này, tôi xin liệt kê một vài dự án thú vị trong thực tế để chúng ta có cơ hội tập dợt mỗi khi rảnh rỗi. Bạn sẽ thấy được machine learning áp dụng như thế nào vào các lĩnh vực như giáo dục, khoa học, kĩ thuật và y tế.

Mỗi dự án được liệt kê bên dưới đều có đường link dẫn đến tập dữ liệu cần thiết. Nếu có dự án nào khiến bạn cảm thấy hứng thú, bạn có thể download tập dữ liệu về và bắt đầu “vọc” ngay lập tức.

  • Otto Group Product Classification Challenge. Cho các thuộc tính của sản phẩm, phân lớp các sản phẩm này vào một trong 9 danh mục sản phẩm khác nhau.
  • Rossmann Store Sales. Cho lịch sử bán hàng của các sản phẩm ở những cửa hàng khác nhau, dự đoán tình hình kinh doanh trong tương lai.
  • Bike Sharing Demand. Cho dữ liệu thuê mướn xe đạp và dữ liệu thời tiết đi kèm, dự đoán nhu cầu thuê mướn xe đạp hàng ngày của khách hàng trong tương lai.
  • The Analytics Edge. Cho thông tin các bài viết của New York Times, dự đoán bài viết nào được đọc nhiều nhất.
  • Restaurant Revenue Prediction. Cho thông tin chi tiết của một nhà hàng, dự đoán doanh thu trong một năm sắp tới.
  • Liberty Mutual Group: Property Inspection Prediction. Cho thông tin chi tiết về một tài sản bất kì, dự đoán mức độ rủi ro bảo hiểm cho tài sản đó.
  • Springleaf Marketing Response. Cho thông tin các khách hàng, dự đoán xem họ có phải là khách hàng mục tiêu hay không.
  • Higgs Boson Machine Learning Challenge. Cho mô tả về mô phỏng va chạm giữa các hạt, dự đoán xem biến cố này có phân rã thành hạt Higgs hay không.
  • Forest Cover Type Prediction. Cho thông tin bản đồ, dự đoán rừng thuộc loại bao phủ nào.
  • Amazon.com Employee Access Challenge. Cho lịch sử truy cập tài nguyên của các nhân viên, dự đoán các nguồn tài nguyên nào nhân viên cần dùng thường xuyên.
  • Iris dataset. Cho kích thước (cm) của một bông hoa, dự đoán nó thuộc về loài hoa nào.
  • Adult dataset. Cho dữ liệu điều tra dân số, dự đoán những cá nhân nào có thu nhập nhiều hơn $50,000 một năm.
  • Wine dataset. Cho dữ liệu phân tích thành phần hóa học của rượu, dự đoán xuất xứ của rượu này.
  • Car evaluation dataset. Cho thông tin chi tiết về một chiếc xe, dự đoán mức độ an toàn của chiếc xe đó.
  • Breast Cancer Wisconsin dataset. Cho xét nghiệm chẩn đoán tế bào vú, dự đoán xem tế bào này có bị ung thư hay không.
  • Abalone dataset. Cho thông tin đo lường về bào ngư, dự đoán tuổi của bào ngư này.
  • Wine Quality dataset. Cho thông tin khác nhau về rượu, dự đoán chất lượng của rượu này.
  • Heart Disease dataset. Cho các kết quả chẩn đoán khác nhau về một bệnh nhân, dự đoán mức độ mắc bệnh tim mạch của người đó.
  • Human activity recognition using smart phones dataset. Từ dữ liệu chuyển động của smart phone, dự đoán loại hoạt động của người dùng.
  • Forest fires dataset. Cho thông tin khí tượng và một số dữ kiện khác, dự đoán vùng rừng có nguy cơ bị cháy cao.
  • Internet Advertisements dataset. Cho thông tin các bức ảnh trên trang web, dự đoán bức ảnh này có phải quảng cáo hay không.