Kết quả bình chọn cho thấy kích thước Big Data ổn định trong những năm qua

Poll largest dataset 2012-2014

Poll largest dataset 2012-2014

Kết quả trên, dựa trên 392 phiếu bầu, cho thấy xu hướng đáng ngạc nhiên là kích thước Big Data vẫn ổn định sau 3 năm qua.

Hơn 50% câu trả lời nằm trong khoảng Gigabyte (trung vị median nằm trong khoảng 11 đến 100 GB từ năm 2012-14).

Một số ít (2-3%) nhà khai thác Big Data làm việc trên tập dữ liệu quy mô internet (trên 100 PB), tại các công ty như Google và Facebook.

Một số ít đáng lưu ý, với hầu hết các câu trả lời nằm trong khoảng 1-100 PB, đã phân loại kết quả phân tích thành nhóm làm việc với dữ liệu thương mại Terabyte (data warehouses).

Nguồn: http://www.kdnuggets.com/2014/07/poll-results-largest-dataset-analyzed-surprisingly-stable.html

Quy trình khai thác dữ liệu theo tiêu chuẩn mới

Các phương pháp truyền thống để khai thác dữ liệu như CRISP-DM (Cross Industrial Standard Processes for Data Mining) có một vài thiếu sót. Trong bài viết này, kdnuggets sẽ trình bày những mặt hạn chế trong CRISP-DM và giới thiệu hướng tiếp cận mới Standard Methodology for Analytics Models giúp cải thiện những khuyết điểm này.

Methodology analytical models

Methodology analytical models

REASON method

REASON method

Tham khảo thêm: