Hướng dẫn deploy Spark

Spark and Scala version
Spark Shell

Việc deploy Spark là cần thiết đối với các tác vụ mang tính thường kỳ. Ví dụ, ta có thể tạo một CRON job để chương trình Spark có thể tự động tổng hợp dữ liệu cho chúng ta sau chu kỳ mỗi giờ, mỗi ngày hay mỗi tuần. spark-submit là một shell command được dùng để deploy ứng dụng Spark lên cluster. Nhờ vào cơ chế quản lý phân tán của Spark, ta không cần phải chỉnh sửa source code quá nhiều để có thể chuyển đổi từ standalone mode sang distributed mode.

Trong bài viết này, tôi sẽ hướng dẫn các bạn một số cách để deploy Spark từ dòng lệnh cơ bản cho đến việc sử dụng IDE như thế nào. Để hoàn thành được bài hướng dẫn bên dưới bạn cần đọc trước các bài viết sau:

Bạn có thể download trực tiếp source code tại Github: https://github.com/ongxuanhong/programming-with-spark.

Xem tiếp

Kinh nghiệm làm việc với Big Data

Working with Big Data
Working with Big Data

Đã bao giờ bạn cảm thấy quá tải khi làm việc với Big Data chưa? Đã bao giờ bạn phải ngồi hàng giờ chỉ để transfer dữ liệu từ server này sang server khác chỉ để test thuật toán của mình? Hay những lúc chán chường khi nhìn script của mình bắt đầu chạy hàng giờ và cuối cùng phát hiện ra mình đã sai đâu đó? Mình nghĩ rằng tất cả những ai khi mới bắt đầu làm việc với Big Data đều có những cảm nhận như vậy. Trong bài viết này, tôi xin góp một chút kinh nghiệm của mình để làm việc với Big Data hiệu quả hơn, kể cả cá nhân hay làm việc nhóm.

Xem tiếp