Xác định gam màu trong MV Nơi này có anh – Sơn Tùng M-TP

color-palettes-noi-nay-co-anh

Lấy cảm hứng từ bài viết NHỮNG GAM MÀU TÌNH YÊU ĐẦY CẢM HỨNG TRONG MV NƠI NÀY CÓ ANH – SƠN TÙNG M-TP. Trong bài viết này, tôi sẽ hướng dẫn nhanh mọi người cách áp dụng kĩ thuật color clustering (image segmentation) để rút ra gam màu chính trong từng cảnh quay của MV. Cụ thể, ta sẽ sử dụng thuật toán k-means clustering. Đây là thuật toán đơn giản đủ để ta thực hiện tác vụ này.

Source code: Github.

Tiếp tục đọc

Kaggle lung cancer detection – Phác thảo hệ thống (Prototype)

compressed-images

compressed-images

Một Data scientist cần có khả năng prototype nhanh mô hình dự đoán của mình bằng cách sử dụng mẫu dữ liệu nhỏ có thể lưu trữ ngay trên laptop. Khi mô hình đã được kiểm chứng và hoạt động, ta có thể tiến hành làm việc với các thành viên khác trong nhóm để tích hợp các tác vụ rút trích đặc trưng (feature extraction), quản lý và mở rộng prototype được viết bởi nhiều thành viên khác trong nhóm. Sau khi hoàn tất phần prototype, ta có thể làm việc với engineers/developers để hiện thực hóa sản phẩm thông qua mô hình đã huấn luyện.

Khi prototype, ta hoàn toàn có quyền viết scripts không trật tự và rõ ràng để hoàn tất công việc, nhưng cần đảm bảo code được viết càng đơn giản càng tốt để sau này có thể đọc hiểu và phát triển bởi các thành viên khác.

Tiếp tục với cuộc thi Kaggle lung cancer detection, trong bài viết này, ta sẽ cùng nhau prototype hệ thống chẩn đoán ung thư phổi đơn giản. Đầu vào là ma trận đặc trưng (sử dụng ngay ảnh raw, chưa áp dụng các kỹ thuật rút trích đặc trưng). Đầu ra là kết quả đánh giá và so sánh giữa các mô hình dự đoán.

Github sources:

Kaggle lung cancer detection: Tiền xử lý ảnh (Preprocessing)

kaggle-image-preprocessing

kaggle-image-preprocessing

Tiền xử lý ảnh (image preprocessing) là tiến trình cải thiện chất lượng ảnh sao cho ảnh đầu ra giữ lại được những đặc trưng (feature) quan trọng trong ảnh. Sau đó, làm đầu vào cho các quá trình xử lý tiếp theo. Ta có thể thay đổi độ sáng của ảnh (pixel brightness transformation), biến đổi hình học ảnh (geometric transformation), rút trích đặc trưng ảnh (feature extraction), nội suy ảnh (image interpolation), lọc ảnh (image filtering: blur, sharpen, noise removal), …

Trong bài viết này, ta sẽ học cách làm việc với tập dữ liệu ảnh số. Ta sẽ tìm hiểu về cách ảnh số được định dạng trong không gian như thế nào. Bắt đầu bằng việc đọc và hiển thị ảnh cho đến áp dụng tích chập (convolution) và lọc ảnh bằng Tensorflow. Ở đây, tôi sẽ sử dụng tập dữ liệu download từ Kaggle Data Science Bowl 2017. Do tập dữ liệu khá lớn, các bạn có thể download sample_images về làm việc.

Git source: basics.py

Tiếp tục đọc

Đón năm mới 2017 với cuộc thi Kaggle

Can you improve lung cancer detection

Can you improve lung cancer detection

Hằng năm Kaggle có đưa ra nhiều cuộc thi liên quan đến các vấn đề xã hội như là một thách thức để các bạn trẻ tài năng tham gia giúp sức cho cộng đồng.

Lần này, nhân dịp đầu năm mới, tôi và một vài người bạn quyết định tham gia khởi động với cuộc thi Kaggle với chủ đề liên quan đến chẩn đoán bệnh ung thư phổi thông qua ảnh DICOM.

Mục đích của bài viết này là tổng hợp lại các thông tin đủ để các bạn hoặc đồng đội của bạn bắt tay vào xây dựng mô hình dự đoán cũng như truyền chút động lực cho các bạn đang tham vọng dấn thân vào ngành Data Science.

Tiếp tục đọc