Đón năm mới 2017 với cuộc thi Kaggle

Can you improve lung cancer detection

Can you improve lung cancer detection

Hằng năm Kaggle có đưa ra nhiều cuộc thi liên quan đến các vấn đề xã hội như là một thách thức để các bạn trẻ tài năng tham gia giúp sức cho cộng đồng.

Lần này, nhân dịp đầu năm mới, tôi và một vài người bạn quyết định tham gia khởi động với cuộc thi Kaggle với chủ đề liên quan đến chẩn đoán bệnh ung thư phổi thông qua ảnh DICOM.

Mục đích của bài viết này là tổng hợp lại các thông tin đủ để các bạn hoặc đồng đội của bạn bắt tay vào xây dựng mô hình dự đoán cũng như truyền chút động lực cho các bạn đang tham vọng dấn thân vào ngành Data Science.

Tổng quan

Xây dựng hệ thống chẩn đoán phát hiện ung thư phổi giúp tăng khả năng điều trị trong vòng 5 năm.

National Cancer Institute cung cấp hàng ngàn file scan phổi có độ phân giải cao, họ cần thuật toán xác định khi nào tổn thương (lesions) ở phổi là ung thư giúp giảm chẩn đoán bệnh sai (false positive: có bệnh mà chẩn đoán là không bệnh)

Tổng giải thưởng là $1 triệu USD cho những đội build được model chính xác nhất

Tập dữ liệu

kaggle-sample-images

kaggle-sample-images

Tập dữ liệu sử dụng chuẩn file Digital Imaging and Communications in Medicine (DICOM). Mỗi hình chứa dãy các mặt cắt (axial slices) ở khoang ngực (chest cavity) và có một biến cho mặt cắt 2D.

DICOM file có phần header chứa thông tin cần thiết về id của bệnh nhân cũng như các tham số scan như độ dày của mặt cắt.

Ground truth labels được xác nhận thông qua chẩn đoán bệnh lý (pathology diagnosis). Dữ liệu đến từ nhiều nguồn nên sẽ có chất lượng khác nhau. Ví dụ, hình scans thời xưa sẽ kém tinh vi hơn. Stage 1 có chất lượng kém hơn Stage 2 data (mặt cắt mỏng hơn). Nhưng thuật toán của chúng ta phải chạy tốt trên mọi chất lượng ảnh.

lung-cancer-positive

lung-cancer-positive

lung-cancer-negative

lung-cancer-negative

Mỗi patient id sẽ có folder chứa các file DICOM tương ứng. patient id được tìm thấy trong DICOM header file. Số lượng các file sẽ khác nhau đối với từng bệnh nhân (số lượng lát cát).

planes-of-movement

planes-of-movement

transverse

transverse – mặt phẳng ngang

frontal

frontal – mặt phẳng trực diện

sagittal

sagittal – mặt phẳng bên

Chú ý:

Có 2 giai đoạn, cả team phải tham gia đủ mới được vào vòng cuối.

Do dữ liệu quá lớn nên Kaggle beta cung cấp link torrent và mã hóa kèm với password (không được share ra bên ngoài)

Một số phần mềm hỗ trợ để làm việc với file DICOM

Danh sách các files

stag1.7z chứa toàn bộ ảnh train và test cho giai đoạn đầu

stage1_labels.csv (ground truth training set)
id cancer
0015ceb851d7251b8f399e39779d1e7d 1
0030a160d58723ff36d73f41b170ec21 0
003f41c78e6acfa92430a057ac0b306e 0
006b96310a37b36cccb2ab48d10b49a3 1
008464bb8521d09a42985dd8add3d0d2 1

data_password.txt (password mở file)

stag1_sample_submission.txt
id,cancer
026470d51482c93efc18b9803159c960,0.5
031b7ec4fe96a3b035a8196264a8c8c3,0.5
03bd22ed5858039af223c04993e9eb22,0.5
06a90409e4fcea3e634748b967993531,0.5
07b1defcfae5873ee1f03c90255eb170,0.5
0b20184e0cd497028bdd155d9fb42dc9,0.5

Đánh giá mô hình

LogLoss càng nhỏ càng tốt

LogLoss = -\frac{1}{n} \sum_{i=1}^n [y_i log(\hat{y_i}) + (1 - y_i) log(1 - \hat{y_i})]

n – số bệnh nhân trong tập test
\hat{y}  – giá trị dự đoán
y – giá trị ground truth
log – natural log

Luật chơi

Một account duy nhất

Không share code, nếu share thì share cho toàn forum

Có thể merge team

Team member bao nhiêu cũng được nhưng chỉ được tham gia một team

Submit tối đa 3 lần/ngày

Cần số mobile để verify

Đặt tên team, add member

Deadline

  • Start Date: 1/12/2017 2:00:00 PM UTC
  • Merger Deadline: 3/31/2017 11:59:00 PM UTC
  • Entry Deadline: 3/31/2017 11:59:00 PM UTC
  • End Date: 4/12/2017 11:59:00 PM UTC

Có quyền sử dụng thêm dữ liệu bên ngoài và phải upload lên forum trước 1 tuần deadline stage 1

Source code không được công nhận nếu dính lỗi bản quyền open source

Có quyền phủ nhận tiền thưởng trước 1 tuần

Nghĩa vụ: giao source có thể xuất được submission file

Giải thưởng

1st place – $500,000
2nd place – $200,000
3rd place – $100,000
4th place – $25,000
5th place – $25,000
6th place – $25,000
7th place – $25,000
8th place – $25,000
9th place – $25,000
10th place – $25,000
$5000 cho mỗi top 3 có nhiều Kernels vote nhất (total $15,000)
$10,000 cho team share DSB journey của mình lên social media
Ngoài ra còn có các nhà tài trợ khác NVIDIA, Amazon

Tutorial

https://www.kaggle.com/c/data-science-bowl-2017/details/tutorial
https://aws.amazon.com/government-education/research-and-technical-computing/

Advertisements

6 thoughts on “Đón năm mới 2017 với cuộc thi Kaggle

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s