Machine Learning cho người bắt đầu

machine-learning-progress

machine-learning-progress

Những bạn yêu thích Machine Learning và không biết mình nên bắt đầu từ đâu có thể bắt đầu tại đây. Mọi câu hỏi, các bạn có thể comment bên dưới, mình luôn sẵn sàng ở đây để hỗ trợ.

Khởi động

Machine learning là gì

Machine learning là gì

Bạn cần làm quen với một vài điểm cơ bản để bắt đầu cuộc hành trình của mình.

Machine learning là gì

Tại sao cần Machine learning

Machine Learning trên Quora hỏi gì đáp nấy

Những ứng dụng thương mại của Deep learning

Các công ty Startup về Deep learning

Machine Learning và Real-Time Bidding

Kĩ năng phân tích dữ liệu

Data analytics

Data analytics

Bạn cần học và thực hành tiến trình áp dụng machine learning vào bài toán cụ thể. Chuẩn bị dữ liệu > Huấn luyện > Đánh giá và lựa chọn mô hình.

Cách xác định bài toán trong Machine Learning

Kỹ năng làm việc với Machine Learning

Tiền xử lý dữ liệu (Horse Colic dataset)

Getting and cleaning data: Các phương pháp lấy mẫu (Sampling)

Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

Feature engineering là gì

Đánh giá mô hình (Model evaluation)

Statistical hypothesis testing cho dân lập trình

Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

Kỹ năng hệ thống

linux-is-sexy

linux-is-sexy

Bạn cũng nên chuẩn bị cho mình phương pháp quản lý dự án và thao tác nhanh với hệ thống.

Git notes

Command line thường dùng

Hướng dẫn deploy Spark

Thao tác với các công nghệ Big Data

Soạn slides bằng Beamer

Viết luận văn bằng LaTeX

Tiếp tục đọc

Con đường học tập Machine Learning của tôi

how to study machine learning

how to study machine learning

Chặng đường trở thành một Data Scientist khá dài, 2-3 năm thậm chí là 5 năm tuỳ năng lực của mỗi người. Có bạn chọn cho mình con đường học thuật từ cử nhân, master cho đến PhD. Có bạn học xong cử nhân thì tìm kiếm ngay cho mình cơ hội nghiên cứu ở các công ty. Có bạn lại chọn cho mình phát triển ở vị trí Data Engineer/Data Analyst chuyên phân tích dữ liệu Big Data. Dù bạn ở vị trí nào đi nữa thì điều quan trọng nhất là bạn đã đóng góp được gì cho dự án mà mình tham gia.

Trong bài viết này, tôi sẽ tản mạn một chút về quá trình học tập Machine Learning của tôi trong thời gian qua. Từ lúc tôi còn ngồi ghế nhà trường cho đến lúc đi làm. Bạn đọc ở đây có lẽ cũng có nhiều điểm chung như tôi, cũng đã từng thử qua nhiều phương pháp học Machine Learning khác nhau, cũng đã từng trải nghiệm và chọn lọc ra cách học phù hợp nhất đối với bản thân. Cách tiếp cận của tôi có lẽ không phải là cách tốt nhất nên ta chỉ tham khảo để giao lưu thêm thôi nhé.

Tiếp tục đọc

Các sản phẩm Trí tuệ nhân tạo hiện nay

Fourth Industrial Revolution

Fourth Industrial Revolution

Xã hội con người cơ bản trải qua những giai đoạn sau: Săn bắn hái lượm > trồng trọt chăn nuôi > cách mạng công nghiệp > sản xuất dây chuyền > cách mạng công nghệ thông tin > hệ thống trí tuệ nhân tạo tự hành.

Bản thân tôi không ngờ ngành AI lại phát triển nhanh đến như vậy. Còn nhớ thời còn là sinh viên chưa biết mình học ngành khoa học máy tính ra để làm gì, hay chỉ để viết sách và đi giảng dạy ở các trường đại học thì bây giờ các ứng dụng ngoài thực tế đã có rất nhiều.

Đây là danh sách các ứng dụng để ta tham khảo cũng như quan sát được thế giới đang thật sự đi đến đâu trong ứng dụng AI vào cuộc sống. Không biết chừng một trong những bạn đọc ở đây cũng sẽ nun nấu cho mình ý tưởng startup nào đó.

Tiếp tục đọc

ACL 2017 accepted papers

acl 2017

acl 2017

Những chủ đề được nghiên cứu trong năm

Biomedical – Y sinh
Cognitive Modelling and Psycholinguistics – Mô hình nhận thức và tâm lý học
Dialog Interactive Systems – Hệ thống tương tác hội thoại
Discourse Pragmatics – Phân tích tính chặt chẽ và ngữ cảnh trong câu
Generation Summarization – Phát sinh và tổng hợp văn bản
IE QA Text Mining Applications – Những ứng dụng truy vấn và khai thác dữ liệu văn bản
Machine Learning – Máy học
Machine Translation – Dịch máy
Multidisciplinary – Nghiên cứu liên ngành
Multilingual – Nghiên cứu đa ngôn ngữ
Phonology Morphology Word Segmentation – Phân đoạn từ về hình vị và âm vị
Resources Evaluation – Đánh giá ngữ liệu
Semantics – Phân tích ngữ nghĩa
Sentiment Analysis Opinion Mining – Phân tích và khai thác tâm lý
Social Media – Truyền thông xã hội
Speech – Phân tích tiếng nói
Tagging Chunking Syntax Parsing – Phân tích cú pháp về gán nhãn và phân đoạn
Vision Robots Grounding – Thị giác robots

Link: https://chairs-blog.acl2017.org/2017/04/05/accepted-papers-and-demonstrations/

EACL 2017 accepted papers

eacl 2017

eacl 2017

Danh sách các paper nổi bật

Link: http://eacl2017.org/index.php/program/accepted-papers

Hướng dẫn deploy Spark

Việc deploy Spark là cần thiết đối với các tác vụ mang tính chu kỳ. Ví dụ, ta có thể tạo một CRON job để chương trình Spark có thể tự động tổng hợp dữ liệu cho chúng ta sau chu kỳ mỗi giờ, mỗi ngày hay mỗi tuần. spark-submit là một shell command được dùng để deploy ứng dụng Spark lên cluster. Nhờ vào cơ chế quản lý phân tán của Spark, ta không cần phải chỉnh sửa source code quá nhiều để có thể chuyển đổi từ standalone mode sang distributed mode.

Để hoàn tutorial này, bạn cần các phần mềm sau:

Tiếp tục đọc

Xác định gam màu trong MV Nơi này có anh – Sơn Tùng M-TP

color-palettes-noi-nay-co-anh

Lấy cảm hứng từ bài viết NHỮNG GAM MÀU TÌNH YÊU ĐẦY CẢM HỨNG TRONG MV NƠI NÀY CÓ ANH – SƠN TÙNG M-TP. Trong bài viết này, tôi sẽ hướng dẫn nhanh mọi người cách áp dụng kĩ thuật color clustering (image segmentation) để rút ra gam màu chính trong từng cảnh quay của MV. Cụ thể, ta sẽ sử dụng thuật toán k-means clustering. Đây là thuật toán đơn giản đủ để ta thực hiện tác vụ này.

Source code: Github.

Tiếp tục đọc

Thao tác với các công nghệ Big Data

how-to-use-big-data

how-to-use-big-data

Mục đích của bài viết này dùng để ghi chú lại các thao tác cơ bản cũng như một số khái niệm khi làm việc với các công nghệ được liệt kê bên dưới. Sau một thời gian tìm tòi học hỏi về các công nghệ mới, chúng ta nên notes lại cho bản thân để tiện tham khảo nhanh sau này, không cần tốn thời gian search Google một lần nữa.

Phần lớn thời gian, ta sẽ làm việc trên dòng lệnh. Do đó, đây cũng là một thói quen tốt giúp ta tổ chức công việc hiệu quả hơn, giải phóng đầu óc của chúng ta đỡ nhọc công ghi nhớ nhiều chi tiết nhỏ nhặt, thay vào đó ta giành thời gian tập trung vào bức tranh tổng quát nhiều hơn.

Tiếp tục đọc

Kaggle lung cancer detection – Phác thảo hệ thống (Prototype)

compressed-images

compressed-images

Một Data scientist cần có khả năng prototype nhanh mô hình dự đoán của mình bằng cách sử dụng mẫu dữ liệu nhỏ có thể lưu trữ ngay trên laptop. Khi mô hình đã được kiểm chứng và hoạt động, ta có thể tiến hành làm việc với các thành viên khác trong nhóm để tích hợp các tác vụ rút trích đặc trưng (feature extraction), quản lý và mở rộng prototype được viết bởi nhiều thành viên khác trong nhóm. Sau khi hoàn tất phần prototype, ta có thể làm việc với engineers/developers để hiện thực hóa sản phẩm thông qua mô hình đã huấn luyện.

Khi prototype, ta hoàn toàn có quyền viết scripts không trật tự và rõ ràng để hoàn tất công việc, nhưng cần đảm bảo code được viết càng đơn giản càng tốt để sau này có thể đọc hiểu và phát triển bởi các thành viên khác.

Tiếp tục với cuộc thi Kaggle lung cancer detection, trong bài viết này, ta sẽ cùng nhau prototype hệ thống chẩn đoán ung thư phổi đơn giản. Đầu vào là ma trận đặc trưng (sử dụng ngay ảnh raw, chưa áp dụng các kỹ thuật rút trích đặc trưng). Đầu ra là kết quả đánh giá và so sánh giữa các mô hình dự đoán.

Github sources: