10 tutorials về scikit-learn

Text mining

Text mining

  1. Neuroimaging: bằng cách quan sát các hình ảnh về chức năng thần kinh khác nhau, bài báo minh họa cách sử dụng scikit-học để thực hiện các bước phân tích y học.
  2. Decision Trees with Scikit & Pandas: bài viết hướng dẫn cài đặt mô hình cây quyết định sử dụng scikit-learn và pandas. Pandas được sử dụng để nạp dữ liệu từ file csv. Scikit-learn được sử dụng để xây dựng cây quyết định, vẽ cây, và diễn giải mô hình theo mã giả.
  3. Decomposing the Random Forest model: tác giả trình bày cách xây dựng mô hình Random Forest sử dụng scikit-learn.
  4. Feature Unions & Pipeline: Zac Stewart trình bày mô hình khai thác dữ liệu từ công đoạn rút trích thông tin, chuyển đổi, chuẩn hóa, và huấn luyện mô hình dự đoán của mình.
  5. Majority Rule Ensemble Classifier trong Scikit-learn: một hướng tiếp cận đơn giản mà Sebastian Raschka đã sử dụng trong cuộc thi kaggle.
  6. Dự đoán Customer Churn: YHat trình bày cách sử dụng Scikit learn để dự đoán tỉ lệ khách hàng giữ lại được (customer churn).
  7. Text Classification sử dụng NLTK và Scikit learn: slide chia sẻ bởi Olivier Grisel sử dụng NLTK và Scikit learn để phân loại văn bản.
  8. Clustering với Sci Kit Learn: sử dụng kĩ thuật gom nhóm K-Means.
  9. Classification với Scikit Learn sử dụng ba phương pháp khác nhau – Logistic Regression, Discriminant Analysis, và Nearest Neighbor.
  10. Hidden Markov Models – một ví dụ cực kì đơn giản dựa trên kiến thức từ Wikipedia để xây dựng mô hình Hidden Markov Model cho các câu.

Tham khảo thêm:

OpenTable xây dựng hệ thống recommender như thế nào

OpenTable

OpenTable

Tại OpenTable, hệ thống recommender đóng một vai trò quan trọng trong việc kết nối thực khách với các nhà hàng. Phương pháp của họ dựa trên lịch sử tương tác thông qua cách click chuột và tìm kiếm dữ liệu, ngoài ra còn có metadata của các nhà hàng, cũng như những thông tin dồi dào từ review của thực khách, cùng với nhiều thông tin khác giúp cho hệ thống recommender ngày thêm hữu ích. Trong mục slideshare này, OpenTable nêu rõ những khía cạnh chính của hệ thống recommender được xây dựng dựa trên Scalar và Apache Spark…

Tham khảo thêm:

Natural Language Processing MindMap

Tại sao học cao học?

PHD comics

PHD comics


Việc giáo dục và đào tạo cho đến bậc cử nhân có bản chất là học, trong đó việc học ở bậc phổ thông nhằm để có các tri thức cơ bản cần cho cuộc sống và hoạt động của mỗi người, còn việc học ở bậc cử nhân (undergraduate) nhằm để có các tri thức chung về một nghề nghiệp hay lĩnh vực nào đó (thí dụ nghề y, chế tạo máy, quản trị kinh doanh, …). Do phải học nhiều môn, chương trình đào tạo bậc cử nhân chưa cho phép người học có các tri thức chuyên sâu.

Đào tạo sau đại học (graduate) khác cơ bản với đào tạo cử nhân ở việc đi sâu vào chuyên ngành, gồm hai bậc thạc sĩ và tiến sĩ, trong đó bản chất của đào tạo thạc sĩ là học còn bản chất của đào tạo tiến sĩ là nghiên cứu. Đáng tiếc là điều cơ bản này đã không luôn được hiểu rõ và làm đúng ở đại học của chúng ta.

Tiếp tục đọc

Liệu Deep Learning có làm cho các thuật toán machine learning khác trở nên lỗi thời?

Deep learning vs other Machine learning algorithms

Deep learning vs other Machine learning algorithms – created by Eren Golge.

Liệu deep learning có làm cho các thuật toán khác trở nên lỗi thời, hay nó quá phức tạp để áp dụng cho các bài toán quá đơn giản? Ta sẽ thảo luận về hai vấn đề này.

Tiếp tục đọc

Deep Learning huấn luyện để hiểu văn bản

Language Development

Language Development

Hãy quên đi ý nghĩa của từ ngữ (words), quên đi ngữ pháp (grammar), quên đi cú pháp (syntax), quên đi cả khái niệm (concept) của từ vựng. Bây giờ hãy để máy tính tự nó tìm hiểu mọi thứ từ đầu.

Đây là câu chuyện tuyệt vời mà Xiang Zhang và Yann LeCun từ NYU trong một bài báo gần đây của họ “Text Understanding from Scratch”. Họ thừa nhận rằng deep learning có thể làm cho máy tính hiểu được văn bản (text understanding), mà không cần bất kỳ kiến thức gì về ngôn ngữ.

Tiếp tục đọc