10 tutorials về scikit-learn

Text mining

Text mining

  1. Neuroimaging: bằng cách quan sát các hình ảnh về chức năng thần kinh khác nhau, bài báo minh họa cách sử dụng scikit-học để thực hiện các bước phân tích y học.
  2. Decision Trees with Scikit & Pandas: bài viết hướng dẫn cài đặt mô hình cây quyết định sử dụng scikit-learn và pandas. Pandas được sử dụng để nạp dữ liệu từ file csv. Scikit-learn được sử dụng để xây dựng cây quyết định, vẽ cây, và diễn giải mô hình theo mã giả.
  3. Decomposing the Random Forest model: tác giả trình bày cách xây dựng mô hình Random Forest sử dụng scikit-learn.
  4. Feature Unions & Pipeline: Zac Stewart trình bày mô hình khai thác dữ liệu từ công đoạn rút trích thông tin, chuyển đổi, chuẩn hóa, và huấn luyện mô hình dự đoán của mình.
  5. Majority Rule Ensemble Classifier trong Scikit-learn: một hướng tiếp cận đơn giản mà Sebastian Raschka đã sử dụng trong cuộc thi kaggle.
  6. Dự đoán Customer Churn: YHat trình bày cách sử dụng Scikit learn để dự đoán tỉ lệ khách hàng giữ lại được (customer churn).
  7. Text Classification sử dụng NLTK và Scikit learn: slide chia sẻ bởi Olivier Grisel sử dụng NLTK và Scikit learn để phân loại văn bản.
  8. Clustering với Sci Kit Learn: sử dụng kĩ thuật gom nhóm K-Means.
  9. Classification với Scikit Learn sử dụng ba phương pháp khác nhau – Logistic Regression, Discriminant Analysis, và Nearest Neighbor.
  10. Hidden Markov Models – một ví dụ cực kì đơn giản dựa trên kiến thức từ Wikipedia để xây dựng mô hình Hidden Markov Model cho các câu.

Tham khảo thêm:

OpenTable xây dựng hệ thống recommender như thế nào

OpenTable

OpenTable

Tại OpenTable, hệ thống recommender đóng một vai trò quan trọng trong việc kết nối thực khách với các nhà hàng. Phương pháp của họ dựa trên lịch sử tương tác thông qua cách click chuột và tìm kiếm dữ liệu, ngoài ra còn có metadata của các nhà hàng, cũng như những thông tin dồi dào từ review của thực khách, cùng với nhiều thông tin khác giúp cho hệ thống recommender ngày thêm hữu ích. Trong mục slideshare này, OpenTable nêu rõ những khía cạnh chính của hệ thống recommender được xây dựng dựa trên Scalar và Apache Spark…

Tham khảo thêm:

Natural Language Processing MindMap

Tại sao học cao học?

PHD comics

PHD comics


Việc giáo dục và đào tạo cho đến bậc cử nhân có bản chất là học, trong đó việc học ở bậc phổ thông nhằm để có các tri thức cơ bản cần cho cuộc sống và hoạt động của mỗi người, còn việc học ở bậc cử nhân (undergraduate) nhằm để có các tri thức chung về một nghề nghiệp hay lĩnh vực nào đó (thí dụ nghề y, chế tạo máy, quản trị kinh doanh, …). Do phải học nhiều môn, chương trình đào tạo bậc cử nhân chưa cho phép người học có các tri thức chuyên sâu.

Đào tạo sau đại học (graduate) khác cơ bản với đào tạo cử nhân ở việc đi sâu vào chuyên ngành, gồm hai bậc thạc sĩ và tiến sĩ, trong đó bản chất của đào tạo thạc sĩ là học còn bản chất của đào tạo tiến sĩ là nghiên cứu. Đáng tiếc là điều cơ bản này đã không luôn được hiểu rõ và làm đúng ở đại học của chúng ta.

Tiếp tục đọc

Liệu Deep Learning có làm cho các thuật toán machine learning khác trở nên lỗi thời?

Deep learning vs other Machine learning algorithms

Deep learning vs other Machine learning algorithms – created by Eren Golge.

Liệu deep learning có làm cho các thuật toán khác trở nên lỗi thời, hay nó quá phức tạp để áp dụng cho các bài toán quá đơn giản? Ta sẽ thảo luận về hai vấn đề này.

Tiếp tục đọc

Deep Learning huấn luyện để hiểu văn bản

Language Development

Language Development

Hãy quên đi ý nghĩa của từ ngữ (words), quên đi ngữ pháp (grammar), quên đi cú pháp (syntax), quên đi cả khái niệm (concept) của từ vựng. Bây giờ hãy để máy tính tự nó tìm hiểu mọi thứ từ đầu.

Đây là câu chuyện tuyệt vời mà Xiang Zhang và Yann LeCun từ NYU trong một bài báo gần đây của họ “Text Understanding from Scratch”. Họ thừa nhận rằng deep learning có thể làm cho máy tính hiểu được văn bản (text understanding), mà không cần bất kỳ kiến thức gì về ngôn ngữ.

Tiếp tục đọc

Từng bước xây dựng Recommender Systems với R

Humor recommender

Humor recommender

Mỗi người chúng ta là duy nhất! Bạn là duy nhất! Có rất nhiều người khác bạn. Nhưng cùng một lúc, cũng có rất nhiều người giống như bạn … có những hành vi tương tự, tương tác với cùng người, có cùng sở thích với bạn.

Cho dù bạn có thích hay không, điều này làm cho chúng ta dễ đoán và trở nên nhàm chán… Nhưng nó cũng không hẳn là một điều xấu… Bạn đã từng trải nghiệm những lợi ích từ collective intelligence, được nhúng vào rất nhiều ứng dụng mà chúng ta sử dụng hàng ngày. Những ứng dụng như Facebook, Twitter hoặc Linkedin đưa ra danh sách những người mà bạn quen biết để mở rộng Social Media Network của bạn, hoặc Amazon gợi ý cho bạn danh sách các sản phẩm khác sau khi bạn mua một sản phẩm cụ thể nào đó, hoặc Last.fm, Spotify & Co. gợi ý các bài hát phù hợp với thị hiếu âm nhạc của mình…

Tất cả các ứng dụng này có một điểm chung đó là sử dụng kỹ thuật recommendation để lọc ra những nội dung phù hợp nhất cho một user cụ thể. Trong bài viết này, ta sẽ từng bước xây dựng hệ thống recommendation engine với R.

Tiếp tục đọc