10 tutorials về scikit-learn

Text mining
Text mining
  1. Neuroimaging: bằng cách quan sát các hình ảnh về chức năng thần kinh khác nhau, bài báo minh họa cách sử dụng scikit-học để thực hiện các bước phân tích y học.
  2. Decision Trees with Scikit & Pandas: bài viết hướng dẫn cài đặt mô hình cây quyết định sử dụng scikit-learn và pandas. Pandas được sử dụng để nạp dữ liệu từ file csv. Scikit-learn được sử dụng để xây dựng cây quyết định, vẽ cây, và diễn giải mô hình theo mã giả.
  3. Decomposing the Random Forest model: tác giả trình bày cách xây dựng mô hình Random Forest sử dụng scikit-learn.
  4. Feature Unions & Pipeline: Zac Stewart trình bày mô hình khai thác dữ liệu từ công đoạn rút trích thông tin, chuyển đổi, chuẩn hóa, và huấn luyện mô hình dự đoán của mình.
  5. Majority Rule Ensemble Classifier trong Scikit-learn: một hướng tiếp cận đơn giản mà Sebastian Raschka đã sử dụng trong cuộc thi kaggle.
  6. Dự đoán Customer Churn: YHat trình bày cách sử dụng Scikit learn để dự đoán tỉ lệ khách hàng giữ lại được (customer churn).
  7. Text Classification sử dụng NLTK và Scikit learn: slide chia sẻ bởi Olivier Grisel sử dụng NLTK và Scikit learn để phân loại văn bản.
  8. Clustering với Sci Kit Learn: sử dụng kĩ thuật gom nhóm K-Means.
  9. Classification với Scikit Learn sử dụng ba phương pháp khác nhau – Logistic Regression, Discriminant Analysis, và Nearest Neighbor.
  10. Hidden Markov Models – một ví dụ cực kì đơn giản dựa trên kiến thức từ Wikipedia để xây dựng mô hình Hidden Markov Model cho các câu.

Tham khảo thêm:

Lập trình MapReduce với Python

Trong bài viết này, ta sẽ thiết kế và cài đặt các thuật toán MapReduce cho các tác vụ xử lý dữ liệu thông thường. Mô hình lập trình MapReduce được đề xuất trong một bài báo năm 2004 từ một nhóm nghiên cứu tại Google. MapReduce là một mô hình đơn giản để xử lý song song các tập dữ liệu lớn (Big Data).

MapReduce
MapReduce

Bài viết này giúp bạn làm quen với tư duy lập trình MapReduce. Ta sẽ sử dụng tập dữ liệu nhỏ để dễ kiểm tra kết quả thực thi cũng như để quan sát hoạt động bên trong MapReduce như thế nào. Mọi tập tin và dữ liệu liên quan đến bài viết được lưu tại Github: https://github.com/ongxuanhong/MapReduce-with-Python.

Xem tiếp

Phân tích tâm lý (Sentiment Analysis) Twitter (P2) – Tính chỉ số tâm lý (sentiment score)

Sentiment Analysis
Sentiment Analysis

Ở phần hai, ta sẽ tính chỉ số tâm lý (sentiment score) cho từng tweet dựa vào nội dung của người dùng. Chỉ số cho từng tweet được tính bằng cách lấy tổng điểm sentiment của từng từ trong tweet đó. Ta tạo file tweet_sentiment.py nhận hai đối số đầu vào là AFINN-111.txt và tweets.json. Sau đó, lưu chỉ số tâm lý cho từng tweet vào file tweet_scores.txt.

Xem tiếp

Phân tích tâm lý (Sentiment Analysis) Twitter (P1) – Thu thập dữ liệu

Sentiment Analysis
Sentiment Analysis

Ngày nay, Twitter trở thành một công cụ mới để thực hiện các phép đo tâm lý xã hội. Có hàng triệu người bày tỏ ý kiến của mình trên mọi lĩnh vực đời sống. Nguồn dữ liệu này vô cùng quý giá cho cả nghiên cứu lẫn kinh doanh.

Ví dụ, các nhà nghiên cứu đã chỉ ra rằng “tâm trạng” truyền thông trên twitter phản ánh nhịp điệu sinh học và thậm chí được sử dụng để dự đoán thị trường chứng khoán. Một sinh viên tại UW sử dụng tweets geocoded để vẽ bản đồ các địa điểm nơi có “sấm sét” vào mùa hè năm 2012.

Trong phần một, ta sẽ thu thập dữ liệu từ Twitter bằng ngôn ngữ lập trình python qua API mà twitter cung cấp.

Xem tiếp

Apriori và FP-Growth với tập dữ liệu plants

Trong bài viết này, ta sẽ khai thác các tập phổ biến (frequent itemset) trên tập dữ liệu Plants (sự phân bố của một số loài thực vật ở khu vực Mỹ và Canada). Các công đoạn tiền xử lý được thực hiện bởi Python. Để dễ tiếp cận, các bước khai thác dữ liệu được thực hiện với Weka.

Plant
Plant

Tập dữ liệu: plants
Địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/plants/plants.data
Mô tả: http://archive.ics.uci.edu/ml/machine-learning-databases/plants/stateabbr.txt
Github: https://github.com/ongxuanhong/Apriori-and-FP-growth-with-plant-dataset

Xem tiếp

Scikit-learn: Naive Bayes Classifier

Bayes rule
Bayes rule

Trong bài viết này, ta sẽ làm quen với thuật toán phân lớp Naive Bayes. Đây là một thuật toán đơn giản, dễ dàng cài đặt, và có độ chính xác tốt trong hầu hết các trường hợp.

Đây là hướng tiếp cận phân lớp theo mô hình xác suất. Dự đoán xác suất một đối tượng mới thuộc về thành viên của lớp đang xét.

Xem tiếp

Scikit-learn: K-nearest neighbors

knn concept
knn concept

Trong bài viết này, ta sẽ tìm hiểu thuật toán K-láng giềng gần (K-nearest neighbors (KNN)). KNN thuộc nhóm phương pháp phân lớp dựa trên thể hiện (instance-based classification). Tôi sẽ trình bày ý tưởng đơn giản về thuật toán này. Sau đó, ta sẽ sử dụng thư viện scikit-learn phục vụ cho việc cài đặt mô hình dự đoán KNN.

Xem tiếp

Giới thiệu về scikit-learn

scikit-learn algorithm cheat sheet
scikit-learn algorithm cheat sheet

Trong bài viết này, ta sẽ làm quen với scikit-learn, một bộ thư viện mạnh mẽ được viết bằng Python, hỗ trợ các thuật toán machine learning phục vụ cho việc xây dựng các mô hình dự đoán.

Ta có thể cài đặt thư viện này ở link: http://scikit-learn.org/stable/index.html

Xem tiếp