Giới thiệu về scikit-learn

scikit-learn algorithm cheat sheet

scikit-learn algorithm cheat sheet

Trong bài viết này, ta sẽ làm quen với scikit-learn, một bộ thư viện mạnh mẽ được viết bằng Python, hỗ trợ các thuật toán machine learning phục vụ cho việc xây dựng các mô hình dự đoán.

Ta có thể cài đặt thư viện này ở link: http://scikit-learn.org/stable/index.html

Mô hình dự đoán tổng quát

model.fit() : khớp (fitting) mô hình với tập huấn luyện. Đối với mô hình học có giám sát (supervised learning), hàm này nhận vào hai đối số: tập huấn luyện X and nhãn y (model.fit(X, y)). Đối với mô hình học không giám sát (unsupervised learning), hàm này chỉ nhận vào một đối số là tập huấn luyện X (model.fit(X)).

Mô hình học có giám sát

model.predict() : cho trước mô hình huấn luyện model, ta dự đoán nhãn của mẫu dữ liệu mới. Hàm này nhận vào một đối số, mẫu dữ liệu X_new (model.predict(X_new)), và trả về nhãn tương ứng với từng đối tượng trong X_new.

model.predict_proba() : đối với bài toán phân lớp (classification problems), một số mô hình huấn luyện cung cấp hàm này. Kết quả trả về là xác suất nhãn tương ứng mà mẫu dữ liệu mới thuộc về. Trong trường hợp này, nhãn nào có xác suất cao nhất sẽ được hàm model.predict() trả về.

model.score() : đối với bài toán phân lớp (classification) hay hồi quy (regression), hầu hết các mô hình huấn luyện đều cung cấp hàm này. Scores nằm trong khoảng 0 và 1, score càng cao thì khả năng khớp (fit) dữ liệu càng tốt.

Mô hình học không giám sát

model.predict() : dự đoán nhãn của thuật toán gom nhóm (clustering).

model.transform() : cho trước mô hình huấn luyện model, chuyển đổi mẫu dữ liệu mới về trục toạ độ gốc mới (new basis). Hàm này nhận vào một đối số X_new, và trả ra cách biểu diễn mới của mẫu dữ liệu sinh ra bởi mô hình huấn luyện không giám sát.

model.fit_transform() : một số mô hình dự đoán cung cấp hàm này. Hàm này hiệu quả hơn trong việc khớp (fit) và chuyển đổi (transform) dữ liệu.

Trên đây, ta có thể thấy scikit-learn cung cấp các hàm dự đoán tương ứng với nhiều mô hình khác nhau. Điều này giúp cho các nhà phân tích dữ liệu cài đặt dễ dàng hơn các thuật toán để giải quyết bài toán của mình. Ta sẽ đi vào chi tiết từng mô hình dự đoán ở các bài viết sau.

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s