Phân tích tâm lý (Sentiment Analysis) Twitter (P2) – Tính chỉ số tâm lý (sentiment score)

Sentiment Analysis
Sentiment Analysis

Ở phần hai, ta sẽ tính chỉ số tâm lý (sentiment score) cho từng tweet dựa vào nội dung của người dùng. Chỉ số cho từng tweet được tính bằng cách lấy tổng điểm sentiment của từng từ trong tweet đó. Ta tạo file tweet_sentiment.py nhận hai đối số đầu vào là AFINN-111.txt và tweets.json. Sau đó, lưu chỉ số tâm lý cho từng tweet vào file tweet_scores.txt.

Xem tiếp

Phân tích tâm lý (Sentiment Analysis) Twitter (P1) – Thu thập dữ liệu

Sentiment Analysis
Sentiment Analysis

Ngày nay, Twitter trở thành một công cụ mới để thực hiện các phép đo tâm lý xã hội. Có hàng triệu người bày tỏ ý kiến của mình trên mọi lĩnh vực đời sống. Nguồn dữ liệu này vô cùng quý giá cho cả nghiên cứu lẫn kinh doanh.

Ví dụ, các nhà nghiên cứu đã chỉ ra rằng “tâm trạng” truyền thông trên twitter phản ánh nhịp điệu sinh học và thậm chí được sử dụng để dự đoán thị trường chứng khoán. Một sinh viên tại UW sử dụng tweets geocoded để vẽ bản đồ các địa điểm nơi có “sấm sét” vào mùa hè năm 2012.

Trong phần một, ta sẽ thu thập dữ liệu từ Twitter bằng ngôn ngữ lập trình python qua API mà twitter cung cấp.

Xem tiếp

Apriori và FP-Growth với tập dữ liệu plants

Trong bài viết này, ta sẽ khai thác các tập phổ biến (frequent itemset) trên tập dữ liệu Plants (sự phân bố của một số loài thực vật ở khu vực Mỹ và Canada). Các công đoạn tiền xử lý được thực hiện bởi Python. Để dễ tiếp cận, các bước khai thác dữ liệu được thực hiện với Weka.

Plant
Plant

Tập dữ liệu: plants
Địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/plants/plants.data
Mô tả: http://archive.ics.uci.edu/ml/machine-learning-databases/plants/stateabbr.txt
Github: https://github.com/ongxuanhong/Apriori-and-FP-growth-with-plant-dataset

Xem tiếp

Scikit-learn: Naive Bayes Classifier

Bayes rule
Bayes rule

Trong bài viết này, ta sẽ làm quen với thuật toán phân lớp Naive Bayes. Đây là một thuật toán đơn giản, dễ dàng cài đặt, và có độ chính xác tốt trong hầu hết các trường hợp.

Đây là hướng tiếp cận phân lớp theo mô hình xác suất. Dự đoán xác suất một đối tượng mới thuộc về thành viên của lớp đang xét.

Xem tiếp

Scikit-learn: K-nearest neighbors

knn concept
knn concept

Trong bài viết này, ta sẽ tìm hiểu thuật toán K-láng giềng gần (K-nearest neighbors (KNN)). KNN thuộc nhóm phương pháp phân lớp dựa trên thể hiện (instance-based classification). Tôi sẽ trình bày ý tưởng đơn giản về thuật toán này. Sau đó, ta sẽ sử dụng thư viện scikit-learn phục vụ cho việc cài đặt mô hình dự đoán KNN.

Xem tiếp

Giới thiệu về scikit-learn

scikit-learn algorithm cheat sheet
scikit-learn algorithm cheat sheet

Trong bài viết này, ta sẽ làm quen với scikit-learn, một bộ thư viện mạnh mẽ được viết bằng Python, hỗ trợ các thuật toán machine learning phục vụ cho việc xây dựng các mô hình dự đoán.

Ta có thể cài đặt thư viện này ở link: http://scikit-learn.org/stable/index.html

Xem tiếp