
Có 2 thứ bạn nên tiết kiệm, đó là sức khỏe và lời hứa.
Có 2 thứ bạn phải cho đi, đó là tri thức và lòng tốt.
Có 2 thứ bạn phải thay đổi, đó là bản thân và nhận thức.
Có 2 thứ bạn phải giữ gìn, đó là niềm tin và nhân cách.
Có 2 thứ bạn phải trân trọng, đó là gia đình và hiện tại.
Có 2 thứ bạn phải tự mình thực hiện, đó là lao động và chịu trách nhiệm với việc mình làm.
Có 2 thứ bạn phải lãng quên, đó là đau thương và hận thù.
Có 2 thứ bạn phải khắc ghi, là công ơn Mẹ Cha và sự giúp đỡ của người khác.
Có 2 thứ bạn buộc phải có để là người thành công, đó là đam mê và lòng kiên trì.
Có 2 thứ bạn không được làm, đó là hãm hại người khác và phản bội lòng tin.
Có 2 thứ bạn phải bảo vệ, đó là danh tín và lẽ phải.
Có 2 thứ bạn phải chấp nhận, là cái chết và sự khác biệt.
Có 2 thứ bạn phải kiểm soát, đó là bản năng và cảm xúc.
Có 2 thứ bạn phải tránh xa, đó là cám dỗ và sự ích kỷ.
Có 2 thứ bạn luôn phải sử dụng mà đừng hà tiện, là tiền bạc và kinh nghiệm.
Có 2 thứ bạn không được sợ sệt, là cái ác và sống thật.
Có 2 thứ bạn phải nuôi dưỡng, là tình yêu và sự bao dung.
Có 2 thứ mà bạn cần phải đạt được trong cuộc sống, đó là thành đạt và hạnh phúc.
Có 2 thứ bạn phải luôn sẵn sàng, đó là khó khăn và ngày mai.
Có 2 thứ bạn phải luôn ghi nhớ, đó là thực hiện những điều trên và làm thật tốt chúng trong cuộc sống hàng ngày.
— Thích Nhật Từ, khóa tu một Ngày An Lạc lần 4, chùa Giác Ngộ, ngày 19/06/2016
Chao ban. Dau tien rat cam on vi nhung kien thuc chia se tren blog nay. Minh hoc duoc rat nhieu dieu. Minh co 1 cau hoi lien quan cu the den bai viet nay. Trong phan mao dau cua muc Topic Modeling, ban co de cap den Categorizer va Clusterizer. Nhung o phan sau ban chi phat trien cac vi du cho classification. Neu minh muon tim hieu ve Topic Clustering thi ban co nguon tham khao nao huu ich khong. Cam on nhieu. Than ai.
ThíchThích
Chào bạn,
Cám ơn bạn đã quan tâm tới blog.
Về phân loại văn bản nói riêng cũng như machine learning nói chung, về cơ bản ta có 2 hướng tiếp cận thường dùng đó là supervised (học từ dữ liệu được gán nhãn trước) và un-supervised (học từ dữ liệu không được gán nhãn trước) learning. Trong trường hợp này là categorizer và clusterizer. Categorizer được xếp vào bài toán muticlassification. Mình đề cập đến clusterizer liên quan đến phương pháp topic modeling. Ta sẽ cho máy tự gom nhóm các chủ đề theo thống kê từ vựng. Từ đó, ta quan sát và tự đặt tên lại cho các chủ đề vừa khai phá được.
Bạn có thể tìm thấy các nguồn tham khảo ở bài viết này
https://ongxuanhong.wordpress.com/2016/09/24/topic-modeling-la-gi/
ThíchĐã thích bởi 2 người
Cam on ban. Minh da doc qua bai viet nay truoc day nhung theo minh hieu o day la phan loai tu vung theo nhom chu khong hoan toan la phan loai chu de cua van ban, nhat la khi chieu dai cua cac van ban ngan (short sentences). Bai toan cua minh dai loai the nay: minh co cac ghi chu hien truong (Site observation) thuong rat ngan gon (1 den 2 cau rat ngan); muc tieu la phai phan loai cac ghi chu ay theo tung chu de voi so luong va noi dung cac chu de chua biet. Theo ban nen tiep can bai toan nay theo huong nao ? Than ai.
ThíchThích
Mình nghĩ bạn nên thực nghiệm để quyết định được số lượng chủ đề cần phân loại. Dù là 1,2 câu ngắn nhưng nguyên lý vẫn không thay đổi vì từ vựng phản ánh chủ đề đang diễn đạt. Ta đề cập đến chính trị thì sẽ có các từ vựng tương ứng, tương tự nếu ta đề cập đến thời trang thì trong câu chắc chắn xuất hiện các từ vựng liên quan.
Sau khi clustering ta vẫn chưa biết tên chủ đề là gì, nhờ vào từ vựng đã gom nhóm được mà ta đặt tên cho chủ đề. Từ đó, khi bạn nhập vào một câu mới có chứa các từ vựng liên quan, hệ thống sẽ tự động phân loại vào chủ đề bạn đã đặt tên.
Do đó, thuật toán topic modeling luôn có tham số k để quyết định trước số lượng chủ đề bạn muốn gom nhóm.
Hơn nữa, bạn có thể lựa chọn tập dữ liệu có nhiều câu để training không nhất thiết phải sử dụng tập dữ liệu chỉ có 1,2 câu.
ThíchThích
Cam on nhieu. Chuc ban va nguoi than an Tet vui ve !
ThíchĐã thích bởi 1 người
Chúc bạn và gia đình năm mới thành công và an lạc 🙂
ThíchThích
Cảm ơn anh vì những bài viết bổ ích . Năm mới chúc anh luôn tràn đầy năng lượng để làm việc hiệu quả.
ThíchThích
Cám ơn em, chúc em sức khoẻ và nhiều thành công nhé.
ThíchThích
Em chào anh ạ,
Em muốn hỏi anh một chút về phần cuối cùng của bài viết : “Trong bài viết này, ta sẽ biểu diễn văn bản dưới dạng vector là TF hoặc TF-IDF. Sau đó, sử dụng feature vector này để gom nhóm văn bản bằng hai phương pháp là NMF (Non-Negative Matrix Factorization) và LDA (latent Dirichlet allocation).”
Cách mà LDA áp dụng vector TF-IDF cụ thể ở chỗ nào và như nào ạ?
Vì theo em tìm hiểu thì khi chạy bình thường LDA ( vs Gibblda ++ chẳng hạn) thì output cũng là các topic như trên.
Thứ 2, là comment ở trên anh có nói là khi nhập câu mới thì hệ thống sẽ tự động phân loại??? A có thể giải thích giúp e một chút chỗ này ko ạ? Em cứ mơ hồ là mình phải tính xác xuất xuất hiện các topics trong câu đó, rồi mới kết luận được.
Mong nhận sự phản hồi từ anh.
Thanks a!
ThíchThích
Hi em, việc chúng ta xây dựng các vector Tf-Idf cho từng văn bản nhằm mục đích tạo ra ma trận X là tập huấn luyện (dòng = vector Tf-Idf, cột = văn bản hoặc ngược lại ). Từ đây, em sẽ phân tách ra được 2 ma trận latent một là topic distributions over words (dòng = vector các từ, cột = topic), hai là document distributions over topics (dòng = topic, cột = văn bản).
Em có thể tham khảo slide này https://www.slideshare.net/clauwa/topic-models-5274169.
Nhập câu mới ở đây em cũng sẽ phân tích ra được vector Tf-Idf và sử dụng Cosine similarity để tìm kiếm tập các văn bản nào gần nó nhất hay topic nào nó thuộc về.
ThíchThích
Để tăng độ chính xác thì tôi nghĩ nên bổ sung thêm vấn đề remove stop words.
ThíchĐã thích bởi 1 người
Em chào Anh,
Rất cảm ơn anh đã chia sẻ các kiến thức.
Em mới bắt đầu tìm hiểu python, em đã chạy đoạn code như phần chia sẻ bên trên của anh, nhưng nó báo lỗi ở đoạn #Load wiki data, cụ thể là dòng ” print people.head() ” ạ.
Lỗi như sau:
/usr/bin/python2.7 /home/hoanganh/PycharmProjects/hocpython/tfidf.py
— people_wiki.csv found locally
Traceback (most recent call last):
File “/home/hoanganh/PycharmProjects/hocpython/tfidf.py”, line 35, in
print (people.head())
Anh xem giup em lỗi này là bị sao với ạ, em không biết phải sửa thế nào nữa.
Em cảm ơn anh nhiều ạ.
ThíchThích
Lỗi không tìm thấy file people_wiki.csv
Em download ở đây https://drive.google.com/file/d/0BwA7lod1B3NpUlI0SlZyQ0ZCVlk/view
để vào chung thư mục của python script.
ThíchThích
E đã download file đó về rồi, và đang để cùng trong thư mục của file code này anh ạ.
Nó có dòng thông báo này
/usr/bin/python2.7 /home/hoanganh/PycharmProjects/hocpython/tfidf.py
— people_wiki.csv found locally
Tức là đã tìm thấy file people_wiki.csv đúng không ạ?
ThíchThích
vậy là load thành công rồi em. Lỗi có thể là do từ Data frame, em thử debug xem.
ThíchThích
Bài viết của anh rất bổ ích.
Anh cho em hỏi 1 chút, em bị lỗi này
UnboundLocalError: local variable ‘df’ referenced before assignment
Sau đó em có khai báo global cho biến df nhưng lại bị lỗi
NameError: name ‘df’ is not defined
Anh giải đáp giúp em với.
Em cảm ơn.
ThíchThích
Bạn load dữ liệu vào df
people = load_wiki_data(“people_wiki.csv”)
print people.head()
print len(people)
Link source: https://github.com/ongxuanhong/data-science-works/blob/master/python/clustering/document_retrieval.py
ThíchThích
Em cảm ơn
ThíchThích
Em có 1 bài tập là dùng dataset ở http://jmcauley.ucsd.edu/data/amazon/ perform sentiment analysis using tf-idf. Cái tf-idf thì em hiểu rồi, nhưng làm sao áp dụng nó vào bài toán sentiment analysis nói trên ạ?
ThíchThích
tf-idf là dạng one-hot vector đã được chuẩn hoá lại. Em có thể quy về dạng. Cho tập dữ liệu D = {xi, yi} với i thuộc [1, m], biết {xi thuộc X là ma trận mxn, m là số mẫu, n là số feature}, ta muốn dự đoán yi.
xi là tf-idf em tìm được cho mỗi statement.
yi là nhãn của sentiment.
Sau đó, áp dụng các thuật toán classification để giải.
Em xem bài viết này nhé https://ongxuanhong.wordpress.com/2016/12/03/sentiment-analysis-co-ban/
ThíchThích
Anh cho em hỏi thêm là làm sao plot được như cái hình ở đầu tiên ạ?
http://nbviewer.jupyter.org/github/ongxuanhong/hong_notebooks/blob/master/python/sentiment_analysis_basics.ipynb
ThíchThích
word cloud: https://www.kaggle.com/adiljadoon/word-cloud-with-python
ThíchĐã thích bởi 1 người
Thank you anh nhé 😀 😀
ThíchThích
không biết anh crawl data những người nổi tiếng từ wikipedia thế nào vậy ạ?
ThíchThích