Tổng hợp tutorials Collaborative filtering (Python, Java, R)

Collaborative filtering techniques

Collaborative filtering techniques

Collaborative filtering là tiến trình lọc nội dung bằng cách sử dụng kĩ thuật liên quan đến sự cộng tác của nhiều user. Các ứng dụng của collaborative filtering thường liên quan đến các tập dữ liệu lớn. Trong bài viết này, tôi sẽ tổng hợp một số tutorial về collaborative filtering sử dụng ngôn ngữ Python, Java và R.

Tiếp tục đọc

Từng bước xây dựng Recommender Systems với R

Humor recommender

Humor recommender

Mỗi người chúng ta là duy nhất! Bạn là duy nhất! Có rất nhiều người khác bạn. Nhưng cùng một lúc, cũng có rất nhiều người giống như bạn … có những hành vi tương tự, tương tác với cùng người, có cùng sở thích với bạn.

Cho dù bạn có thích hay không, điều này làm cho chúng ta dễ đoán và trở nên nhàm chán… Nhưng nó cũng không hẳn là một điều xấu… Bạn đã từng trải nghiệm những lợi ích từ collective intelligence, được nhúng vào rất nhiều ứng dụng mà chúng ta sử dụng hàng ngày. Những ứng dụng như Facebook, Twitter hoặc Linkedin đưa ra danh sách những người mà bạn quen biết để mở rộng Social Media Network của bạn, hoặc Amazon gợi ý cho bạn danh sách các sản phẩm khác sau khi bạn mua một sản phẩm cụ thể nào đó, hoặc Last.fm, Spotify & Co. gợi ý các bài hát phù hợp với thị hiếu âm nhạc của mình…

Tất cả các ứng dụng này có một điểm chung đó là sử dụng kỹ thuật recommendation để lọc ra những nội dung phù hợp nhất cho một user cụ thể. Trong bài viết này, ta sẽ từng bước xây dựng hệ thống recommendation engine với R.

Tiếp tục đọc

Xây dựng ứng dụng web Taxi với Shiny

NYC yellow taxi

NYC yellow taxi

Trong bài viết này, ta sẽ cùng nhau xây dựng một web app tương tự như app này. Ta sẽ sử dụng tập dữ liệu taxi trong tháng 1/2015 được cung cấp bởi the NYC Taxi & Limousine Commission. Ta cần cài đặt RStudio để xây dựng ứng dụng này. Do tập dữ liệu rất lớn (khoảng vài trăm MB) nên ta sẽ tạo một mẫu dữ liệu nhỏ hơn để dễ dàng thao tác (download tập dữ liệu ở đây).

Tiếp tục đọc

Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

7 Kinds of Data Stories

7 Kinds of Data Stories

Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.

Tiếp tục đọc

Statistical Inference: P Values

P Values

P Values

Trong bài viết này ta sẽ nói về p-values, không phải là một phương thức để kiểm định mà là một độ đo về tầm quan trọng của thống kê (nghĩa là xác suất của dữ kiện D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết đảo H_0 là sự thật.). Tuy nhiên, bởi vì chúng phổ biến và chúng được sử dụng rất nhiều, và thường bị hiểu lầm hay diễn giải sai. Trong phần này, ta sẽ tập trung vào làm thế nào để phát sinh và diễn giải giá trị này một cách đúng đắn.

Tiếp tục đọc

Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)

Power

Power

Việc xác định qui luật xác suất của các biến (variable) có mặt trong tổng thể (population) là một điều cần thiết trong xử lí số liệu. Bài toán ước lượng tham số (parameter estimation) mới chỉ giải quyết việc ước lượng tham số có mặt trong phân phối xác suất của tổng thể (probability distribution of population). Trong baì viết này, ta sẽ xây dựng các qui tắc đánh giá giả thuyết (evaluate hypothesis) về các tham số. Qua các qui tắc kiểm định, ta có thể biết được cách xây dựng các giả thuyết (NULL hypothesis) và đối thuyết (alternative hypothesis) trong từng trường hợp cụ thể. Bài toán kiểm định giả thuyết thống kê (hypothesis testing) là một bài toán lớn và quan trọng của thống kê toán học.

Tiếp tục đọc

Statistical Inference: Tiệm cận (Asymptotics)

Coin plot 10000

Trong bài viết này ta sẽ thảo luận về tiệm cận (asymptotics), làm thế nào để miêu tả dáng điệu của thống kê khi kích thước mẫu ngày càng tiến đến vô cùng. Giả định kích thước mẫu và kích thước quần thể là vô cùng hữu ích cho việc suy diễn thống kê và xấp xĩ. Tiếp tục đọc

Statistical Inference: Xác suất (Probability)

distribution

distribution

Trong bài viết này, ta sẽ khảo sát các khái niệm về xác suất (probability), là một số thực diễn tả khả năng xảy ra của một biến cố (event, outcome). Ta sử dụng các ví dụ về tung xúc sắc và rút các lá bài để minh hoạ cho các khái niệm này. Tiếp tục đọc