Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

7 Kinds of Data Stories

7 Kinds of Data Stories

Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.

Tiếp tục đọc

Statistical Inference: P Values

P Values

P Values

Trong bài viết này ta sẽ nói về p-values, không phải là một phương thức để kiểm định mà là một độ đo về tầm quan trọng của thống kê (nghĩa là xác suất của dữ kiện D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết đảo H_0 là sự thật.). Tuy nhiên, bởi vì chúng phổ biến và chúng được sử dụng rất nhiều, và thường bị hiểu lầm hay diễn giải sai. Trong phần này, ta sẽ tập trung vào làm thế nào để phát sinh và diễn giải giá trị này một cách đúng đắn.

Tiếp tục đọc

Statistical Inference: Kiểm định giả thuyết thống kê (Hypothesis Testing)

Power

Power

Việc xác định qui luật xác suất của các biến (variable) có mặt trong tổng thể (population) là một điều cần thiết trong xử lí số liệu. Bài toán ước lượng tham số (parameter estimation) mới chỉ giải quyết việc ước lượng tham số có mặt trong phân phối xác suất của tổng thể (probability distribution of population). Trong baì viết này, ta sẽ xây dựng các qui tắc đánh giá giả thuyết (evaluate hypothesis) về các tham số. Qua các qui tắc kiểm định, ta có thể biết được cách xây dựng các giả thuyết (NULL hypothesis) và đối thuyết (alternative hypothesis) trong từng trường hợp cụ thể. Bài toán kiểm định giả thuyết thống kê (hypothesis testing) là một bài toán lớn và quan trọng của thống kê toán học.

Tiếp tục đọc

Statistical Inference: Tiệm cận (Asymptotics)

Coin plot 10000

Trong bài viết này ta sẽ thảo luận về tiệm cận (asymptotics), làm thế nào để miêu tả dáng điệu của thống kê khi kích thước mẫu ngày càng tiến đến vô cùng. Giả định kích thước mẫu và kích thước quần thể là vô cùng hữu ích cho việc suy diễn thống kê và xấp xĩ. Tiếp tục đọc

Statistical Inference: Xác suất (Probability)

distribution

distribution

Trong bài viết này, ta sẽ khảo sát các khái niệm về xác suất (probability), là một số thực diễn tả khả năng xảy ra của một biến cố (event, outcome). Ta sử dụng các ví dụ về tung xúc sắc và rút các lá bài để minh hoạ cho các khái niệm này. Tiếp tục đọc

Exploratory Data Analysis: Các hệ thống Plotting

xyplot plotting 2x2
Trong bài viết này, ta sẽ khảo sát tổng quan ba hệ thống plotting trong R. Mỗi hệ thống có điểm mạnh và điểm yếu riêng. Chúng ta sẽ tìm hiểu sơ về ý tưởng tổng quát của các hệ thống này. Ở các bài viết sau, ta sẽ đi vào chi tiết hơn.

Tiếp tục đọc

Exploratory Data Analysis: Thiết bị đồ họa trong R

PDF format

PDF format


Trong bài viết này, ta sẽ làm quen với các thiết bị đồ họa trong R. Các thiết bị đồ họa là gì? Đó là nơi để bạn có thể xuất biểu đồ của mình ra các thiết bị như màn hình, file ảnh (PNG, JPEG, SVG, TIFF) hay file văn bản (PDF). Cụ thể, khi ta xuất biểu đồ, R sẽ gửi thông tin hiển thị biểu đồ đến thiết bị đồ họa. Thông thường, ta sẽ xuất ra thiết bị màn hình (đây là thiết bị mặc định). Ta xuất biểu đồ ra file khi muốn viết báo cáo, thuyết trình, hay gửi thông tin cho các đồng nghiệp của mình.

Tiếp tục đọc

Exploratory Data Analysis: K Means Clustering

K Means Clustering

K Means Clustering


Trong bài viết này, ta sẽ khảo sát về k-means clustering, một cách đơn giản khác để quan sát tập dữ liệu đa chiều (multi-dimensional data). Tương tự như hierarchical clustering, kĩ thuật này hữu ích khi bước đầu phân tích dữ liệu (quan sát mối quan hệ giữa các điểm dữ liệu, thuộc tính). Tiếp tục đọc