Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

7 Kinds of Data Stories

7 Kinds of Data Stories

Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.

Ví dụ

Nếu cho tập dữ liệu sau mà không có cách biểu diễn trực quan, ta rất khó quan sát và hiểu được tính chất của tập dữ liệu.

Data Sets with Identical Linear Model

Data Sets with Identical Linear Model

Chỉ đơn giản sử dụng mô hình biểu diễn scatter plot ta có thể quan sát đường hồi quy cho biết mối quan hệ giữa các thuộc tính cũng như phân bố của dữ liệu ban đầu.

regression line

regression line

Cách trình bày biểu đồ

Để có thể trình bày biểu đồ, ta cần ánh xạ tập các thuộc tính vào không gian biểu diễn (còn gọi là data encoding). Ta thực hiện hai bước

  • Nhận diện kiểu dữ liệu
  • Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại.

Nhận diện kiểu dữ liệu

Thông thường ta có 4 kiểu dữ liệu sau:

  • Nomial (nhãn): ví dụ tên trái cây táo, cam,… Các phép toán có thể áp dụng: =, !=
fruits

fruits

  • Ordered (có thứ tự): ví dụ chất lượng các loại thịt A, AA, AAA,… Các phép toán có thể áp dụng: =, !=, <, >, <=, >=
meat

meat

  • Interval (khoảng đoạn, cần xác định vị trí tương đối): ví dụ như ngày tháng (16/9/2015), tọa độ địa lý (vĩ độ 47, kinh độ 122). Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, –
location

location

  • Ratio (vị trí tương đối là số không): ví dụ các độ đo vật lý như chiều dài, cân nặng, các phép đếm. Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, -, /
measure

measure

Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại

Ta có thể sử dụng các không gian biểu diễn sau của Bertin để biểu diễn dữ liệu. Mô hình biểu diễn này chỉ phục vụ cho không gian 2 chiều.

Bertin Visual Attributes

Bertin Visual Attributes

  • Position (vị trí): nomial, ordered, quantitative (interval/ratio)
  • Size (kích cỡ): nomial, ordered, quantitative (interval/ratio)
  • Value (giá trị): nomial, ordered, quantitative (interval/ratio)
  • Texture (vân): normial, ordered
  • Color (màu sắc): nomial
  • Orientation (phương hướng): nomial
  • Shape (hình dáng): nomial

Mức độ chính xác giảm dần từ position đến color.

Perceptual properties

Perceptual properties

Biểu diễn dữ liệu nhiều chiều

Dữ liệu 1 chiều

Dữ liệu 2 chiều

Scatterplot with color region

Scatterplot

Dữ liệu 3 chiều

Ví dụ tập dữ liệu xe hơi

Cars dataset

Cars dataset

Biểu diễn dữ liệu 7 chiều (thuộc tính) cùng lúc dựa vào mô hình của Bertin.

Encoding 7 Variables

Encoding 7 Variables

Kết luận

Những nghiên cứu về cách tiếp nhận thông tin từ thị giác có thể hỗ trợ nhiều trong quá trình thiết kế biểu đồ như mô hình biểu diễn của Bertin ở trên. Qua bài viết này, ta sẽ cải thiện được cách trình bày biểu đồ để người xem có thể hiểu được báo cáo phân tích dữ liệu của mình.

Tham khảo thêm

384 Data Visualization Tools

384 Data Visualization Tools

http://keshif.me/demo/VisTools

Tham khảo thêm:

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s