R: Làm quen với dữ liệu Air quality

Trong bài viết này, tôi sẽ sử dụng tập dữ liệu air quality để minh họa đôi nét về quá trình phân tích sơ khởi trong data analysis. Trước khi bước vào áp dụng các giải thuật Machine learning, việc nên làm trước tiên đó là quan sát dữ liệu đầu vào. Từ đó, bạn sẽ cảm nhận được tổng quan về tập dữ liệu để có thể dùng trực giác của mình áp dụng những giải thuật phù hợp nhất.

Download tập dữ liệu airquality ở link sau:

http://figshare.com/articles/Air_quality_dataset/1463337

# Loading airquality.csv file 
my_data <- read.csv("airquality.csv")
# column names of the dataset
names(my_data)
 [1] "Ozone" "Solar.R" "Wind" "Temp" "Month" "Day"
# first 2 rows of the data frame
head(my_data, 2)

  Ozone Solar.R Wind Temp Month Day
1    41     190  7.4   67     5   1
2    36     118  8.0   72     5   2
# Number of observations (i.e. rows) are in data frame
nrow(my_data)
[1] 153
# the last 2 rows of the data frame
tail(my_data, 2)

    Ozone Solar.R Wind Temp Month Day
152    18     131  8.0   76     9  29
153    20     223 11.5   68     9  30
# value of Ozone in the 47th row
my_data$Ozone[47]
 [1] 21
# Number of missing values are in the Ozone column
length(my_data$Ozone[is.na(my_data$Ozone)])
 [1] 37
# mean of the Ozone column
mean(my_data$Ozone[!is.na(my_data$Ozone)])
 [1] 42.12931
# mean of Solar.R in subset of rows of the data frame where Ozone values are above 31 and Temp values are above 90
mean(my_data$Solar.R[my_data$Ozone > 31 & my_data$Temp > 90 & complete.cases(my_data$Ozone, my_data$Temp)])
 [1] 212.8
# mean of "Temp" when "Month" is equal to 6
mean(my_data$Temp[my_data$Month == 6])
 [1] 79.1
# maximum ozone value in the month of May
max(my_data$Ozone[my_data$Month == 5 & !is.na(my_data$Ozone)])
 [1] 115

Qua bài viết trên, tôi đã sử dụng những hàm cơ bản để quan sát tập dữ liệu như head(), tails(), names(). Rút trích các dòng dữ liệu tương ứng với điều kiện logic. Loại bỏ những dòng dữ liệu có giá trị bị thiếu (missing value – NA). Từ những hàm trên, bạn đã có cái nhìn sơ khởi về dữ liệu air quality.

Nguồn tham khảo: http://swirlstats.com/

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s