Command line thường dùng

Linux is sexy.jpg

Trong quá trình phân tích dữ liệu, tôi thường làm việc trực tiếp trên môi trường UNIX. Nơi mà bạn chỉ có màn hình nền đen chữ trắng (terminal, command line) để tương tác với hệ thống (thu thập, quan sát, chỉnh sửa, chia sẻ dữ liệu). Lý do là vì bạn thường phải thuê server bên ngoài như Amazon và họ chỉ cung cấp cho bạn môi trường tương tác chính là từ dòng lệnh. Bài viết này xin tổng hợp lại những command line mà tôi thường dùng nhất để tiện cho các bạn mới nhập môn tham khảo và áp dụng.

Hy vọng sự linh hoạt của các dòng lệnh này có thể giúp bạn trở thành một nhà khoa học dữ liệu hiệu quả và năng suất hơn. Bạn sẽ học được cách kết hợp các công cụ dòng lệnh nhỏ nhưng mạnh mẽ này với nhau để nhanh chóng thu thập, khám phá và xây dựng mô hình dữ liệu của bạn.

Tiếp tục đọc

Python snippet: Visualizing

matplotlib

Python snippet là series các bài viết tổng hợp lại những đoạn code hữu ích trong quá trình làm việc và nghiên cứu của tôi. Mục đích chủ yếu làm nơi tham khảo nhanh để tiết kiệm thời gian cài đặt và triển khai. Tôi sẽ bắt đầu với visualizing gồm các chart (biểu đồ) cơ bản thường hay dùng để phân tích dữ liệu.

Source code: data-science-works
Thư viện: matplotlib, numpy

Tiếp tục đọc

Word embedding

word2vectors.gif
NLP là một trong những bài toán khó và phức tạp trong ngành Khoa học máy tính và Trí tuệ nhân tạo. Do đòi hỏi phải dạy cho máy tính không chỉ hiểu được cú pháp của một ngôn ngữ mà còn ngữ nghĩa của các câu sử dụng trong từng ngữ cảnh đặc biệt mà không mắc phải nhập nhằng (ambiguity).

Để đi đến đích, đó là xây dựng được một hệ thống AI hoàn thiện, ta còn cách tương lai quá xa. Trong khi đó, word vector (hay còn gọi là distributed representations) là một công cụ khá thú vị có thể xoá bỏ một vài khoảng cách tri thức về ngôn ngữ giữa máy tính và con người. Trong bài viết này, tôi sẽ tóm tắt lại khái niệm và ý nghĩa của việc sử dụng word vector trong NLP.

Ví dụ kinh điển khi nói đến word vector là “king – man + woman =?”, bạn có nghĩ rằng máy tính sẽ trả lời là “queen” không? Thật vậy, Google đã làm được điều này trong dự án nghiên cứu word2vec của mình (biến đổi một từ thành một vector). Bạn có thể tham khảo thêmword2vec implementation Google Code.
Tiếp tục đọc

Những chuyên gia bạn nên follow trong lĩnh vực Data Science

https://twitter.com/jeremywaite

https://twitter.com/hadleywickham

https://twitter.com/mikejulietbravo

https://twitter.com/EvanSinar

https://twitter.com/bobehayes

https://twitter.com/dez_blanchfield

https://twitter.com/andrewyng

https://twitter.com/hmason

https://twitter.com/kdnuggets

https://twitter.com/Ronald_vanLoon

https://twitter.com/HansRosling

https://twitter.com/randal_olson

https://twitter.com/kirkdborne

https://twitter.com/ValaAfshar

https://twitter.com/NateSilver538