
Sau một thời gian tìm kiếm các công cụ mã nguồn mở miễn phí phục vụ cho phân tích Big Data, tôi đã góp nhặt và tổng hợp thành danh sách 6 công cụ phân tích dữ liệu miễn phí và mạnh mẽ cho các doanh nghiệp hiện nay. Các công cụ này đều thoả các tiêu chí như: miễn phí (ai cũng có thể download về dùng), dễ dàng sử dụng (giao diện trực quan), khả năng tương thích cao (làm việc trên nhiều loại tài liệu khác nhau), có nhiều tài liệu hướng dẫn.
Tableau Public
Tableau visualization là một công cụ thanh lịch, đơn giản và trực quan. Nó đặc biệt mạnh mẽ nhờ truyền đạt thông tin qua các dữ liệu trực quan. Tableau Public cung cấp những bản dùng thử miễn phí cho các cá nhân hoặc tổ chức trước khi nâng cấp lên những ứng dụng nâng cao. Trong quá trình phân tích, Tableau’s visuals cho phép bạn nhanh chóng kiểm định một giả thuyết, khám phá dữ liệu tổng quát trước khi bắt tay vào khai thác dữ liệu.
OpenRefine
OpenRefine là một phần mềm dọn dẹp dữ liệu giúp bạn chuẩn bị mọi thứ để sẵn sàng cho việc phân tích. Qua video demo trên ta có thể dùng OpenRefine để lọc nội dung, chỉnh sửa thông tin đồng thời trên nhiều dòng dữ liệu cùng lúc. Mọi thao tác đều được đơn giản hoá trong một mớ dữ liệu lộn xộn.
KNIME
KNIME cho phép bạn thao tác, phân tích và mô hình hóa dữ liệu một cách vô cùng trực quan thông qua visual programming. Về cơ bản, thay vì viết các khối mã lệnh, bạn chỉ cần kéo thả các nodes lên canvas và kết nối các node này lại với nhau để tạo ra tiến trình phân tích dữ liệu. Quan trọng hơn, KNIME có thể nhúng mã lệnh R, python, khai thác văn bản, dữ liệu hóa học. Ngoài ra KNIME còn cung cấp cho bạn những tùy chọn để vọc những mã lệnh theo hướng tiếp cận tiên tiến hơn.
Google Fusion Tables
Google Fusion tables là một công cụ tuyệt vời cho việc phân tích dữ liệu, biểu diễn các tập dữ liệu lớn, và lập bản đồ (mapping). Không có gì đáng ngạc nhiên khi đưa Google’s mapping vào danh sách này. Đây là công cụ đóng một vai trong quan trọng trong việc phân tích phân bố dữ liệu thông qua bản đồ địa lý.
NodeXL
NodeXL là một phần mềm biểu diễn và phân tích các mối quan hệ trên mạng xã hội. Ví dụ, ta có thể tạo ra một bản đồ biểu diễn các kết nối trên các mạng xã hội như Linkedin, Facebook, hay Twitter. NodeXL đã có một bước tiến xa trong việc tính toán.
Import.io
Thông thường, ta bookmark lại địa chỉ các website ưa thích để có thể truy cập lại sau này. Với import.io, mọi người còn có thể thu thập dữ liệu từ các website và forums. Chỉ cần nhập vào import.io đường link dẫn đến website, từ đó import.io sẽ tổng hợp các thông tin chọn lọc từ website để bạn download hay phân tích sau này.
SentimentBuilder

Bằng cách sử dụng Sankey Diagram, SentimentBuilder là một công cụ trực quan cho phép ta biểu diễn kết quả phân tích tâm lý người dùng. Như hình minh họa ở trên, ta thấy chiều rộng hay độ dày của các dải cho biết tầm quan trọng của từ loại, trong trường hợp này là danh từ. Các node hình chữ nhật cho ta biết số lần xuất hiện của từ loại này trong câu (từ hotel xuất hiện trong câu 89 lần). Ngoài ra, ta còn quan sát thấy trong 89 lần xuất hiện này thì có 25 lần từ hotel mang nghĩa tâm lý positive.
Tamr
Các doanh nghiệp phải trả lời được các câu hỏi quan trọng và thu thập dữ liệu hiệu quả để thúc đẩy kinh doanh của mình. Họ đã đầu tư một khối tiền rất lớn cho hoạt động phân tích dữ liệu gần $44 tỉ vào năm 2014. Nhưng vẫn không thể khai thác hết 90% dữ liệu mà họ đang nắm giữ. Tamr hỗ trợ các doanh nghiệp tổ chức và tổng hợp dữ liệu một cách dễ dàng và nhanh chóng từ nhiều nguồn dữ liệu khác nhau. Nhờ vậy, ta có thể dễ dàng đẩy nhanh tiến độ và khai thác hiệu quả hơn dữ liệu đang có.
Mặc dù các công cụ trên hỗ trợ việc phân tích dữ liệu dễ dàng hơn, chúng chỉ có giá trị khi bạn tiến hành được những phân tích có ý nghĩa. Vì vậy, hãy dành một chút thời gian học hỏi những “mẹo” mới và sử dụng những công cụ này để cải thiện và bổ trợ cho những kĩ năng suy luận logic mà bạn vốn có.
Các công cụ phân tích khác
Nguồn: 18 Analytics Tools Every Business Manager Should Know
Business experiments

Visual analytics

Regression analysis

Scenario analysis

Forecasting/time series analysis

Data mining
Text analytics

Sentiment analysis

Image analytics

Video analytics

Voice analytics

Monte Carlo Simulation

Linear programming

Cohort analysis

Factor analysis

Neural network analysis
Meta analytics/literature analysis

Luigi

Không có Power BI của MS anh?
ThíchThích