Các sản phẩm Trí tuệ nhân tạo hiện nay

Fourth Industrial Revolution

Fourth Industrial Revolution

Xã hội con người cơ bản trải qua những giai đoạn sau: Săn bắn hái lượm > trồng trọt chăn nuôi > cách mạng công nghiệp > sản xuất dây chuyền > cách mạng công nghệ thông tin > hệ thống trí tuệ nhân tạo tự hành.

Bản thân tôi không ngờ ngành AI lại phát triển nhanh đến như vậy. Còn nhớ thời còn là sinh viên chưa biết mình học ngành khoa học máy tính ra để làm gì, hay chỉ để viết sách và đi giảng dạy ở các trường đại học thì bây giờ các ứng dụng ngoài thực tế đã có rất nhiều.

Đây là danh sách các ứng dụng để ta tham khảo cũng như quan sát được thế giới đang thật sự đi đến đâu trong ứng dụng AI vào cuộc sống. Không biết chừng một trong những bạn đọc ở đây cũng sẽ nun nấu cho mình ý tưởng startup nào đó.

Tiếp tục đọc

ACL 2017 accepted papers

acl 2017

acl 2017

Những chủ đề được nghiên cứu trong năm

Biomedical – Y sinh
Cognitive Modelling and Psycholinguistics – Mô hình nhận thức và tâm lý học
Dialog Interactive Systems – Hệ thống tương tác hội thoại
Discourse Pragmatics – Phân tích tính chặt chẽ và ngữ cảnh trong câu
Generation Summarization – Phát sinh và tổng hợp văn bản
IE QA Text Mining Applications – Những ứng dụng truy vấn và khai thác dữ liệu văn bản
Machine Learning – Máy học
Machine Translation – Dịch máy
Multidisciplinary – Nghiên cứu liên ngành
Multilingual – Nghiên cứu đa ngôn ngữ
Phonology Morphology Word Segmentation – Phân đoạn từ về hình vị và âm vị
Resources Evaluation – Đánh giá ngữ liệu
Semantics – Phân tích ngữ nghĩa
Sentiment Analysis Opinion Mining – Phân tích và khai thác tâm lý
Social Media – Truyền thông xã hội
Speech – Phân tích tiếng nói
Tagging Chunking Syntax Parsing – Phân tích cú pháp về gán nhãn và phân đoạn
Vision Robots Grounding – Thị giác robots

Link: https://chairs-blog.acl2017.org/2017/04/05/accepted-papers-and-demonstrations/

Truy vấn văn bản – Document Retrieval

book_search

book_search

Giả sử bạn đang đọc một bài viết nào đó, hệ thống truy vấn văn bản sẽ giúp bạn tìm kiếm những bài viết tương tự như bài viết của bạn đang đọc. Vậy làm sao ta có thể tính được độ tương tự giữa các văn bản để tìm kiếm trong vô số các tài liệu có sẵn, tỷ lệ giống nhau về nội dung của các văn bản là bao nhiêu?

Trong bài viết này, ta sẽ sử dụng tập văn bản liên quan đến những người nổi tiếng download từ wikipedia (file csv đã xử lý có thể download ở đây) để xây dựng hệ thống truy vấn văn bản dựa trên nội dung đang đọc.

Tiếp tục đọc

Hệ thống recommend bài nhạc

song-recommendations

song-recommendations

Một trong những công nghệ giúp cho đời sống con người ngày càng dễ dàng hơn đó là recommender system. Recommender system giúp kết nối người dùng với sản phẩm mà họ tìm kiếm được thuận tiện và nhanh chóng hơn từ đó mang lại lợi thế cạnh tranh của sản phẩm so với các đối thủ khác. Bạn có thể bắt gặp hệ thống này ở các trang xem phim, nghe nhạc, mua bán, mạng xã hội, … Về cơ bản, bạn có thể áp dụng ngay kỹ thuật này vào hệ thống của bạn thông qua các hướng tiếp cận như: Popularity – liệt kê top các sản phẩm được nhiều người quan tâm nhất, Classification – dựa vào các chủ đề mà bạn cung cấp để lọc ra danh sách sản phẩm tương ứng. Tuy nhiên, các hướng tiếp cận này đều mang tính đại chúng, không nhắm vào một cá nhân cụ thể nào. Hơn nữa, không ai dễ dàng cung cấp thông tin cá nhân cho ứng dụng của bạn để có thể lọc thông tin phù hợp.

Do đó, trong bài viết này, tôi sẽ đi theo hướng tiếp cận Collaborative Filtering với hai phương pháp gồm Memory-Based Collaborative Filtering và Model-Based Collaborative filtering giúp trả lời hai câu hỏi “user nghe bài nhạc này thì sẽ có xu hướng nghe các bài như…” và “user có gu âm nhạc như bạn thì sẽ có xu hướng nghe các bài nhạc như…”. Trong đó, Model-Based sẽ sử dụng singular value decomposition (SVD) và Memory-Based sử dụng khoảng cách cosine để mô hình hóa hệ thống. Bạn có thể download dữ liệu từ đây Million Song Dataset Challenge.

Source code: Github.

Tiếp tục đọc

Machine Learning cho người bắt đầu

machine-learning-progress

machine-learning-progress

Những bạn yêu thích Machine Learning và không biết mình nên bắt đầu từ đâu có thể bắt đầu tại đây. Mọi câu hỏi, các bạn có thể comment bên dưới, mình luôn sẵn sàng ở đây để hỗ trợ.

Khởi động

Machine learning là gì

Machine learning là gì

Bạn cần làm quen với một vài điểm cơ bản để bắt đầu cuộc hành trình của mình.

Machine learning là gì

Tại sao cần Machine learning

Machine Learning trên Quora hỏi gì đáp nấy

Những ứng dụng thương mại của Deep learning

Các công ty Startup về Deep learning

Machine Learning và Real-Time Bidding

Kĩ năng phân tích dữ liệu

Data analytics

Data analytics

Bạn cần học và thực hành tiến trình áp dụng machine learning vào bài toán cụ thể. Chuẩn bị dữ liệu > Huấn luyện > Đánh giá và lựa chọn mô hình.

Cách xác định bài toán trong Machine Learning

Kỹ năng làm việc với Machine Learning

Tiền xử lý dữ liệu (Horse Colic dataset)

Getting and cleaning data: Các phương pháp lấy mẫu (Sampling)

Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

Feature engineering là gì

Đánh giá mô hình (Model evaluation)

Statistical hypothesis testing cho dân lập trình

Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

Kỹ năng hệ thống

linux-is-sexy

linux-is-sexy

Bạn cũng nên chuẩn bị cho mình phương pháp quản lý dự án và thao tác nhanh với hệ thống.

Git notes

Command line thường dùng

Hướng dẫn deploy Spark

Thao tác với các công nghệ Big Data

Soạn slides bằng Beamer

Viết luận văn bằng LaTeX

Tiếp tục đọc

Machine Learning và Real-Time Bidding

Real-Time Bidding

Real-Time Bidding

Real-Time Bidding (RTB) tạm dịch là “Đấu gía thời gian thực”. RTB là việc mua bán lượt hiển thị quảng cáo online thông qua cơ chế thời gian thực xảy ra vào lúc trang web đang tải. Những cuộc đấu giá diễn ra dễ dàng hơn bởi ad exchange, demand-side platforms và supply-side platforms (SSP).

RTB khác với các mô hình quảng cáo truyền thống như thế nào? Tại sao chúng ta cần RTB? RTB mang lại lợi ích gì cho các trang mạng (publishers) và các nhà quảng cáo (advertisers)? Machine learning áp dụng vào các hệ thống RTB như thế nào? Qua bài viết này, tôi sẽ trả lời các câu hỏi trên cũng như trình bày những thách thức về Big Data trong RTB và tình hình nghiên cứu hiện nay của Machine Learning vào RTB. Tiếp tục đọc

Những dự án Machine Learning tập dợt khi rảnh rỗi

Machine Learning projects

Machine Learning projects

Các dự án thực tế giúp cho những kiến thức trừu tượng về Machine Learning trở nên rõ ràng hơn. Trong bài viết này, tôi xin liệt kê một vài dự án thú vị trong thực tế để chúng ta có cơ hội tập dợt mỗi khi rảnh rỗi. Bạn sẽ thấy được machine learning áp dụng như thế nào vào các lĩnh vực như giáo dục, khoa học, kĩ thuật và y tế.

Mỗi dự án được liệt kê bên dưới đều có đường link dẫn đến tập dữ liệu cần thiết. Nếu có dự án nào khiến bạn cảm thấy hứng thú, bạn có thể download tập dữ liệu về và bắt đầu “vọc” ngay lập tức.

  • Otto Group Product Classification Challenge. Cho các thuộc tính của sản phẩm, phân lớp các sản phẩm này vào một trong 9 danh mục sản phẩm khác nhau.
  • Rossmann Store Sales. Cho lịch sử bán hàng của các sản phẩm ở những cửa hàng khác nhau, dự đoán tình hình kinh doanh trong tương lai.
  • Bike Sharing Demand. Cho dữ liệu thuê mướn xe đạp và dữ liệu thời tiết đi kèm, dự đoán nhu cầu thuê mướn xe đạp hàng ngày của khách hàng trong tương lai.
  • The Analytics Edge. Cho thông tin các bài viết của New York Times, dự đoán bài viết nào được đọc nhiều nhất.
  • Restaurant Revenue Prediction. Cho thông tin chi tiết của một nhà hàng, dự đoán doanh thu trong một năm sắp tới.
  • Liberty Mutual Group: Property Inspection Prediction. Cho thông tin chi tiết về một tài sản bất kì, dự đoán mức độ rủi ro bảo hiểm cho tài sản đó.
  • Springleaf Marketing Response. Cho thông tin các khách hàng, dự đoán xem họ có phải là khách hàng mục tiêu hay không.
  • Higgs Boson Machine Learning Challenge. Cho mô tả về mô phỏng va chạm giữa các hạt, dự đoán xem biến cố này có phân rã thành hạt Higgs hay không.
  • Forest Cover Type Prediction. Cho thông tin bản đồ, dự đoán rừng thuộc loại bao phủ nào.
  • Amazon.com Employee Access Challenge. Cho lịch sử truy cập tài nguyên của các nhân viên, dự đoán các nguồn tài nguyên nào nhân viên cần dùng thường xuyên.
  • Iris dataset. Cho kích thước (cm) của một bông hoa, dự đoán nó thuộc về loài hoa nào.
  • Adult dataset. Cho dữ liệu điều tra dân số, dự đoán những cá nhân nào có thu nhập nhiều hơn $50,000 một năm.
  • Wine dataset. Cho dữ liệu phân tích thành phần hóa học của rượu, dự đoán xuất xứ của rượu này.
  • Car evaluation dataset. Cho thông tin chi tiết về một chiếc xe, dự đoán mức độ an toàn của chiếc xe đó.
  • Breast Cancer Wisconsin dataset. Cho xét nghiệm chẩn đoán tế bào vú, dự đoán xem tế bào này có bị ung thư hay không.
  • Abalone dataset. Cho thông tin đo lường về bào ngư, dự đoán tuổi của bào ngư này.
  • Wine Quality dataset. Cho thông tin khác nhau về rượu, dự đoán chất lượng của rượu này.
  • Heart Disease dataset. Cho các kết quả chẩn đoán khác nhau về một bệnh nhân, dự đoán mức độ mắc bệnh tim mạch của người đó.
  • Human activity recognition using smart phones dataset. Từ dữ liệu chuyển động của smart phone, dự đoán loại hoạt động của người dùng.
  • Forest fires dataset. Cho thông tin khí tượng và một số dữ kiện khác, dự đoán vùng rừng có nguy cơ bị cháy cao.
  • Internet Advertisements dataset. Cho thông tin các bức ảnh trên trang web, dự đoán bức ảnh này có phải quảng cáo hay không.

Convolutional Neural Networks là gì

Convolutional Neural Networks

Convolutional Neural Networks

Những năm gần đây, ta đã chứng kiến được nhiều thành tựu vượt bậc trong ngành Thị giác máy tính (Computer Vision). Các hệ thống xử lý ảnh lớn như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng tự động.

Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là một trong những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay. Trong bài viết này, tôi sẽ giải thích đơn giản về Convolution (tích chập) cũng như ý tưởng của mô hình CNNs trong phân lớp ảnh (Image Classification).

Tiếp tục đọc

Những dự báo trong năm 2016 về Data Science

whats next

whats next

Dưới đây, tôi xin liệt kê ra các dự báo vào năm 2016 tổng hợp từ những người làm trong ngành Data Science.

  1. Khoa học dữ liệu và mô hình thống kê ngày càng được tự động hóa với nhiều sản phẩm tốt hơn. Mặc dù các sản phẩm này vẫn là black-box với người dùng.
  2. Ranh giới giữa khoa học dữ liệu, các hoạt động nghiên cứu, machine learning, trí tuệ nhân tạo và phân tích thống kê, sẽ biến mất.
  3. AI sẽ trở nên nổi trội hơn với các nghiên cứu về deep learning trong cộng đồng của chúng ta.
  4. Ta sẽ có nhiều hơn dữ liệu và các dự án mã nguồn mở.
  5. Cái chết của những data scientist giả mạo: nếu bạn chỉ biết sơ sơ về R hay SQL, kiếm được giấy chứng nhận chỉ qua vài giờ trên các trang data science boot camp mà chưa hề làm việc trên một dự án Big Data thật sự, và nếu như kiến thức của bạn đến từ các free ebook được đọc bởi hàng triệu người thì bạn sẽ khó mà tìm được việc.
  6. Cơ hội cho những data scientist trái ngành: nếu bạn không phải là một data scientist, có thể chỉ là nhà sinh vật học hay vật lý học nhưng đã từng làm việc với dữ liệu thực tế, có kĩ năng coding, và mang lại giá trị khi khai thác dữ liệu đó thì bạn hầu như sẽ kiếm được việc một cách dễ dàng. Bạn có thể đọc thêm bài viết này để biết thêm kinh nghiệm làm việc của một data scientist là như thế nào.
  7. Làm việc tại nhà qua internet sẽ phát triển cho các vị trí liên quan đến data scientist. Do đặc thù của từng ngành và vị trí địa lý nên nhà tuyển dụng sẽ khó thu hút được các ứng viên tiềm năng đến hợp tác với mình.
  8. Vốn đầu tư vào data science thường do tự thân các nhà doanh nhân và chuyên gia tư vấn hơn là từ các quỹ đầu tư mạo hiểm rót vào (Venture Capital funded). Và các doanh nghiệp data science không thu được lợi nhuận hoặc không bền vững sẽ biến mất.
  9. Sẽ có nhiều phụ nữ tham gia vào data science.
  10. Các thuật toán giúp tự động hóa việc xuất bản kĩ thuật số sẽ gây sức ép nhiều hơn lên các mô hình kinh doanh xuất bản truyền thống, cũng như thay thế luôn vai trò của các nhà biên tập thông qua những phần mềm này.
  11. Chính phủ sẽ sử dụng dữ liệu và data science tốt hơn trong việc theo dõi các công dân của mình và phát hiện các gian lận cũng như những kẻ khủng bố.
  12. Ta sẽ chứng kiến sự bùng nổ dữ liệu sinh ra từ các thiết bị cảm biến (IoT).
  13. Sẽ có nhiều API và các ứng dụng chia sẻ dữ liệu giữa các thiết bị và hệ thống. Dữ liệu trao đổi từ các hệ thống này sẽ được tính phí.
  14. Sẽ có nhiều data science ứng dụng vào giải quyết các vấn đề liên quan đến môi trường. Cả về Trái đất cũng như vũ trụ (dự đoán lửa Mặt trời, phát hiện các tiểu hành tinh mới).

Ngoài ra, các chuyên gia đầu ngành cũng đưa ra những dự báo của riêng mình

  • Bernard Marr (Bestselling author): Tôi nhìn thấy sự tăng trưởng đặc biệt trong phân tích dữ liệu thời gian thực và sự tăng trưởng việc sử dụng các thuật toán machine learning.
  • Kirk Borne (Principal data scientist tại Booze Allen Hamilton): thế giới Big Data sẽ tập trung nhiều hơn vào dữ liệu thông minh (smart data) bất chấp vào kích thước dữ liệu.
  • Gregory Piatetsky-Shapiro (Founder của KDDnugets): 2016 sẽ là năm của deep learning. Dữ liệu sẽ chuyển từ các phòng thí nghiệm và được triển khai vào các ứng dụng image recognition, language understanding, và vượt qua hiệu suất làm việc của con người ở nhiều lĩnh vực.
  • Paul Zikopoulos (VP of Analytics tại IBM): Tôi cho rằng data science cho quần chúng sẽ gom lại thành một và các công nghệ mã nguồn mở khác trở nên phai mờ dần đến nỗi mọi người sẽ không ai biết Hadoop là gì nữa.
  • Scott Gnau (CTO, Hortonworks): Các doanh nghiệp trong năm tới sẽ xem xét việc khai thác giá trị từ mọi nguồn dữ liệu.

Big data landscape 2016

Big data landscape 2016

Big data landscape 2016

Tham khảo thêm

Cài đặt Neural Network với Python

Neural Network

Neural Network

Trong bài viết này, tôi sẽ hướng dẫn mọi người cài đặt mô hình mạng nơ-ron đơn giản với ngôn ngữ lập trình Python. Tôi giả định mọi người đã biết sơ qua các khái niệm cơ bản về giải tích cũng như machine learning (thế nào là classification, regularization, tại sao sử dụng gradient descent để tối thiểu hóa độ lỗi, …).

Việc cài đặt lại Neural Network từ đầu sẽ giúp cho chúng ta hiểu được mô hình này hoạt động như thế nào. Từ đó, ta có thể mở rộng ra các mô hình tiên tiến hơn như Deep learning trong các bài viết sắp tới. Ngoài ra, khi áp dụng vào các dự án thực tế, ta có thể sử dụng các thư viện như Theano hay PyBrain để tăng tốc độ xử lý cũng như tiết kiệm thời gian cài đặt.

Tiếp tục đọc