Convolutional Neural Networks là gì

Convolutional Neural Networks

Convolutional Neural Networks

Những năm gần đây, ta đã chứng kiến được nhiều thành tựu vượt bậc trong ngành Thị giác máy tính (Computer Vision). Các hệ thống xử lý ảnh lớn như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng tự động.

Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là một trong những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay. Trong bài viết này, tôi sẽ giải thích đơn giản về Convolution (tích chập) cũng như ý tưởng của mô hình CNNs trong phân lớp ảnh (Image Classification).

Tiếp tục đọc

Những dự báo trong năm 2016 về Data Science

whats next

whats next

Dưới đây, tôi xin liệt kê ra các dự báo vào năm 2016 tổng hợp từ những người làm trong ngành Data Science.

  1. Khoa học dữ liệu và mô hình thống kê ngày càng được tự động hóa với nhiều sản phẩm tốt hơn. Mặc dù các sản phẩm này vẫn là black-box với người dùng.
  2. Ranh giới giữa khoa học dữ liệu, các hoạt động nghiên cứu, machine learning, trí tuệ nhân tạo và phân tích thống kê, sẽ biến mất.
  3. AI sẽ trở nên nổi trội hơn với các nghiên cứu về deep learning trong cộng đồng của chúng ta.
  4. Ta sẽ có nhiều hơn dữ liệu và các dự án mã nguồn mở.
  5. Cái chết của những data scientist giả mạo: nếu bạn chỉ biết sơ sơ về R hay SQL, kiếm được giấy chứng nhận chỉ qua vài giờ trên các trang data science boot camp mà chưa hề làm việc trên một dự án Big Data thật sự, và nếu như kiến thức của bạn đến từ các free ebook được đọc bởi hàng triệu người thì bạn sẽ khó mà tìm được việc.
  6. Cơ hội cho những data scientist trái ngành: nếu bạn không phải là một data scientist, có thể chỉ là nhà sinh vật học hay vật lý học nhưng đã từng làm việc với dữ liệu thực tế, có kĩ năng coding, và mang lại giá trị khi khai thác dữ liệu đó thì bạn hầu như sẽ kiếm được việc một cách dễ dàng. Bạn có thể đọc thêm bài viết này để biết thêm kinh nghiệm làm việc của một data scientist là như thế nào.
  7. Làm việc tại nhà qua internet sẽ phát triển cho các vị trí liên quan đến data scientist. Do đặc thù của từng ngành và vị trí địa lý nên nhà tuyển dụng sẽ khó thu hút được các ứng viên tiềm năng đến hợp tác với mình.
  8. Vốn đầu tư vào data science thường do tự thân các nhà doanh nhân và chuyên gia tư vấn hơn là từ các quỹ đầu tư mạo hiểm rót vào (Venture Capital funded). Và các doanh nghiệp data science không thu được lợi nhuận hoặc không bền vững sẽ biến mất.
  9. Sẽ có nhiều phụ nữ tham gia vào data science.
  10. Các thuật toán giúp tự động hóa việc xuất bản kĩ thuật số sẽ gây sức ép nhiều hơn lên các mô hình kinh doanh xuất bản truyền thống, cũng như thay thế luôn vai trò của các nhà biên tập thông qua những phần mềm này.
  11. Chính phủ sẽ sử dụng dữ liệu và data science tốt hơn trong việc theo dõi các công dân của mình và phát hiện các gian lận cũng như những kẻ khủng bố.
  12. Ta sẽ chứng kiến sự bùng nổ dữ liệu sinh ra từ các thiết bị cảm biến (IoT).
  13. Sẽ có nhiều API và các ứng dụng chia sẻ dữ liệu giữa các thiết bị và hệ thống. Dữ liệu trao đổi từ các hệ thống này sẽ được tính phí.
  14. Sẽ có nhiều data science ứng dụng vào giải quyết các vấn đề liên quan đến môi trường. Cả về Trái đất cũng như vũ trụ (dự đoán lửa Mặt trời, phát hiện các tiểu hành tinh mới).

Ngoài ra, các chuyên gia đầu ngành cũng đưa ra những dự báo của riêng mình

  • Bernard Marr (Bestselling author): Tôi nhìn thấy sự tăng trưởng đặc biệt trong phân tích dữ liệu thời gian thực và sự tăng trưởng việc sử dụng các thuật toán machine learning.
  • Kirk Borne (Principal data scientist tại Booze Allen Hamilton): thế giới Big Data sẽ tập trung nhiều hơn vào dữ liệu thông minh (smart data) bất chấp vào kích thước dữ liệu.
  • Gregory Piatetsky-Shapiro (Founder của KDDnugets): 2016 sẽ là năm của deep learning. Dữ liệu sẽ chuyển từ các phòng thí nghiệm và được triển khai vào các ứng dụng image recognition, language understanding, và vượt qua hiệu suất làm việc của con người ở nhiều lĩnh vực.
  • Paul Zikopoulos (VP of Analytics tại IBM): Tôi cho rằng data science cho quần chúng sẽ gom lại thành một và các công nghệ mã nguồn mở khác trở nên phai mờ dần đến nỗi mọi người sẽ không ai biết Hadoop là gì nữa.
  • Scott Gnau (CTO, Hortonworks): Các doanh nghiệp trong năm tới sẽ xem xét việc khai thác giá trị từ mọi nguồn dữ liệu.

Big data landscape 2016

Big data landscape 2016

Big data landscape 2016

Tham khảo thêm

Danh sách Deep Learning Tools nổi bật

torch

torch

Deep Learning đang là chủ đề “hot” trong ngành Trí tuệ nhân tạo và Machine learning với nhiều thành tựu đạt được trong thời gian qua. Như chủ trương của blog này, từ thực nghiệm, quan sát và đánh giá ta sẽ có thêm kĩ năng làm việc cũng như thấu hiểu hơn về mô hình Deep Learning. Trong bài viết này, tôi mượn kết quả khảo sát của KDnuggets Software Poll (2015) để liệt kê ra danh sách Deep Learning Tools nổi bật nhất.

  • Pylearn2 (55 users)
  • Theano (50)
  • Caffe (29)
  • Torch (27)
  • Cuda-convnet (17)
  • Deeplearning4j (12)
  • Other Deep Learning Tools (106)

Danh sách trên, có một vài công cụ tôi chưa sử dụng qua. Tuy nhiên, tôi sẽ cố gắng tổng hợp lại thông tin dựa trên trang chủ mà họ cung cấp.

Tiếp tục đọc

Trải nghiệm tập dữ liệu Big Data ở đâu

repository

repository

Nếu bạn đang là một newbie và có mong muốn trang bị cho mình một chút kinh nghiệm về xử lý Big Data để có thể theo đuổi sự nghiệp như một data scientist thì bạn sẽ đặt câu hỏi đầu tiên đó là “Lấy dữ liệu Big Data ở đâu để mà thực tập?”.

Hiện nay, bạn không cần phải là một thành viên của một công ty hay tổ chức nào để được quyền truy xuất vào tập dữ liệu Big Data của họ. Đã có nhiều tập dữ liệu Big Data được public ra công chúng cho các nhà nghiên cứu làm phân tích và xử lý thông tin trực tiếp mà không đòi hỏi bất kỳ quyền hạn nào. Dưới đây, tôi xin liệt kê danh sách các nguồn dữ liệu Big Data mà bạn có thể download về.

  1. KDNuggets repository
  2. Data.gov 
  3. US Census Bureau 
  4. European Union Open Data Portal 
  5. Data.gov.uk 
  6. The CIA World Factbook 
  7. Healthdata.gov 
  8. NHS Health and Social Care Information Centre 
  9. Amazon Web Services public datasets 
  10. Facebook Graph 
  11. Gapminder 
  12. Google Trends 
  13. Google Finance 
  14. Google Books Ngrams 
  15. National Climatic Data Center 
  16. DBPedia 
  17. Topsy 
  18. Likebutton 
  19. New York Times 
  20. Freebase 
  21. Million Song Data Set 

Tham khảo thêm:

Mục đích của ăn chay

  1. Mục đích của ăn chay là trưởng dưỡng lòng từ
  2. Mục đích của ăn chay là tôn trọng sự sống bình đẳng của tất cả chúng sinh
  3. Mục đích của ăn chay là tôn trọng tánh Phật trong tất cả mọi loài chúng sinh
  4. Mục đích của ăn chay là tránh sát nghiệp, quả báo trong đời hiện tại và mãi mãi những kiếp luân hồi trong tương lai
  5. Mục đích của ăn chay là bảo vệ môi sinh một cách lành mạnh trong cuộc sống cộng đồng
  6. Mục đích của ăn chay là bảo vệ sức khỏe cho mỗi con người.

Soạn slides bằng Beamer

latex beamer

latex beamer

Ngoài chức năng soạn thảo văn bản, LaTex còn có Beamer là một định dạng dùng để soạn slide trình chiếu. Do đặc thù của báo cáo khoa học là chú trọng nội dung và kết quả nghiên cứu hơn là trình chiếu animation sinh động như thường được thấy tại các buổi triễn lãm bán hàng. Beamer hướng đến sự đơn giản trong cách dàn trang cũng như tập trung nhiều vào việc hiển thị các công thức toán và bảng biểu. Trong bài viết này, tôi xin chia sẻ cấu trúc một slide trình chiếu đơn giản sử dụng định dạng Beamer của LaTeX.

Github: https://github.com/ongxuanhong/latex-thesis-template

Tiếp tục đọc

Viết luận văn bằng LaTeX

latex vs word

latex vs word

LaTeX là một công cụ được khuyến nghị để viết luận văn và các bài báo khoa học. Do có cơ chế quản lý nội dung văn bản mạnh mẽ, hỗ trợ đầy đủ việc hiển thị các biểu thức toán học, cộng với rất nhiều thư viện đi kèm để vẽ biểu đồ và đồ thị dạng vector nên LaTeX được các nhà khoa học trên thế giới sử dụng.

Nếu bạn đang sử dụng Word để soạn thảo luận văn, có lẽ bạn đang mất rất nhiều thời gian và công sức để canh chỉnh từng li từng tí các dòng. Trong khi nội dung các chương ngày càng nhiều và phức tạp, bạn cảm thấy mọi thứ trở nên quá rối rắm. Lúc này, LaTeX chính là công cụ cứu cánh cho bạn. Trong bài viết này, tôi xin chia sẻ cấu trúc cơ bản nhất gồm các file và folder cần thiết để tiến hành viết và quản lý luận văn bằng LaTeX.

Github: https://github.com/ongxuanhong/LaTeX-thesis-template

Tiếp tục đọc

Kinh nghiệm viết luận văn

writting thesis

writting thesis

Bài viết này nhắm đến đối tượng là những bạn sinh viên sẽ và đang viết luận văn tốt nghiệp. Cũng như các bạn sinh viên khác, khi tìm kiếm các hướng dẫn về viết luận văn, đa số các bài viết chỉ trình bày các thủ tục, lý do, mục đích và định dạng luận văn như thế nào. Tuy nhiên, những gì tôi tìm kiếm là những kinh nghiệm thực tế trong quá trình viết luận văn. Do vậy, trong bài viết này, tôi xin chia sẻ với mọi người một vài kinh nghiệm mà tôi đã góp nhặt được khi viết luận văn tốt nghiệp.

Github: https://github.com/ongxuanhong/latex-thesis-template

Tiếp tục đọc

Git notes

git

git

Git là phần mềm dùng để quản lý và kiểm tra các phiên bản khác nhau trong quá trình phát triển mã nguồn. Tôi thường sử dụng Git để quản lý code cũng như để hoàn thành luận văn gần đây của mình. Trong bài viết này, tôi xin tổng hợp lại ghi chú các thao tác lệnh thường dùng trong Git.

Tiếp tục đọc