Deep learning có mặt ở mọi nơi. Trên Amazon và Netflix: cung cấp những thông tin được cá nhân hóa (personalized recommendations). Trên smartphone: giúp kích hoạt trợ lý bằng giọng nói. Trên các website và ứng dụng di động: giúp cho nội dung quảng cáo nhắm đến khách hàng tiềm năng chính xác hơn. Deep learning giúp cho doanh nghiệp thu được những thông tin hữu ích từ dữ liệu phi cấu trúc (unstructured data).

Các doanh nghiệp ngày nay đang cố gắng tận dụng những dữ liệu phi cấu trúc (photographs, videos, chat logs, các văn bản) để đưa ra các quyết định kinh doanh hiệu quả hơn. Họ đang tận dụng khả năng thông minh của deep learning trong việc tự động hoá các tiến trình kinh doanh này.
Trong bài viết này, ta sẽ nói về deep learning, những thách thức về dữ liệu lớn, và các ứng dụng thương mại trong thực tế của deep learning.
Big data và dữ liệu khổng lồ


Chỉ trong 24 giờ, thế giới có 3 tỉ người truy cập internet và thực hiện 2.8 tỉ lượt tìm kiếm trên Google, hơn 5.5 tỉ lượt xem video trên Youtube và gửi gần 500 triệu Tweets. Đó không phải là dữ liệu lớn (big data) mà là dữ liệu khổng lồ (massive data). Và phần lớn là dữ liệu không có cấu trúc như emails, các đoạn chat, các bài viết… Những tài liệu này thường dành cho con người chứ không được thiết kế để máy tính có thể xử lý.
Trong vòng vài năm qua, các doanh nghiệp đang đối mặt với một lượng lớn dữ liệu đòi hỏi họ phải chuyển trọng tâm. Thay vì dành thời gian vẽ các biểu đồ, bảng biểu, và bảng tính, họ dành thời gian tìm kiếm giải pháp thông minh hơn để tự động hoá việc phân tích dữ liệu và kết nối những tri thức lại với nhau (connecting the dots) giúp họ hiểu được khách hàng đang nói gì ở tất cả các kênh truyền thông.
Với một lượng lớn dữ liệu như vậy, điều chắc chắn rằng ta có thể rút trích được những thông tin đáng giá đang ẩn chứa trong các tập dữ liệu. Điều quan trọng không chỉ xác định được dữ liệu đang nằm ở đâu mà là trích xuất được những hiểu biết thực tế về người tiêu dùng để đưa ra quyết định tốt hơn.
Không có một bức tranh toàn cảnh về dữ liệu này, các doanh nghiệp đang chơi trò đoán chữ hết sức tốn kém về việc khách hàng cần gì và muốn gì. Tin tốt rằng, với các hệ thống deep learning, các doanh nghiệp có đủ khả năng tận dụng dữ liệu trong tầm tay để đảm bảo doanh nghiệp của mình luôn linh hoạt, tập trung và sẵn sàng cho mọi thử thách.
Deep learning là gì
Những đội phát triển phần mềm đã bị quá tải với những yêu cầu tạo ra những ứng dụng có thể tự động thu thập và tổng hợp dữ liệu để các doanh nghiệp có thể xây dựng nội dung tốt hơn, rút trích các từ khóa cho SEO, thu thập thông tin tình báo để xây dựng những thông điệp trong sản phẩm hiệu quả hơn. Nhiều công ty đã cung cấp các giải pháp phân tích dữ liệu nhằm nỗ lực duy trì tính đột phá, cung ứng nhanh cho thị trường, và tăng doanh số sản phẩm.
The general idea of deep learning is to use neural networks to build multiple layers of abstraction to solve a complex semantic problem.
— Aaron Chavez, chief scientist at AlchemyAPI
Nói cách khác, deep learning là một lĩnh vực mới của machine learning nhằm cải thiện những ứng dụng như thị giác máy tính (computer vision) và xử lý ngôn ngữ tự nhiên (natural language processing) để giải đáp cho những thách thức về dữ liệu phi cấu trúc.
Trợ lý bằng giọng nói (Voice Search/Voice-Activated Assistants)

Một trong những ứng dụng nổi tiếng và thông dụng của deep learning đó là trợ lý kích hoạt bằng giọng nói, một tính năng được tìm thấy trên hầu hết các smartphones. Hầu hết mọi người đã quen với những gã lớn trên thị trường hệ điều hành dành cho smartphone như Apple, Google, và Microsoft. Siri của Apple nổi tiếng về ứng dụng trợ lý kích hoạt bằng giọng nói (được giới thiệu vào tháng 10/2011). Google Now, trợ lý giọng nói cho Android, được tung ra thị trường sau Siri chưa đầy một năm. Sản phầm trợ lý giọng nói mới nhất là Microsoft Cortana được giới thiệu vào tháng 4/2014 trên Windows Phone 8.1.
Vào tháng 11/2013, Microsoft giới thiệu chương trình tìm kiếm bằng giọng nói trên Xbox One. Sử dụng điều hướng giọng nói, người dùng có thể tìm kiếm phim, âm nhạc, và những nội dung khác bằng cách sử dụng ngôn ngữ tự nhiên. Microsoft cũng giới thiệu Azure Media Indexer, một dịch vụ nền tảng đám mây (cloud platform service) mới của Azure cho phép người dùng đánh chỉ mục cho nội dung video dựa trên những lời nói trong video đó. Dịch vụ này sử dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP), dựa trên deep learning, để nội dung trên các file media có thể tìm kiếm được và làm tăng vốn từ vựng của nền tảng này.
Các hệ thống khuyến nghị (Recommendation Engines)

Các hệ thống khuyến nghị là một tính năng phổ biến của web và ứng dụng di động. Những doanh nghiệp lớn như Netflix, Amazon, Google, Facebook, và Twitter đã truy cập vào nguồn dữ liệu dồi dào do người dùng phát sinh ra. Việc truy cập vào dữ liệu cho phép các doanh nghiệp này có thể triển khai những hệ thống khuyến nghị nhằm cung cấp nhiều giá trị hơn cho cả người dùng và chính họ.
Theo bài thuyết trình gần đây trên SlideShare của Xavier Amatriain, research/engineering manager tại Netflix, 2/3 các bộ phim mà người dùng xem trên Netflix là do được khuyến nghị (recommended). Hệ thống khuyến nghị của Google News làm tăng số lượng click vào các link lên 38%, và 35% các mặt hàng trên Amazon đều do hệ thống khuyến nghị cung cấp.
Lọc cộng tác (Collaborative filtering) và lọc dựa trên nội dung (content-based filtering) là hai hướng tiếp cận truyền thống để thiết kế các hệ thống khuyến nghị. Trong những năm gần đây các hệ thống khuyến nghị đã trở nên thông minh hơn bằng cách sử dụng deep learning để dự đoán sở thích của người dùng và cung cấp chính xác những khuyến nghị. Một bài blog trên Netflix có giải thích làm thế nào mà doanh nghiệp này nghiên cứu deep learning và các kĩ thuật khác của machine learning để cải thiện việc khuyến nghị và cung cấp việc cá nhân hóa tốt hơn đến người dùng.
Nhận diện ảnh (Image Recognition)

Mục tiêu của công nghệ nhận diện ảnh là nhận biết và xác định các đối tượng trong ảnh cũng như hiểu được nội dung và ngữ cảnh trong đó. Ví dụ trên cho thấy dịch vụ nhận diện và xác định khuôn mặt của AlchemyVision có khả năng phân biệt hai khuôn mặt tương tự nhau giữa nam diễn viên Will Ferrell và tay trống của Red Hot Chili Peppers, Chad Smith.
Google và AlchemyAPI đã phát triển công nghệ nhận diện ảnh một thời gian. Vào tháng 6/2012, Google tập trung nhiều vào deep learning thông qua việc công bố bài báo nhấn mạnh nghiên cứu nhận dạng ảnh của công ty này. Chi tiết bài báo nói về việc Google xây dựng một mạng các mô hình có thể phân biệt được giữa mèo và mặt người bằng cách sử dụng học không giám sát (unsupervised learning). Mô hình mạng này cũng có khả năng nhận diện mặt mèo và cơ thể người.
Quảng cáo (Advertising)

Ngày càng có nhiều doanh nghiệp đang chuyển sang deep learning khi nó thâm nhập vào marketing, quảng bá thương hiệu, sản phẩm, và dịch vụ. Deep learning tạo khả năng cho các mạng quảng cáo và các nhà phát hành tận dụng được dữ liệu của họ để tạo ra những dự đoán về quảng cáo, quảng cáo đấu thầu thời gian thực, hiển thị quảng cáo đến mục tiêu chính xác hơn. Baidu, một phiên bản Google của Trung Quốc, đang sử dụng deep learning để dự đoán quảng cáo một cách chính xác đến người dùng liên quan, đã giúp tăng đáng kể doanh thu của công ty này.
Danh sách các công ty và ứng dụng
Customer Support
ActionIQ
Clarabridge
Eloquent Labs
Kasisto
Preact
Wise.io
Zendesk
Sales
6sense
AppZen
Aviso
Clari
Collective[i]
Fusemachines
InsideSales
Salesforce Einstein
Zensight
Marketing
AirPR
BrightFunnel
CogniCor
Lattice
LiftIgniter
Mintigo
msg.ai
Persado
Radius
Retention Science
Security
Cylance
Darktrace
Deep Instinct
Demisto
Drawbridge Networks
Graphistry
LeapYear
SentinelOne
SignalSense
Zimperium
Recruiting
Entelo
Algorithmia
HiQ
HireVue
SpringRole
Textio
Unitive
Wade & Wendy
Autonomous Systems
Ground Navigation
AdasWorks
Auro Robotics
Drive.ai
Google
Mobileye
nuTonomy
Tesla
Uber
Zoox
Aerial
Airware
DJI
DroneDeploy
Lily
Pilot AI Labs
Shield AI
Skycatch
Skydio
Industrial
Clearpath Robotics
Fetch Robotics
Harvest Automation
JaybridgeRobotics
Kindred AI
Osaro
Rethink Robotics
Agents
Personal
Amazon Alexa
Apple Siri
Facebook M
Google Now/Allo
Microsoft Cortana
Replika
Professional
Alien Labs
Butter.ai
Clara Labs
Deckard.ai
SkipFlag
Slack
Sudo
Talla
x.ai
Zoom.ai
Industries
Agriculture
Abundant Robotics
AgriData
Blue River Technology
Descartes Labs
Mavrx
Pivot Bio
TerrAvion
Trace Genomics
Tule
UDIO
Education
AltSchool
Content Technologies (CTI)
Coursera
Gradescope
Knewton
Volley
Investment
AlphaSense
Bloomberg
Cerebellum Capital
Dataminr
iSentium
Kensho
Quandl
Sentient
Legal
Beagle
Blue J Legal
Legal Robot
Ravel Law
ROSS Intelligence
Seal
Transportation/Logistics
Acerta
ClearMetal
Marble
NAUTO
PitStop
Preteckt
Routific
Materials
Calculario
Citrine
Eigen Innovations
Ginkgo Bioworks
Nanotronics
Sight Machine
Zymergen
Retail Finance
Affirm
Betterment
Earnest
Lendo
Mirador
Tala (a InVenture)
Wealthfront
ZestFinance
Healthcare
Patient
Atomwise
CareSkore
Deep6 Analytics
IBM Watson Health
Numerate Medical
Oncora
pulseData
Sentrian
Zephyr Health
DreamUp Vision
Image
3Scan
Arterys
Bay Labs
Butterfly Network
Enlitic
Google DeepMind
Imagia
Biological
Atomwise
Color Genomics
Deep Genomics
Grail
iCarbonX
Luminist
Numerate
Recursion Pharmaceuticals
Verily
Whole Biome
Technology Stack
Agent & Conversational Interfaces
Automat
Howdy
Kasisto
KITT.AI
Maluuba
Octane AI
OpenAI Gym
Semantic Machines
Data Science
Ayasdi
BigML
Dataiku
DataRobot
Domino Data Lab
Kaggle
RapidMiner
Seldon
Spark
Beyond
Yhat
Yseop
Machine Learning
Bonsai
ScaleContext
Relevant
Cycorp
Datacratic
deepsense.io
Geometric Intelligence
H2O.ai
HyperScience
Loop AI Labs
minds.ai
Nara LogicsReactive
Scaled Inference
Skymind
SparkCognition
Natural Language
Agolo
AYLIEN
Cortical.io
Lexalytics
Loop AI Labs
Luminoso
MonkeyLearn
Narrative Science
spaCy
Development
AnOdot
Bonsai
Deckard.ai
Fuzzy.ai
Hyperopt
Kite
Layer 6 AI
Lobe.ai
RainforestQA
SignifAI
SigOpt
Data Capture
Amazon Mechanical Turk
CrowdAI
CrowdFlower
Datalogue
DataSift
diffbot
Enigma
Import.io
Paxata
Trifacta
WorkFusion
Open Source Libraries
Amazon DSSTNE
Apache Spark
Azure ML
Baidu
Caffe Chainer
DeepLearning4j
H2O.ai
Keras
Microsoft CNTK
Microsoft DMTK
MLlib
MXNet
Nervana Neon
PaddlePaddle
scikit-learn
TensorFlow
Theano
Torch7
Weka
Hardware
1026 Labs
Cadence
Cirrascale
Google TPU
Intel (Nervana)
Isocline
KNUPATH
NVIDIA DGX-1/Titan X
Qualcomm Tenstorrent
Tensilica
Research
Cogitai
Kimera
Knoggin
NNAISENSE
Numenta
OpenAI
Vicarious
Kết luận
Đây chỉ là một số ứng dụng thương mại của deep learning. Có rất nhiều các ứng dụng khác như dịch tiếng nói (speech translation), chuyển tiếng nói thành văn bản (speech transcription), phân loại văn bản (text classification), phát hiện nội dung (conten discovery), thương hiệu thông minh (brand intelligence), và theo dõi (monitoring) social media.
Deep learning là một công nghệ đột phá đang được sử dụng ngày càng nhiều bởi các doanh nghiệp để tạo ra các mô hình kinh doanh mới và xây dựng những ứng dụng mới mẻ để giải quyết những bài toán thực tế. Trong khi vẫn chưa có một định nghĩa nào về deep learning được chấp nhận, đã có nhiều thừa nhận từ ngành công nghiệp cho rằng deep learning đã giúp tạo ra nhiều lợi ích và các ứng dụng thú vị trong tương lai.
Nguồn tham khảo:
- Deep Learning in the Real World by AlchemyAPI
- Deep Learning in a Nutshell: Core Concepts
- Deep Learning in a Nutshell: History and Training
- Machine Learning Is Everywhere: Netflix
- Netflix Recommendations: Beyond the 5 stars
“Một bài blog trên Netflix có giải thích làm thế nào mà doanh nghiệp này nghiên cứu deep learning và các kĩ thuật khác của machine learning để cải thiện việc khuyến nghị và cung cấp việc cá nhân hóa tốt hơn đến người dùng.”
Em có thể xin link của blog này được không anh? 😀
Em cảm ơn anh trước, 😀
ThíchThích
Hi em,
http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html
http://techblog.netflix.com/2016/02/recommending-for-world.html
ThíchThích
Em cảm ơn anh ạ, 😀
ThíchThích
Deep learning thì em thấy là trend, hot hiện nay. Tuy nhiên, liệu nó có bị overrate quá không anh? Như em gần đây được nghe 1 anh kỹ sư của bên Linkedin nói rằng hệ thống gợi ý connection của họ vẫn chỉ dùng linear regression.
ThíchThích