Những chuyên gia bạn nên follow trong lĩnh vực Data Science

https://twitter.com/jeremywaite

https://twitter.com/hadleywickham

https://twitter.com/mikejulietbravo

https://twitter.com/EvanSinar

https://twitter.com/bobehayes

https://twitter.com/dez_blanchfield

https://twitter.com/andrewyng

https://twitter.com/hmason

https://twitter.com/kdnuggets

https://twitter.com/Ronald_vanLoon

https://twitter.com/HansRosling

https://twitter.com/randal_olson

https://twitter.com/kirkdborne

https://twitter.com/ValaAfshar

https://twitter.com/NateSilver538

Những câu nói hay về Data Science

Tầm quan trọng của dữ liệu

Data vs information

Data vs information

“You can have data without information, but you cannot have information without data.”- Daniel Keys Moran, Computer programmer and science fiction author

Bạn có thể có dữ liệu mà không cần thông tin, nhưng bạn không thể có thông tin mà không có dữ liệu.

“Most of the world will make decisions by either guessing or using their gut. They will be either lucky or wrong.”- Suhail Doshi, CEO, Mixpanel

Hầu hết mọi người đưa ra những quyết định chỉ dựa vào phán đoán của mình. Làm như vậy họ chỉ nhận được một là thành công do may mắn hay hai là thất bại do sai lầm.

“It is a capital mistake to theorize before one has data.”- Arthur Conan Doyle, Author of Sherlock Holmes

Ta sẽ mắc nhiều sai lầm khi đưa ra giả thuyết trước khi được cung cấp thêm dữ liệu.

“We’re entering a new world in which data may be more important than software.”- Tim O’Reilly, Founder, O’Reilly Media

Chúng ta đang ở trong một thế giới mới mà ở đó dữ liệu quan trọng hơn cả phần mềm.

“Data is a precious thing and will last longer than the systems themselves.”- Tim Berners-Lee, father of the Worldwide Web

Dữ liệu là một thứ tài sản quý giá và sẽ tồn tại lâu hơn cả chính hệ thống của mình.

“It’s difficult to imagine the power that you’re going to have when so many different sorts of data are available.”- Tim Berners-Lee

Bạn sẽ khó hình dung được sức mạnh mà bạn sẽ có khi sở hữu đa dạng các loại dữ liệu ngoài kia.

“Web users ultimately want to get at data quickly and easily. They don’t care as much about attractive sites and pretty design.”- Tim Berners-Lee

Người dùng Web thật sự cần dữ liệu càng nhanh càng đơn giản càng tốt. Họ sẽ không quan tâm nhiều đến vẻ hào nhoáng và vẻ đẹp của giao diện đâu.

“Data, I think, is one of the most powerful mechanisms for telling stories. I take a huge pile of data and I try to get it to tell stories.” – Steven Levitt, Co-author of Freakonomics

Dữ liệu là một công cụ mạnh mẽ được dùng để kể các câu chuyện. Tôi sử dụng nhiều biểu đồ khác nhau để kể nên các câu chuyện mà mình muốn chia sẻ.

“Before Google, and long before Facebook, Bezos had realized that the greatest value of an online company lay in the consumer data it collected.” – George Packer, author for the New Yorker

Trước khi có Google và Facebook, Bezos đã nhận ra rằng giá trị thật sự của các công ty online là dựa vào dữ liệu khách hàng mà họ thu thập được.

“Our ability to do great things with data will make a real difference in every aspect of our lives.” – Jennifer Pahlka, Founder and Executive Director for Code for America

Khả năng làm việc với dữ liệu sẽ mang lại những thay đổi hữu ích ở mọi mặt của cuộc sống chúng ta.

“Some of the best theorizing comes after collecting data because then you become aware of another reality.” – Robert J. Shiller, Winner of the Nobel Prize in Economics

Nhiều lý thuyết hay được phát minh từ việc thu thập dữ liệu. Vì trong quá trình này, bạn đã nhận ra được các chân lý mới.

“Without big data analytics, companies are blind and deaf, wandering out onto the Web like deer on a freeway.” – Geoffrey Moore, Partner at MDV

Nếu không phân tích được Big Data, các công ty cũng như những người khiếm thị và khiếm thính, đi vào khu rừng Web như những chú hưu ngây thơ.

Đối xử với dữ liệu

Torture the data

Torture the data

“Torture the data, and it will confess to anything.” – Ronald Coase, winner of the Nobel Prize in Economics

Hãy “tra tấn” dữ liệu và nó sẽ thú nhận với bạn tất cả.

“Data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others.” – Mike Loukides, VP, O’Reilly Media

Công việc của Data scientists liên quan đến thu thập dữ liệu, ghi chú lại các thông tin để dễ theo dõi, xây dựng câu chuyện trên các số liệu này, và trình bày câu chuyện đó cho mọi người.

“I think you can have a ridiculously enormous and complex data set, but if you have the right tools and methodology then it’s not a problem.” – Aaron Koblin, Entrepreneur in data and digital technologies

Nếu bạn có dữ liệu kỳ quặc, lớn và phức tạp nhưng bạn có những công cụ và phương pháp đúng đắn, thì mọi việc coi như xong.

“When human judgment and big data intersect there are some funny things that happen.”- Nate Silver, Founder of FiveThirtyEight

Khi phán xét của con người và Big Data gặp nhau thì sẽ có nhiều điều thú vị xảy ra.

Những điều không ngờ tới

Forensics and guess work

Forensics and guess work

“The problem with data is that it says a lot, but it also says nothing. ‘Big data’ is terrific, but it’s usually thin. To understand why something is happening, we have to engage in both forensics and guess work.”- Sendhil Mullainathan, Professor of economics, Harvard

Vấn đề của dữ liệu là nó sẽ cho ta biết quá nhiều thứ và cũng không cho ta biết gì cả. Để hiểu được điều gì đang diễn ra, bạn cần đóng vai như một người pháp y và nhà phỏng đoán.

“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.”- Dan Ariely, Author of Predictably Irrational

Big Data giống như sex ở tuổi teen: mọi người nói về nó, không ai thật sự biết phải làm như thế nào, mọi người nghĩ là mọi người đang thực hiện chúng, nên mọi người cho rằng họ đang làm điều đó.

Dữ liệu và quyền riêng tư

Eagle eye

Eagle eye

“Everything we do in the digital realm – from surfing the Web to sending an e-mail to conducting a credit card transaction to, yes, making a phone call – creates a data trail. And if that trail exists, chances are someone is using it – or will be soon enough.”- Douglas Rushkoff, Author of Throwing Rocks at the Google Bus

Những việc chúng ta làm liên quan đến kĩ thuật số – lướt web, gửi mail, giao dịch thẻ tín dụng, gọi điện thoại – đều tạo ra lưu vết dữ liệu. Nếu lưu vết này tồn tại, thì sẽ có ai đó đang sử dụng chúng hoặc không sớm thì muộn cũng sẽ sử dụng chúng.

“You happily give Facebook terabytes of structured data about yourself, content with the implicit tradeoff that Facebook is going to give you a social service that makes your life better.”- John Battelle, Founder of Wired Magazine

Bạn đưa hàng terabytes các thông tin về cá nhân cho Facebook, đổi lại Facebook sẽ cung cấp những dịch vụ giúp cho cuộc sống của bạn thêm thú vị hơn.

“It’s so cheap to store all data. It’s cheaper to keep it than to delete it. And that means people will change their behavior because they know anything they say online can be used against them in the future.”- Mikko Hypponen, Security and privacy expert

Việc lưu trữ dữ liệu rẻ hơn việc xoá dữ liệu. Nghĩa là mọi thông tin hiện tại sẽ được sử dụng để chống lại chúng ta trong nay mai.

“The price of freedom is eternal vigilance. Don’t store unnecessary data, keep an eye on what’s happening, and don’t take unnecessary risks.” — Chris Bell, US Congressman

Cái giá của sự tự do là phải luôn cảnh giác. Đừng lưu trữ những dữ liệu không cần thiết, hãy quan sát những gì đang diễn ra và đừng dính vào những rủi ro không cần thiết.

Những thay đổi

Sexy jobs

Sexy jobs

“I keep saying that the sexy job in the next 10 years will be statisticians, and I’m not kidding.”- Hal Varian, Chief economist, Google

Tôi luôn nói rằng nghề nghiệp “gợi cảm” nhất trong 10 năm tới sẽ là các nhà thống kê, và tôi không đùa đâu.

“There’s a digital revolution taking place both in and out of government in favor of open-sourced data, innovation, and collaboration.”- Kathleen Sebelius, Former United States Secretary of Health and Human Services

Có một cuộc cách mạng kĩ thuật số diễn ra ở trong và ngoài chính phủ liên quan đến mã nguồn mở, đổi mới và hợp tác.

“We should teach the students, as well as executives, how to conduct experiments, how to examine data, and how to use these tools to make better decisions.”- Dan Ariely

Tôi sẽ dạy cho những sinh viên, cũng như những nhà điều hành, cách tiến hành các thực nghiệm, làm sao để kiểm tra dữ liệu, làm sao sử dụng những công cụ này để đưa ra các quyết định tốt hơn.

“The world is one big data problem.”- Andrew McAfee, MIT scientist

Thế giới là một bài toán Big Data.

Nguồn tham khảo

41 Shareable Data Quotes That Will Change How You Think About Data
A Beginner’s Guide to Getting Your First Data Science Job

Ý nghĩa của việc học

Universal

Universal

Tôi xin dành ra mục này để tổng hợp lại những phát biểu nói lên ý nghĩa của việc học. Từ đó, hy vọng chúng ta sẽ có thêm động lực để trao dồi thêm nhiều kiến thức và thực hiện nghiên cứu hằng ngày.

work hard

work hard

Được đi học chắc chắn là đỡ cực nhọc hơn rất nhiều so với việc “kiếm sống”. Quan trọng hơn, khi có kiến thức, bạn mới cảm thấy “cuộc sống này có nhiều điều tốt đẹp” và “đáng sống”.

Một nghề thì sống đống nghề thì chết.

thinker vs doer

thinker vs doer

Xã hội không dùng được kiến thức trong đầu chúng ta, chỉ khi nào ta biến kiến thức đó thành sản phẩm dùng được thì khi đó kiến thức mới thực sự có giá trị.

Học mà không hành thì học vô ích, hành mà không học thì hành không trôi chảy

Tự học là thuộc tính của trí tuệ gắn liền với bản năng sinh tồn

Stupid vs Smart

Stupid vs Smart

Tri thức tự nó là sức mạnh

Người thích tự học thường có lối sống theo lý tính hơn là sống theo cảm tính vốn thường gắn liền với các bản năng; họ nhận ra được cái giá trị của đời sống tinh thần.

Người trí thì vui, người nhân từ thì sống lâu.

Ai có khả năng tự học thường tự tin, tri túc và tự trọng.

Người tự học vì nhu cầu trí tuệ biết tự đánh giá mình nên tự chủ, dễ nhận ra rằng “càng học càng thấy mình dốt” cho nên thường khiêm tốn.

Kẻ nào không phấn phát tìm hiểu thì ta không giảng cho, không ráng lên để phát biểu ý kiến thì ta không khai phát cho, ta nêu ra một góc cạnh (của vấn đề) mà không tự suy nghĩ tìm ra ba góc kia, thì ta không dạy cho nữa. Cần trở nên năng động , sáng tạo , không ỷ lại, không phụ thuộc vào người khác

The research cycle

The research cycle

Tự học là một công việc gian khổ , đòi hỏi lòng quyết tâm và sự kiên trì .Càng cố gắng tự học con người càng trau dồi được nhân cách và tri thức của mình .Chính vì vậy tự học là một việc làm độc lập gian khổ mà không ai có thể học hộ ,học giúp. Bù lại, phần thưởng của tự học thật xứng đáng : đó là niềm vui, niềm hạnh phúc khi ta chiếm lĩnh được tri thức. Biết bao những con người nhờ tự học mà tên tuổi của họ được tạc vào lịch sử

Học tập những trải nghiệm từ sách để trở thành một người vững vàng, có tầm hiểu biết và dễ dàng vượt qua những thử thách trong cuộc sống tương lai, khi đã bước vào tuổi trưởng thành.

be patient

be patient

Có thể bạn đi sau, đi chậm hơn bạn bè nhưng không sao cả, quan trọng là cái đích bạn hướng tới. Can đảm lên bạn nhé

Bạn vẫn còn tương lai đang rộng mở ở phía trước, ánh mắt cha mẹ đang mong ngóng thành công của chính bạn và cho cuộc sống của đất nước sau này.

Kinh nghiệm làm việc với Big Data

Working with Big Data

Working with Big Data

Đã bao giờ bạn cảm thấy quá tải khi làm việc với Big Data chưa? Đã bao giờ bạn phải ngồi hàng giờ chỉ để transfer dữ liệu từ server này sang server khác chỉ để test thuật toán của mình? Hay những lúc chán chường khi nhìn script của mình bắt đầu chạy hàng giờ và cuối cùng phát hiện ra mình đã sai đâu đó? Mình nghĩ rằng tất cả những ai khi mới bắt đầu làm việc với Big Data đều có những cảm nhận như vậy. Trong bài viết này, tôi xin góp một chút kinh nghiệm của mình để làm việc với Big Data hiệu quả hơn, kể cả cá nhân hay làm việc nhóm.

Tiếp tục đọc

Dành cho các bạn sắp bước chân vào lĩnh vực Công nghệ thông tin

Project manager

Project manager

Bài viết này dành cho những bạn sắp bước chân vào lĩnh vực Công nghệ thông tin, hay những bạn còn đang phân vân về chuyên ngành mà mình sẽ chọn trước khi bước vào năm 3 Đại học. Đối với các bạn còn ở phổ thông, có lẽ các bạn còn mơ hồ về lĩnh vực này, nhiều bạn tưởng tượng mình sẽ học thêm về word, excel, hay sửa chữa, lắp ráp máy tính, chỉnh sửa ảnh photoshop, làm game, làm web này nọ hay cao siêu hơn là làm hacker như những phim hành động bạn thường xem và người nhà của bạn cũng nghĩ như vậy.

Trong khi đó, các bạn năm nhất ít nhiều cũng sẽ đọc được các comment hay bài viết đại loại như học khoa học máy tính là đi bán sách dạo, hệ thống thông tin thì sau này chỉ đi nhập dữ liệu, kĩ thuật phần mềm thì chỉ có mở tiệm bán đĩa CD, mạng máy tính thì đi cắt dây điện hay mở tiệm net, đọc xong nhiều bạn sẽ có suy nghĩ có lẽ khỏi đi học thì hơn.

Ngoài ra, ắt hẳn nhiều bạn sẽ đọc được bài viết thần thánh “Lập Trình Viên Không Có Gì Cao Sang”, đây là bài viết rất dễ khiến bạn nản lòng và thoái chí. Còn lỡ đọc được cuốn sách “Dạy con làm giàu” thì các bạn cũng đừng quá ảo tưởng mà đánh mất chính mình và hoài bão ban đầu khi đã quyết định dấn thân vào IT. Hãy luôn giữ vững lập trường.

Do vậy, mình sẽ liệt kê ra tất cả những ngành học mà các bạn sẽ bắt gặp khi bước chân vào lĩnh vực IT thông qua việc so sánh giữa một suy nghĩ còn non nớt (trẻ trâu) và một suy nghĩ đã từng trải. Thêm vào đó, mình chân thành đưa ra một vài lời khuyên như sau:

  • Đừng sợ coding vì nó là một phần sự nghiệp của bạn, dù có né tránh cũng không được, hãy tập “yêu” việc coding.
  • Đừng sợ và chán ghét toán học vì nó là một phần kĩ năng của bạn, nếu càng cố gắng né trành thì chỉ càng thêm hối hận về sau mà thôi.
  • Hãy đi “học ké” nhiều lớp không thuộc chuyên ngành của mình để mở mang kiến thức và tầm nhìn của mình về thực trạng cũng như xu hướng hiện tại trong ngành. Nếu bạn đang học kĩ thuật phần mềm thì bạn có thể học ké thêm về hệ thống thông tin (thiết kế, truy vấn, và xử lý cơ sở dữ liệu), mạng máy tính (bảo mật, cài đặt, quản trị hệ thống mạng), hay khoa học máy tính (trí tuệ nhân tạo, machine learning, computer vision, natural language processing). Từ đó, bạn có thể tạo ra những ứng dụng phần mềm chất lượng cao, chạy ổn định, cũng như có nhiều nội dung AI trong đó.
  • Nếu muốn học lên cao học (thạc sĩ, tiến sĩ) hay theo đuổi sự nghiệp nghiên cứu, thì các bạn nên học kĩ về toán và AI vì các kì thi đầu vào lúc nào cũng đụng đến hai môn này.
  • Nếu có dự định startup thì hãy khai thác thị trường trong nước, xem quê nhà mình cần giải quyết gì để startup theo hướng đó. Đừng mơ mọng, ảo tưởng về nước Mĩ nữa.

Tiếp tục đọc

Bớt ảo tưởng hơn và đừng dựa dẫm vào người khác khi đã 18 tuổi rồi!

Cô giáo Hoàng Hồ Phụng

Cô giáo Hoàng Hồ Phụng

Con người đến một lúc nào đó, cuối cùng cũng sẽ giác ngộ ra những điều mà xưa kia mình còn cố chấp không chịu hiểu. Tương tự như một đứa con nít khi ta cho nó chọn giữa một cái bánh bao thơm lừng và một viên kim cương nhỏ xíu, nó sẽ chọn cái bánh bao. Ngược lại, một người lớn sẽ chọn ngay viên kim cương mà không hề do dự.

Trước đó, tôi cũng hay có tư tưởng cứ đòi phải giàu, phải có thiệt nhìu tiền mới có độc lập tự do hạnh phúc này nọ, rồi mơ trên trời. Bây giờ nhìn lại, thực hiện được dư đinh của mình là độc lập rồi, theo đuổi được nghề mình chọn là tự do rồi, biết buông bỏ, cho đi là hạnh phúc rồi. Bây giờ mới hiểu tại sao nhiều người lại hăng say cống hiến cho xã hội tốt đẹp hơn thay vì cứ đắp nhiều tiền vô nghĩa lên người mình, bởi vì sống là để cống hiến. Tại sao nhiều người không cần phải tự do tài chính vẫn cảm thấy mình thành công, bởi vì họ chỉ cần đạt được những điều đơn giản mình mong muốn là đã thành công rồi và cũng không cần ai đánh giá.

Tôi cũng muốn dành ra nhiều bài viết để chia sẻ về kinh nghiệm về đời sinh viên của mình như bài viết của cô giáo Hoàng Hồ Phụng, mong giúp các bạn trẻ sớm hiểu được thế nào là thực tế để chọn cho mình một hướng đi. Dưới đây là bài viết của cô.

Tiếp tục đọc

Tôi đã áp dụng 6 chiếc mũ tư duy vào Data Science như thế nào

6 thinking hats

6 thinking hats

Tình cờ đọc trên Web có nhắc lại “6 chiếc mũ tư duy” của Edward de Bono, tôi nhớ lại mình còn ở thời Đại học cũng đã áp dụng nhiều lần phương pháp này vào hoạt động đội nhóm. Đây là một phương pháp cực kỳ hiệu quả, giúp bạn đánh giá sự việc từ nhiều góc nhìn khác nhau để đưa ra quyết định tốt hơn. Nhờ vậy, bạn sẽ hiểu rõ hơn mọi ngóc ngách của sự việc, nhận diện được những nguy cơ và cơ hội mà bình thường bạn có thể không chú ý đến.

Tôi nghĩ phương pháp này cũng có thể áp dụng rộng hơn vào lĩnh vực Data Science nên tôi đã áp dụng thử từng chiếc mũ vào trong lĩnh vực này và nhận thấy khá thích hợp. Bắt đầu từ chiếc mũ trắng cho đến hết 5 chiếc mũ còn lại, cả 6 chiếc mũ đều góp phần giúp cho tầm nhìn của bạn được bao quát và hoàn thiện hơn.

Tiếp tục đọc

Những dự án Machine Learning tập dợt khi rảnh rỗi

Machine Learning projects

Machine Learning projects

Các dự án thực tế giúp cho những kiến thức trừu tượng về Machine Learning trở nên rõ ràng hơn. Trong bài viết này, tôi xin liệt kê một vài dự án thú vị trong thực tế để chúng ta có cơ hội tập dợt mỗi khi rảnh rỗi. Bạn sẽ thấy được machine learning áp dụng như thế nào vào các lĩnh vực như giáo dục, khoa học, kĩ thuật và y tế.

Mỗi dự án được liệt kê bên dưới đều có đường link dẫn đến tập dữ liệu cần thiết. Nếu có dự án nào khiến bạn cảm thấy hứng thú, bạn có thể download tập dữ liệu về và bắt đầu “vọc” ngay lập tức.

  • Otto Group Product Classification Challenge. Cho các thuộc tính của sản phẩm, phân lớp các sản phẩm này vào một trong 9 danh mục sản phẩm khác nhau.
  • Rossmann Store Sales. Cho lịch sử bán hàng của các sản phẩm ở những cửa hàng khác nhau, dự đoán tình hình kinh doanh trong tương lai.
  • Bike Sharing Demand. Cho dữ liệu thuê mướn xe đạp và dữ liệu thời tiết đi kèm, dự đoán nhu cầu thuê mướn xe đạp hàng ngày của khách hàng trong tương lai.
  • The Analytics Edge. Cho thông tin các bài viết của New York Times, dự đoán bài viết nào được đọc nhiều nhất.
  • Restaurant Revenue Prediction. Cho thông tin chi tiết của một nhà hàng, dự đoán doanh thu trong một năm sắp tới.
  • Liberty Mutual Group: Property Inspection Prediction. Cho thông tin chi tiết về một tài sản bất kì, dự đoán mức độ rủi ro bảo hiểm cho tài sản đó.
  • Springleaf Marketing Response. Cho thông tin các khách hàng, dự đoán xem họ có phải là khách hàng mục tiêu hay không.
  • Higgs Boson Machine Learning Challenge. Cho mô tả về mô phỏng va chạm giữa các hạt, dự đoán xem biến cố này có phân rã thành hạt Higgs hay không.
  • Forest Cover Type Prediction. Cho thông tin bản đồ, dự đoán rừng thuộc loại bao phủ nào.
  • Amazon.com Employee Access Challenge. Cho lịch sử truy cập tài nguyên của các nhân viên, dự đoán các nguồn tài nguyên nào nhân viên cần dùng thường xuyên.
  • Iris dataset. Cho kích thước (cm) của một bông hoa, dự đoán nó thuộc về loài hoa nào.
  • Adult dataset. Cho dữ liệu điều tra dân số, dự đoán những cá nhân nào có thu nhập nhiều hơn $50,000 một năm.
  • Wine dataset. Cho dữ liệu phân tích thành phần hóa học của rượu, dự đoán xuất xứ của rượu này.
  • Car evaluation dataset. Cho thông tin chi tiết về một chiếc xe, dự đoán mức độ an toàn của chiếc xe đó.
  • Breast Cancer Wisconsin dataset. Cho xét nghiệm chẩn đoán tế bào vú, dự đoán xem tế bào này có bị ung thư hay không.
  • Abalone dataset. Cho thông tin đo lường về bào ngư, dự đoán tuổi của bào ngư này.
  • Wine Quality dataset. Cho thông tin khác nhau về rượu, dự đoán chất lượng của rượu này.
  • Heart Disease dataset. Cho các kết quả chẩn đoán khác nhau về một bệnh nhân, dự đoán mức độ mắc bệnh tim mạch của người đó.
  • Human activity recognition using smart phones dataset. Từ dữ liệu chuyển động của smart phone, dự đoán loại hoạt động của người dùng.
  • Forest fires dataset. Cho thông tin khí tượng và một số dữ kiện khác, dự đoán vùng rừng có nguy cơ bị cháy cao.
  • Internet Advertisements dataset. Cho thông tin các bức ảnh trên trang web, dự đoán bức ảnh này có phải quảng cáo hay không.