Góp nhặt kinh nghiệm làm nghề Data scientist

A good data scientist knows how to do something really well, but a great data scientist can do “something of everything.” From raw data all the way to shining in front of C-level executives, a great data scientist has the skills to architect data systems, build applications, perform modeling and machine learning and wrap up the results in a clear (and quickly iterable) manner. From data models to ETL to databases to distributed algorithms and learning, this book has you covered.

Data Science with Java

Qua thời gian làm việc cũng như tìm tòi tài liệu, sách báo về machine learning, nếu vai trò của bạn là Data Scientist/Data Engieer/Data Analyst thì phần lớn bạn sẽ nhận được những chia sẻ kinh nghiệm bên dưới. Trong bài viết này, mình sẽ tổng hợp lại những kinh nghiệm trong ngành Data Science để dễ dàng tham khảo sau này.

Modern data scientist
Modern data scientist

Tuyển dụng

Data Science Interview.png

  • Ở Việt Nam, muốn làm Data Scientist bạn phải có bằng PhDs hay Master và Master nếu chưa có kinh nghiệm thực tế về Big Data thì cũng không được làm. Do vậy, bạn hãy đi từ thấp lên cao, từ vị trí technical như Data Engineer hay Data Analyst  để tiếp xúc dần dần với dự án thực tế rồi sau đó nâng cấp mình lên thành Data Scientist.
  • Ở Việt Nam, khi phỏng vấn về Data Scientist, bạn cần phải giỏi cấu trúc dữ liệu và giải thuật cũng như lập trình vì họ đòi hỏi cao về khả năng giải quyết vấn đề, tối ưu hóa hệ thống. Do đó, hãy dành thời gian ôn lại các khái niệm như Dynamic Programming, Recursive Programming, Combinatorial optimization cũng như tập code lại các vấn đề như chuỗi Fibonacci hay Knapsack.
  • Bạn cần một team để có thể hoàn thành dự án về Data science. Bởi vì một người có bằng PhDs hay Master cũng không thể nào thành thạo về kĩ thuật cài đặt hệ thống như Hadoop hay Spark, không thể có kinh nghiệm nhiều như các chuyên gia phát triển phần mềm và quản lý dự án. Bạn không thể cùng lúc ôm xuể được tất cả mọi lĩnh vực, điều này chỉ dẫn đến thật bại của dự án mà thôi.

Làm việc

data science team.jpg

  • Dự án Data Science cần có các thành viên sau trong nhóm:
    • Algorithms team: những chuyên gia về thuật toán, thường có bằng Phd/Master trong lĩnh vực khoa học máy tính và thống kê, kĩ năng làm việc với R, Python, thuật toán, và Machine learning.
    • Big Data team: thu thập, tiền xử lý và quản trị dữ liệu Big Data (Extract, Transform, Load), chiếm 80% trong quá trình phát triển.
    • Domain Experts: những chuyên gia về mô hình kinh doanh, thường có bằng MBA, đảm bảo những phân tích và nghiên cứu được đưa vào sử dụng đúng với mục tiêu kinh doanh của doanh nghiệp.
    • Visualization and Design team: thiết kế và trình diễn mô hình dữ liệu hay dự đoán sao cho người sử dụng có thể quan sát một cách trực quan và nhanh chóng nhất để có thể đưa ra quyết định một cách hiệu quả.
    • Product Managers: người đảm bảo tiến độ của dự án, tập hợp và điều phối tiến trình làm việc của mọi người.
  • Bạn phải hiểu được ý nghĩa của tập dữ liệu muốn nói gì, điều này rất quan trọng. Đây là một nghệ thuật chứ chưa liên quan gì đến thuật toán hay kĩ thuật lập trình.
  • Dù có nhiều công cụ hay nhiều phương pháp đi chăng nữa, nếu bạn không biết được bài toán muốn giải và làm thế nào sử dụng tập dữ liệu hiện tại để giải quyết thì mọi thứ cũng bằng thừa.
  • Bạn cần biết về kĩ thuật phần mềm để có thể xây dựng được một hệ thống mang lại trải nghiệm tốt nhất tại đúng thời điểm cho người sử dụng.
  • Phần lớn 90% công việc của bạn là tinh chỉnh và làm sạch dữ liệu.
  • Cẩn trọng khi lựa chọn thu thập dữ liệu từ các nguồn: website analytics, social media data, sensor data, machine log data, media, business apps.
  • Công nghệ dữ liệu phân tán Hadoop/Spark được dùng để xây dựng mô hình dự đoán với tốc độ cao gần như real-time. Mô hình kết quả sẽ được lưu trữ tại cơ sở dữ liệu NoSQL như MongoDB, Cassandra cho các tác vụ truy vấn (Pig, Hive, SQL-like). Ta sẽ lên lịch cập nhật mô hình định kỳ theo ngày hay tuần.
  • Nên sử dụng dịch vụ cloud computing như Amazon Web Service, Databricks thay vì tốn nhiều thời gian và chi phí để mua máy móc thiết bị phục vụ cho phân tích Big Data. Mà các máy móc này thường lỗi thời rất nhanh, ta nên sử dụng dịch vụ cloud trả phí theo dung lượng sử dụng, hoặc theo sức mạnh phần cứng.
  • Sử dụng githubbitbucket, hay sourceforge để lưu lại các tài liệu phân tích dữ liệu của mình và chia sẻ cho cộng đồng.
  • Bạn không cần phải biết lập trình Java để tiếp cận với Hadoop. Ta đơn giản hóa tiến trình bằng cách sử dụng Pig hoặc Hive. Trong đó, 10 dòng code của Pig = 200 dòng code của Java.
  • Các dự án Kaggle không tạo nên thế mạnh cho Resume của bạn:
    • Bạn không có gì nổi bật trừ khi bạn đạt vị trí top 5 trong bảng xếp hạng.
    • Bạn không chứng minh được kĩ năng phân tích và xử lý dữ liệu của mình. Bởi vì các tập dữ liệu của Kaggle đều đã được tiền xử lý để giúp các Data scientist tập trung nhiều hơn vào xây dựng mô hình dự đoán.
    • Bạn không cho thấy được sáng kiến của mình trong giải quyết vấn đề thực tế. Mọi ý tưởng đều đã được Kaggle đặt ra và bạn chỉ có việc đi giải quyết các bài toán này. Trong thực tế, việc xác định được các bài toán cần giải là một bước quan trọng và tốn rất nhiều thời gian.
    • Hầu hết các dự án bạn bắt tay vào làm đều không liên quan đến lĩnh vực của công ty bạn muốn apply. Ví dụ, công ty bạn đang cần xây dựng hệ thống recommendation system nhưng bạn chỉ show được các dự án về xử lý ảnh y khoa.
  • Bạn dễ bị sa thải khi:
    • Không thích làm việc nhóm, nghĩ rằng một mình có thể làm hết mọi thứ.
    • Ngạo mạn, không chịu học hỏi, tiếp thu những ý kiến đóng góp của đồng nghiệp.
    • Gửi đến sếp những báo cáo dài dòng như tiểu thuyết làm mất thời gian.
    • Nhàm chán khi làm những tác vụ liên quan đến tiền xử lý dữ liệu.
    • Năng suất công việc không xứng đáng với mức lương bạn được trả.

Học tập và trau dồi

long-road-to-data-scientist.png

  • Học, học nữa, học mãi để trau dồi nhiều kiến thức và kĩ năng liên quan đến ngành bùng nổ nhanh chóng như Data science này.
  • Biết thật kĩ một vài thuật toán sẽ tốt hơn rất nhiều khi chỉ biết sơ sơ thật nhiều thuật toán: nếu bạn biết về linear regression, k-means clustering, hay logistic regression và có thể giải thích, diễn giải mạch lạc các kết quả của thuật toán, cũng như có thể cài đặt từ đầu đến cuối dự án bằng các thuật toán này, thì bạn sẽ được đánh giá cao hơn những người biết rất nhiều thuật toán nhưng không thể áp dụng chúng vào đâu.
  • Khi áp dụng một thuật toán machine learning nào đó, hầu như bạn chỉ cần sử dụng các thư viện đã cài đặt sẵn. Hiếm khi bạn phải code lại từ đầu thuật toán SVM vì nó tốn rất nhiều thời gian.
  • Học thông qua thực hành, tốt nhất là qua một dự án nhỏ sẽ giúp bạn tăng tốc việc học gấp 10 lần so với việc chỉ đọc mớ lý thuyết từ các chương sách như Linear algebra, Statistics, Database, Programming, … hay ngồi xem video hàng giờ liền từ các chương trình online như Coursera, Udemy, …
  • Để bắt đầu một dự án, cách đơn giản nhất là tìm cho mình một tập dữ liệu yêu thích như Iris sau đó cố gắng trả lời các câu hỏi như làm thế nào để phân lớp các loài hoa khi chỉ biết một vài thuộc tính… Một số nguồn để download tập dữ liệu: 100+ Interesting Data Sets for StatisticsDatasets subredditUCI machine learning repository.
  • Hãy bắt đầu viết blog, post các kết quả phân tích dữ liệu mà mình đã tìm tòi tuần qua. Việc này giúp bạn thu được kĩ năng trình bày cũng như khích lệ bản thân để tiếp tục học hỏi. “If you can’t explain it simply, you don’t understand it well enough.” – Albert Einstein. Do đó, nếu bạn có thể giải thích một cách đơn giản, dễ hiểu các lý thuyết phức tạp cho mọi người thì bạn đã hiểu vấn đề đó một cách thấu đáo.
  • Theo dõi các blog hay trang web như kdnuggetsoreilly, datasciencecentralinsidebigdata, Quora, DataTau, machine learning subredditEdwin ChenInternational Journal of Forecasting, UC Berkeley Social Lab, Nervana.
  • Thử tham gia các cuộc thi trên Kaggle để làm quen với những bài toán thực tế mà các doanh nghiệp đặt ra.
  • “Học thầy không tày học bạn”. Hãy lập một nhóm riêng của bạn về data science, mỗi tuần chia sẻ kiến thức và kinh nghiệm với nhau, bạn sẽ học được rất nhiều điều mới mẻ cũng như tiết kiệm nhiều thời gian tìm tòi.
  • Thử thách bản thân với tập dữ liệu Big data: bạn sẽ học hỏi được thêm những kiến thức cũng như các kĩ năng làm việc trên các hệ thống phân tán và sử lý song song như Hadoop, Spark, Mahout, YARN, HBase, Kudu, MapReduce, Hive, Pig, …
  • Trau dồi kiến thức bản thân thông qua các thuật toán machine learning tiên tiến nhất hiện nay như Deep learning, Topic modeling, Word2vec, On-line learning, …
  • Hãy hiểu điểm mạnh trong việc học của mình để tiếp cận data science nhanh hơn. Nếu bạn có óc tư duy lý thuyết tốt thì bạn có thể tìm đọc cùng lúc rất nhiều cuốn sách về học thuật để trau dồi kiến thức của mình. Nếu bạn là người thiên về kĩ thuật thì các tutorial step-by-step, các dự án nhỏ, hay học hỏi kinh nghiệm từ bạn bè của mình sẽ không phải là một ý kiến tồi.
  • Những trang web giúp bạn tiếp cận data science thông qua thực hành: Dataquest, Datacamp.

Infographs

The Building Precursors to Data Science.png

The Building Blocks of Data Science.png

Top-12-interesting-careers-to-explore-in-bigdata-2016-final.jpg

Modern data science
Modern data science

Nguồn tham khảo

Advertisement

Một suy nghĩ 63 thoughts on “Góp nhặt kinh nghiệm làm nghề Data scientist

      1. ở Việt Nam trường nào dạy ngành này uy tín anh giới thiệu em được không, ngành này thay đổi nhanh quá, chương trình học sợ không theo kịp với sự phát triển ngành

        Thích

        1. Em nên học CS ở các trường ĐH uy tín như Bách Khoa hay Tự nhiên và đi làm trong ngành Big Data thì sẽ phát triển tốt hơn.
          Ngành này tự mày mò, góp nhặt kinh nghiệm từ học tập và làm việc cá nhân là chủ yếu. Việc học trong trường chỉ trang bị cho em kiến thức căn cơ nhất để tiếp tục nghiên cứu độc lập sau này. Ngành IT nói chung và Data Science nói riêng đều có tốc độ phát triển nhanh, chính vì thế một background chuyên ngành vững sẽ giúp em nắm bắt và theo kịp công nghệ dễ dàng hơn.

          Thích

  1. Trước hết cảm ơn anh rất nhiều vì bài viết tuyệt vời này.
    3 năm đi làm sau khi ra trường, từ code .net, javascript, HTML, CSS,… em đã tìm được niềm đam mê của mình là làm về Data. Em đã có 1 thời gian dài làm DBA Oracle, tiếp xúc nhiều với dữ liệu, em cũng đã làm các bài toán Data Warehouse, BI. Có hiểu biết cơ bản về Hadoop, Spark, Python. Nay em muốn đi theo hướng Data Scientist. Nhưng quả thực tìm kiếm 1 công ty ở Việt Nam làm theo hướng này thật sự là khó, vì ở Việt Nam vẫn là outsource code như lập trình Web, mobile, … cho các thị trường khác.
    Không biết anh có lời khuyên nào về cơ hội nghề nghiệp cho lĩnh vực này không ạ?

    Đã thích bởi 2 người

    1. Hi em hiện tại đang có một số công ty tuyển dụng vị trí liên quan như Knorex, Zalora, chotot, Tenpoint 7, JVM Vietnam,… Bạn có thể gõ từ khóa này trên iTViet
      Thông thường họ tuyển vào đợt hè và cuối năm
      Chúc bạn thành công với đam mê của mình

      Thích

  2. Chào anh, em hiện không phải là một sinh viên thuộc ngành IT( em học ngành kinh tế ), tuy nhiên sau một thời gian làm thêm tại một công ty IT và học một chút Python, nghiên cứu thêm về Data Science em cảm thấy rất thích thú và muốn theo đuổi. Không biết em có nên bỏ tiền tiết kiệm ra để học một bằng SE online như FUNIX không, và nếu không thì anh có một lời khuyên nào không ạ, vì em ngại thị trường VN vẫn trọng bằng cấp và không biết những khoá trên coursera hay edx có phù hợp không. Em xin cảm ơn rất nhiều ạ.

    Thích

    1. Hi em,
      Về định nghĩa một DS thật thụ thông thường gồm 4 tố chất:
      1. Kiến thức toán và thống kê (cái này anh nghĩ em có)
      2. Kỹ thuật lập trình và quản trị database (có kinh nghiệm Big Data là cần thiết)
      3. Kỹ năng trình bày và viết báo cáo (tùy khả năng mỗi người)
      4. Bản tính tò mò thích học hỏi và chia sẻ kiến thức (rất cần thiết trên con đường theo đuổi)
      Bên kinh tế anh nghĩ phần lập trình sẽ không phải là thế mạnh của em, đặc biệt là cấu trúc dữ liệu và giải thuật. Khi phỏng vấn họ sẽ hỏi nhiều về chuyên môn này để xem cách em giải quyết vấn đề có tốt không. Tùy công ty mà họ có thể hỏi thêm về kiến thức tài chính và thống kê.
      Về bằng cấp, nếu có người quen thì không nhất thiết phải học lấy bằng, em có thể học online và áp dụng ngay vào công việc là ok. Ngược lại, một tấm bằng hoặc chứng chỉ liên quan đến lập trình hoặc kinh nghiệm nghiên cứu sẽ dễ dàng hơn cho em xin việc sau này.
      Anh có để ý là hiện nay họ thường lập team để cùng làm việc trong đó có team về lập trình và team về domain expert (như em) như vậy sẽ dễ dàng hơn khi phát triển hệ thống. Nếu chịu khó tìm kiếm trên Vietnamworks hay ITviec, anh nghĩ em có thể tìm được công việc phù hợp.

      Đã thích bởi 1 người

  3. Chào anh, đầu tiên cám ơn anh về một bài giới thiệu rất hay và đầy đủ về data science, em có một câu hỏi mong anh hổ trợ giúp em: Em là dân kinh tế, không phải It nhưng sau một thời gian làm việc analyst và tìm hiểu về SQL cũng như BI tool, quả thật em rất hứng thú với ngành data science. Những kiến thức hiện tại của em: SQL, tableau, python basic.
    -Em nên học khóa học ngắn hạng nào để có thể đi theo con đường này.
    -Những kiến thức cần bổ sung.
    -Nên xin việc với vị trí nào với những kiến thức hiện tại và hổ trợ đi theo định hướng data science. Vì em có xin làm một số vị trí database thì đa phần không gọi, khi gọi trao đổi thì họ cũng lắc đầu vì muốn người có background về IT.

    Em cám ơn anh rất nhiều ạ.

    Thích

    1. -Em nên học khóa học ngắn hạng nào để có thể đi theo con đường này: nếu đi theo chính quy thì nhanh nhất 3 năm, nếu học về lập trình em có thể đăng ký học bên Aptech để lấy chứng chỉ nghề, hoặc em xem thử chương trình bên JVN http://www.jvn.edu.vn/vi/page/Xet-tuyen.html.
      -Những kiến thức cần bổ sung: Toán, Lập trình, CSDL, Business domain, Machine learning, Data mining, AI, …
      -Nên xin việc với vị trí nào với những kiến thức hiện tại và hổ trợ đi theo định hướng data science. Vì em có xin làm một số vị trí database thì đa phần không gọi, khi gọi trao đổi thì họ cũng lắc đầu vì muốn người có background về IT: cũng giống như anh muốn làm CEO bên ngành kinh tế thì họ cũng sẽ lắc đầu thôi, ngoại trừ chính anh lập công ty hoặc có người quyen cho cơ hội làm việc, số còn lại họ sẽ ưu tiên các bạn bên chuyên ngành này. Lý do, thời gian đào tạo một chuyên ngành tốn nhiều thời gian, không có con đường tắt. Nếu học tiếp để lấy văn bằng 2 thì sẽ đảm bảo cho em hơn, hoặc em hãy xem ngành này như một đam mê bên ngoài công việc chính của mình, khi nào có cơ hội thì ứng dụng vào chính công việc của mình luôn, không nhất thiết mình phải làm đúng vai trò DS em nhé.

      Đã thích bởi 1 người

      1. Em cám ơn anh nhiều, hiện tại em đang vạch ra hướng đi cho mình như sau, anh cho em nhận xét nha:
        -Đăng ký một khóa học lấy bằng của aptech hoặc có thể là một khóa học online trên udacity. Cái này em đang phân vân.
        -Tự học machine learning(machinelearningcoban.com: tiếng việt và bài giảng tiếng anh của thầy andrew ng), em nghĩ đây là kiến thức nền tảng với người đi theo con đường này, skill:python for data science, SQL server, big data: hadoop, spark.
        -Em sẽ tiếp tục công việc hiện tại là data analyst để có thể tiếp xúc và làm việc nhiều với data.
        Đây là hướng đi sau khi em góp nhặt kiến thức trên internet, nên có thể có phần không hợp lý, nên em rất mong nhận được góp ý.
        “em hãy xem ngành này như một đam mê bên ngoài công việc chính của mình, khi nào có cơ hội thì ứng dụng vào chính công việc của mình luôn, không nhất thiết mình phải làm đúng vai trò DS em nhé.” Cám ơn lời khuyên rất hay này của anh ạ.

        Đã thích bởi 1 người

        1. Kế hoạch của e khá hợp lý, hoặc e tự tạo ra vị trí này cho mình trong tổ chức nếu có cơ hội xây dựng các hệ thống liên quan.
          Khi cty e có đăng tuyển vị trí này thì bằng sự chuẩn bị và sẵn sàng của mình trong thời gian trước đó, e có thể mạnh dạn đề xuất được đảm nhận vai trò này.
          Chúc e thành công.

          Thích

          1. Em chao anh, sau mot thoi gian lam phan tich thi qua that cong ty em dang co nhu cau ve syns tu nhieu he thong, vi du nhu crm hay cac file excel do cac ban sale update vao mot nguon duy nhat, thi em nen su dung cong cu nao thi hop ly anh, khong ton phi a, vi van dang giai doan thu nghiem thoi anh a,

            Thích

  4. Chào anh. Hiện tại em đang muốn tìm hiểu nghành nghề Big Data này. A có thể tư vấn cho em được không ạ? Em nên bắt đầu từ đâu và hiện tại em đã ở con số 0. Chưa có kiến thức hay nền tảng về big data ạ. Em cám ơn anh

    Đã thích bởi 1 người

    1. Hi em, em có thể bắt đầu bằng các keyword sau:
      Cơ sở dữ liệu (MySQL, PostgreSQL, MongoDB).
      Ngôn ngữ truy vấn SQL.
      Thiết kế cơ sở dữ liệu (ràng buộc toàn vẹn, đại số quan hệ, các dạng chuẩn hoá dữ liệu).
      Truy xuất đồng thời.
      Mạng máy tính cơ bản (Zookeeper, Mesos, Chronos, Marathon, Jenkins)
      Business Intelligent – BI (OLAP, OLTP, Star/Snowflake schema).
      Hadoop file system
      Map Reduce
      Spark

      Lịch sử phát triển từ Paper notes > Flat file > Excel > SQL > BI > NoSQL > Big Data (text, video, image, voice, …) mỗi giai đoạn tương ứng với các keyword ở trên.

      Thích

  5. Hi anh,

    Em hiện tại đang là data analyst, xuất phát điểm của em là kinh tế chứ không phải công nghệ thông tin.
    Trong 1 lần tìm hiểu về data analyst em tìm được check list này

    Click to access UdacityUltimateSkillChecklistForYourFirstDataAnalystJob.pdf

    Em có nên dựa theo check list này để bổ sung thêm những gì em còn thiếu hay không vì thật sự em chỉ có kiến thức về business, nếu theo check list này em thật sự không có cái nào cả. Và anh có thể tư vấn em nên ưu tiên cái gì trước hay không. Em cảm ơn ạ

    Thích

    1. Hi em,

      Trong list này, em nên tập trung 100% vào: Statistics, Data wrangling và Communication. Những phần còn lại có thể xem thêm để teamwork với các team khác.
      Nếu hoàn thành hết checklist này, em có thể giữ vai trò là Data Scientist.

      Thích

      1. DS và ML trong mấy năm gần đây phát triển nhanh vượt sức tưởng tượng, ngày xưa học mấy món kiểu như trí tuệ nhân tạo thấy nó còn xa vời thực tếlắm, chắc chỉ có mấy ông giáo sư, học giả quan tâm tới thôi.

        Thời gian gần đây mình tìm đọc các topic về DS thì thấy rất cuốn hút, mình đi làm đã lâu, có rất nhiều kinh nghiệm phát triển ứng dụng với Oracle Database (query dữ liệu rất phức tạp, viết b.cáo, tối ưu hệ thống, query, thiết kế CSDL, viết pakage,….) , đã từng tham gia triển khai thành công 2 dự án ERP lớn. Mình sợ kiến thức, kinh nghiệm cũ sẽ thành lối mòn cản trở việc tư duy những thứ mới. Nếu chuyển sang làm DS, ML thì có trở ngại gì không, thứ tự những phần nào mình nên bắt đầu. Nhờ bạn tư vấn giùm 🙂

        Cảm ơn bạn rất nhiều!

        Thích

        1. Chào bạn,

          Background bên DS thường có thêm Toán và ML cơ bản. Tuỳ mục tiêu mà bạn sẽ có những khó khăn khác nhau. Nếu tìm hiểu để biết sơ và sử dụng công cụ thì đọc một vài bài ở blog mình đã có thể start dự án được rồi. Nếu tìm hiểu sâu hơn thì ngoài kiến thức cơ bản còn đỏi hỏi nhiều thời gian nghiên cứu một domain của ML nào đó mà bạn quan tâm như Xử lý ảnh, Xử lý ngôn ngữ tự nhiên, Khai thác dữ liệu, …

          Thích

  6. Hi anh Xuân Hồng,
    Em hiện là sinh viên sắp bắt đầu vào năm 2 ngành CNTT. Em có tìm hiểu từ lâu và muốn theo làm về Big Data. Theo em đọc bên trên thì anh nói là cần ít nhất 3 năm để theo con đường này. Anh có thể tư vấn cho những kiến thức mà em cần trang bị, các bước học tập để sau 3 năm em ra trường có thể làm việc được với nó không ạ. Em cám ơn anh nhiều.

    Thích

    1. Hi em,
      Nếu em đang học ĐH thì nên đăng ký chuyên ngành Khoa học máy tính và học thêm các lớp về Cơ sở dữ liệu, Quy trình phát triển phần mềm là ok.
      Đồng thời, em nên làm luận văn tốt nghiệp để có thêm kinh nghiệm nghiên cứu, cũng như làm portfolio cho các nhà tuyển dụng sau này.
      Chúc em thành công,

      Thích

      1. Hi anh,
        Em cám ơn anh ạ. Vậy sau khi ra trường em có thể làm ở vị trí nào được ạ, em có thể làm Data Scientist luôn được được không hay cần phải học hỏi thêm gì nữa ạ.
        Chúc anh mạnh khỏe và thành công hơn nữa trong công việc ạ.

        Thích

  7. em chào anh
    em muốn hỏi anh một số điều được không anh
    background của em cũng là kinh tế như các anh bên trên
    nên em muốn hỏi thời gian anh ước lượng để học data analyst đến mức đi làm được là khoảng bao nhiêu ạ. Em rất băn khoăn về cái này trước khi quyết định dấn thân vào ngành này. Vì theo em được biết, càng ngày càng có nhiều vị trí vừa phải biết kiến thức kinh tế, vừa phải biết kiến thức về data để phân tích. Nên việc học và tìm hiểu thêm về data analyst là một lợi thế rất lớn.
    Kiến thức hiện tại của em thì chỉa có basic python thôi ạ.
    mong anh cho ý kiến về thời gian ước lượng để học ạ, liệu có kéo dài đến tận 3-4 năm không ạ

    Thích

    1. Định hướng của Data Analyst là:
      – Thống kê ứng dụng tốt: descriptive analysis, dianogsis analysis, hypothesis testing, bayesian inferencial,…
      – Trực giác về dữ liệu tốt.
      – Thông thạo các công cụ: R, python, Excel.
      Từ đây, nhanh hay chậm là do khả năng của mỗi người. Có thể 1-2 tuần, 2-3 tháng hoặc 1 năm làm việc là cùng. Còn bằng cấp thì tuỳ chứng chỉ mà có thể từ 1-2 năm.
      Nhưng quan trọng nhất vẫn là sự may mắn: có người cho em cơ hội làm việc về nó. Hoặc tự em là chủ doanh nghiệp có thể tự phân tích số liệu của sản phẩm công ty mình chẳng hạn.
      Anh nghĩ kinh tế cũng khá chung chung, em nên chọn một lĩnh vực hẹp như quảng cáo, tín dụng, giám sát khách hàng, nghiên cứu đối thủ cạnh tranh, chứng khoán chẳng hạn để tập trung chuyên môn của mình.

      Đã thích bởi 1 người

  8. Hi anh,

    Em đọc bài viết này của anh lần này không biết là lần thứ mấy rồi.
    Hiện em đang theo học Master of Data Science tại JVN. Mỗi lần lạc lối và hoang mang trong thế giới mênh mông của Data Science hay BigData là em lại tìm đến bài viết của anh để đọc và suy ngẫm những bước tiếp theo cần phải thực hiện trong hành trình cuộc đời mình. Để cảm thấy đỡ cô đơn hơn, để biết được con đường tiếp theo mình cần đi tiếp.

    Một bài viết xuất sắc, đầy trải nghiệm và hiểu rất rõ thị trường Việt Nam. Không biết nói gì hơn, cảm ơn anh nhiều lắm.

    Thích

    1. Cám ơn em đã ủng hộ blog.
      Rất vui vì có những người bạn như em cùng đồng hành trên con đường Data Science này. Hy vọng cộng đồng VN ngày càng phát triển để có nhiều chia sẻ đóng góp hơn thế này nữa 🙂
      Chúc em thành công.

      Thích

    2. Mình cũng thây lạc lõng quá. Mới biết đến ngành này từ năm 3. Bây giờ đã là học kì 2 năm thứ 4 chuẩn bị ra trường rồi mà kiến thức còn hổng lung tung quá. Giá như tập trung hơn và trải nghiệm ngành này sớm hơn :((

      Thích

  9. Các bạn bình luận nói là học về Kinh tế rồi muốn làm data scientist. Còn em, dân Ngoại ngữ nhưng nay có hứng thú với CNTT, với lập trình, với Python , Artificial Intelligence. Qủa thật là mất phương hướng. giờ em đang học Deep Learning in Python. Anh định hướng cho em với. Em thích lập trình và thích về A.I. lập trình một bot như Cortana. mà em không biết hướng đi như nào cho đúng.

    Thích

  10. nếu là ở VN thì có bao nhiêu cơ hội cho người không có bằng cấp và ngoại đạo đây hix…ở phía trên cmt thấy khá nhiều bạn giống như mình quá (cứ ngỡ chỉ mỗi mình =))). thôi thì cứ học thôi…không xin được việc thì mình đi bán “bánh mì” >.<

    Thích

  11. Chào anh Hồng,

    Em là dân IT kinh nghiệm cũng hơn 5 năm rồi, có kiến thức về lập trình web (Ruby on Rails, PHP, Java, React, Vue, …) và lập trình mobile (Android, iOS), cũng làm nhiều về Visualization nhưng lại hoàn toàn mù mờ về ML. Lúc còn ở trường thì học SE nên ko có mấy môn như Data mining hay Học máy. Hiện em đang rất hứng thú với DS và đang theo học khóa về ML trên Coursera nhưng tại vì tự học nên hiện tại chưa có định hướng rõ ràng. Anh cho em lời khuyên để đi tiếp nhanh nhất có thể để trở thành DS trong nửa năm tới được không ạ. Cảm ơn anh.

    Thích

    1. Hi e,
      Tuỳ chỗ nhận em vào làm mà sẽ có các tiêu chí định danh một DS là người như thế nào nên anh chỉ có thể trả lời vắn tắt thế này nhé:
      – Để biết DS họ làm gì: thời gian 2 ngày tìm hiểu các blog DS chia sẻ, search job trên ITViec.
      – Để có kiến thức về ML: thời gian 3 tháng khi em kết thúc khoá học trên Coursera.
      – Để có trải nghiệm: thời gian 3 tháng khi tham gia cuộc thi bất kỳ trên Kaggle, có thể làm nhóm.
      – Để có kinh nghiệm: thời gian 1-2 năm đi làm hoặc học lên cao học.
      – Để được nhận vào làm: 1-2 tháng tìm việc nhờ vào may mắn và có duyên với tổ chức mà em quan tâm.
      Do vậy, ko có đường tắt em nhé.
      Chúc em thành công,

      Thích

  12. Hi Anh,
    Hiện em bên lĩnh vực chứng khoán vị trí retail chủ yếu- trái ngành. Hiện tại e cũng khá già 24t rồi ạ.
    Em đang tìm hiểu về Lĩnh vực này để phục vụ cho việc phân tích, trực quan hoá bằng biểu đồ để phân tích, số liệu realtime được dữ liệu , hoặc tạo module trên website của mình, sẵn tiện phục vụ chia sẽ, phân tích.
    Anh có thể chia sẽ em nên theo cái nào ạ? bắt đầu từ zero thì đi như nào vậy anh?
    Python > python in finance > data analyst> data visualize hay BI vậy anh? Ngoài ra còn phải thiết kế web nữa..

    Thích

    1. Chào bạn,
      Visualize thật ra có 2 lựa chọn:
      1) Dùng các công cụ có sẵn như Tableau, Javascript framework như highcharts, etc. Cách này nhanh chỉ cần bạn xác định được đầu ra mình muốn visualize những gì.
      2) Lập trình từ đầu theo bạn xác định là dùng Python thì matplotlib là đủ dùng, muốn đẹp hơn thì có thể dùng Seaborn hoặc Bokeh cả hai đều có thể nhúng vào web.
      Hai hướng này hơn thua nhau ở thời gian phát triển và độ tuỳ biến ứng dụng, nên quan trọng bạn muốn đầu tư theo hướng nào để phục vụ cho công việc của mình.
      Đối với người bắt đầu muốn làm mọi thứ từ đầu thì bạn nên theo hướng 2, ngược lại bạn chỉ quan tâm chia sẻ những phân tích thì hướng 1 đã có nhiều công cụ cho bạn sử dụng rồi.
      Như bạn thì muốn làm web, mình nghĩ python không mạnh bằng các Javascript framework trong việc visualization. Bạn xem https://www.tutorialspoint.com/highcharts/highcharts_overview.htm để tìm hiểu thêm nhé.
      Khi đã biết mình muốn show gì cho người xem thì bạn truy ngược lại có công cụ gì đáp ứng được nhu cầu của mình thì dùng luôn, đi step-by-step như các khoá học vậy rất mất thời gian vì mình cũng không còn là fresher phải đi học courses 1-2 tháng mới dùng được như vậy không xứng đáng thời gian mình bỏ ra đâu bạn nhé.

      Thích

      1. Chào Anh Hồng, Sau 1 tuần em tìm hiểu cái em muốn làm thì nó liên quan khá nhiều dev web.

        Từ back end tạo cơ sở dữ liệu realtime thị trường, sau đó front end như CRM, Dashboard rồi visualize những data đó, hoặc tạo filters và scan để phân tích nội tại cổ phiếu. => Để làm được cái này phải fullstack và mất thời gian khá lâu vì trái ngành. ( Đây chỉ là ý muốn tạo nên sản phẩm của em).

        Tuy nhiên lại khác với con đường DS trong finance.
        Cái em vẫn thắc mắc là mình từ data > cấu trúc data > add thuật toán > analyst > programming.
        Vậy từng bước mình đi trong ngành này DS finance, phụ thuộc vào data là nhiều.
        Hầu hết đi học các khoá dạy Python ML, là họ đưa data để thực hành.
        Vậy khai thác dữ liệu như thế nào anh nhỉ?
        Anh có thể nói cho em chi tiết từng bước đi không anh?
        -Hiện tại em chỉ biết mỗi excel và sử dụng dữ liệu fireant excel, để tạo module cho mình thôi anh.

        Thích

        1. Hi em,

          Để hiểu được mọi thứ vận hành thế nào em nên quay lại những gì cơ bản nhất.
          Để giải quyết một vấn đề em cần thực hiện 3 bước:
          – Đặt vấn đề
          – Giải quyết vấn đề
          – Kết luận

          Lúc này câu hỏi không phải là khai thác dữ liệu như thế nào mà là
          – Em đang muốn giải quyết vấn đề gì
          – Có công cụ nào giải quyết được vấn đề này không
          – Kết quả sau khi ứng dụng công cụ này ra sao

          Ví dụ tương đương như sau
          – Tôi muốn xác định giá chứng khoán vào đầu tuần tới tăng/giảm/giữ nguyên
          – Các hướng giải quyết: thu thập dữ liệu liên quan đến cổ phiếu quan tâm, áp dụng thuật toán phân lớp/gom nhóm/etc
          – Đánh giá mô hình dự đoán trong thực nghiệm và so sánh với kết quả thực tế

          Để master hay expert trong lĩnh vực nào, đặc biệt liên quan nhiều đến khoa học kỹ thuật thì không có con đường tắt em nhé. Mọi thứ đều bắt đầu từ những bước cơ bản đến nâng cao sau đó rất phức tạp. Nên em hãy đăng ký các khoá học liên quan hoặc nhờ sự giúp đỡ của thầy cô bạn bè để tìm hiểu và làm việc nhiều với lĩnh vực mà em mong muốn nhé.

          Thích

  13. Chào anh Hồng em hiện đang là sinh viên năm 3 muốn định hướng theo Data analysis. Vì thế em muốn hỏi anh nên bắt đầu học những thứ gì trước để vào ngành này a. Em cảm ơn ạ.

    Thích

    1. em học ngành gì vậy?
      DA trong mỗi ngành sẽ rất khác nhau, nếu là dân tài chính thì hầu như đã có đủ kiến thức để làm việc rồi, chỉ cần học cách sử dụng tools hay lập trình cơ bản thôi.
      Nếu IT thì cần phải bổ sung thêm kiến thức liên ngành em nhé.

      Thích

  14. Hi anh! Cảm ơn anh vì những chia sẻ rất hữu ích ạ. Em hiện tại đang là sinh viên năm nhất chuyên ngành Khoa Học Dữ Liệu nhưng lại ở một trường kinh tế ạ, định hướng sau này của em là tốt nghiệp ra và xin học bổng du học ngành Data Science, sau đó em muốn làm một Data Scientist.
    1. Anh cho e hỏi để xin học bổng ngành này thì em nên chuẩn bị gì những năm đại học ạ?
    2. Ngoài ra, em đang dự định học các khóa học online Data Science ngay từ năm nhất thì có quá sớm không anh?
    3. Nếu học online như vậy cộng thêm với việc học trên trường thì mất khoảng bao lâu để em có thể làm được những công việc của một Data Science để xin intern trong năm 3 hoặc năm 4 ạ?
    4. Cuối cùng là anh có thể giới thiệu cho em những trang web và khóa học online Free hoặc trả phí ít nhưng chất lượng phù hợp cho 1 sinh viên năm nhất như em được không ạ?
    Hi vọng anh có thể giúp em trả lời những thắc mắc này ạ. Em cảm ơn anh rất nhiều ạ!

    Thích

    1. Hi em,

      1. Để xin học bổng thì em cần tìm trường em muốn theo học và chuẩn bị theo hồ sơ mà họ yêu cầu. Nhìn chung thì em sẽ cần bằng tiếng Anh IETLS hoặc TOEFL, bảng điểm các môn học, bài luận lý do em muốn theo học, giáo sư/lab em muốn apply, etc
      2. Data Science cần 3 mảng chính: Business domain, Programming, Machine learning. Nếu background em khá vững thì theo học sẽ nhanh hơn, nhưng bắt đầu sớm và chậm thì cũng không thành vấn đề, nếu em ham thích học hỏi thì chặng đường sẽ thú vị hơn.
      3. Để xin intern thì do market định nghĩa: cung cầu thế nào, chất lượng đầu vào ra sao, kỹ năng mà nhà tuyển dụng tìm kiếm nên em cần theo dõi market nhé. Anh cũng làm tuyển dụng thường sẽ ưu tiên các bạn có thành tích học tập tốt và có tham gia các hoạt động xã hội/dội nhóm, lúc này mà đòi có kinh nghiệm làm việc thì không hợp lý tí nào.
      4. Khoá học free/trả phí thì có nhiều, nhưng theo anh đánh giá thì chất lượng đầu ra không sát với thực tế: quá simple, không ứng dụng được vì thực tế dữ liệu rất phức tạp và bài toán đề ra không phù hợp với mục tiêu kinh doanh. Nên em cần đào sâu vào 3 mảng anh nói trên: Programming nên xem là công cụ em phải thuần thục để có khả năng giải quyết vấn đề, Machine learning em có thể học Coursera để nắm được các yếu tố cốt lõi nhất, Business domain do em hứng thú lĩnh vực nào để ứng dụng (finance, advertising, biotech, healthcare, etc)

      Thích

    2. Chào anh ạ, em hiện tại là sinh viên ngành Sư Phạm Toán (Mathematics & Stastistic ), em đang tìm hiểu về DS/DA nhưng em thấy xuất phát điểm của hầu hết mọi người là từ IT hoặc Economics. Em hỏi không biết em cần học những kiến thức để có thể theo đuổi con đường này ạ ( em prefer DS hơn ạ ). Em có thấy nhiều khóa học ở trung tâm như KHTN hay những học viện như VEF Academy, và những khóa học online, em phân vân không biết học ở nguồn nào là tốt nhất để thực chiến vậy ạ. Mong anh giải đáp thắc mắc giúp em, em cám ơn ạ

      Thích

      1. Hi Huy,
        Anh từng huấn luyện bên VEF Academy, khoá này giúp em có cái nhìn tổng quan và cơ bản về Machine Learning, từ đó em có thể hỏi thêm thầy và các bạn TA về định hướng nghề nghiệp, chứ không có nơi nào đào tạo ra DS/DA cả, mọi người cần nền tảng kiến thức và kỹ năng trước rồi các job title từ đó mới theo sau.
        Về thực chiến thì anh nghĩ cũng không có khoá nào dạy được, chỉ có vào 1 doanh nghiệp cụ thể trày trật một thời gian mới thấm được kiến thức và kỹ năng nghề.
        Anh nghĩ nghề nào cũng vậy, cứ học trước rồi từ từ sẽ mở ra nhiều hướng để em đi tiếp nhé.
        Chúc em thành công,

        Thích

  15. Em chào anh, bài viết của anh về ngành data scientist là bài em thấy có nội dung trực quan, rất dễ tiếp thu nhất ạ. Em muốn xin một chút lời khuyên của anh ạ, em hiện là sinh viên năm nhất ngành Hệ thống thông tin quản lý và mục tiêu sau khi ra trường là có một công việc về Data Analyst(em thấy vị trí này có vẻ phù hợp với bằng cấp cũng như khả năng của em). Nhưng em khá lo lắng một điều là các công việc liên quan đến data thì các vị trí thực tập khá ít không như mảng web hay mobile, vậy có cách nào để em có thể có kinh nghiệm về ngành không ạ( không biết có những công việc thực tập nào khác có thể cho em kinh nghiệm làm việc về data analysis nhưng yêu cầu thấp hơn hay có những chứng chỉ hay khoá học nào không ạ)
    Em cảm ơn anh nhiều ạ

    Thích

    1. Hiện các môn ở trường ĐH CNTT anh thấy không có dạy về Data Analyst nên hiện tượng mismatch giữa học và sau khi ra trường là rất lớn, đa phần nếu có duyên với nghề thì em sẽ được làm việc với thầy cô cũng đang nghiên cứu về dữ liệu, nên cách dễ nhất là học cao học sẽ cho em môi trường, thời gian, và điều kiện để làm điều này.
      Công việc thì do nhu cầu thị trường muốn dành cho R&D bao nhiêu phần trăm asset, thời điểm hiện tại thì rất khó vì công ty đang cắt giảm chi phí vận hành và tối ưu hoá sản xuất nhưng thời gian sắp tới sẽ cần nhiều nguồn lực hơn.
      Làm Data Analyst giỏi em có thể đăng ký học các lớp phân tích chứng khoán hoặc đầu tư giá trị sẽ thực tế hơn nhiều vì data mỗi doanh nghiệp mỗi khác, muôn hình vạn trạng, cái cần là học được nguyên lý và quy trình phân tích chuyên nghiệp, từ từ hình thành kỹ năng chuyên môn đối với nghề thôi, nên không trường lớp nào dạy được cả, chủ yếu là tự học và tự đúc kết.

      Thích

  16. Em chào anh.
    Em tốt nghiệp MBA ngành Logistics và Supply Chain và có 3 năm làm việc về logistics. Cách đây hơn 1 năm thì em chuyển qua lĩnh vực về data. Cụ thể là xây dựng các workflows tự động hóa quá trình xử lý dữ liệu finance bằng cách sử dụng Alteryx và SQL. Không biết với background của em thì nên theo khóa học ntn để có thể trở thành 1 data scientist? Nhờ anh tư vấn giúp em ạ.
    Em cảm ơn anh nhiều.

    Thích

Trả lời

Điền thông tin vào ô dưới đây hoặc nhấn vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s