Tại sao Data Engineer giúp bạn bắt đầu sự nghiệp trong lĩnh vực Data thuận lợi hơn?

Nhu cầu tuyển dụng cao

Theo báo cáo việc làm của Dice’s 2020, vị trí Data Scientist đã giảm nhiệt trong những năm gần đây, tuy nhiên các vị trí về Machine Learning Engineer, Data Engineers, MLOps engineer, và AI engineer đang có tốc độ gia tăng đáng kể khoảng 42-50% (YoY). Theo quan điểm của tôi, điều này diễn ra hoàn toàn hợp lý.

Tôi đã có cơ hội áp dụng dữ liệu vào chuyển đổi số (Digital Transformation) cho các công ty bán lẻ trong những năm qua. Đố các bạn, nếu tôi là sếp Data của một doanh nghiệp (CTO, CDO, Head of Data Science, etc), khi build Data Science team, giữa Data Engineer (DE), Data Analyst (DA) và Data Scientist (DS) thì tôi sẽ cần ai trước?

Tất nhiên đó sẽ là các bạn DE – người có vai trò tổng hợp dữ liệu từ nhiều nguồn về một chỗ, tính toán, xử lý, làm sạch, và đảm bảo chất lượng đầu ra của dữ liệu cho các bên có thể làm việc. Tiếp đến, tôi sẽ cần DA để phân tích insights – thật ra các bạn đã giữ vai trò này từ trước cả DE, các bạn DA thường ở các phòng ban finance, supply chain, customer experience, human resource, marketing, ecommerce, etc, và sau cùng tôi mới tự tin nghĩ đến tuyển dụng các bạn DS.

Hãy thử tưởng tượng, nếu không có đủ dữ liệu và dữ liệu bị thừa, bị thiếu, không chính xác thì DA và DS có thể làm việc dễ dàng?

Thông thường, DA sẽ xuất dữ liệu ra nhiều file Excel để tiến hành phân tích, định kỳ mỗi tuần, mỗi tháng sẽ phải thao tác thủ công như vậy cho các báo cáo của phòng ban. Do dữ liệu trong doanh nghiệp chỉ chiếm phần trăm rất nhỏ so với thời đại Big Data hiện nay, nếu ta muốn hiểu khách hàng hay đối thủ cạnh tranh nhiều hơn, từ đó có thể để đưa ra được nhiều dịch vụ mới, cải tiến những quy trình cũ thì chắc chắn các bạn sẽ cần đến DE để mang dữ liệu từ các nguồn khác nhau về phân tích.

Đối với DS, việc không biết dữ liệu mình đang có là gì, không đủ thông tin để hiểu ngữ nghĩa của các table đang lưu trữ, thì sẽ không thể xây dựng được các mô hình Machine learning (ML) có độ chính xác cao. Bởi lẽ “garbage in, garbage out”, ta chỉ tốn thời gian mày mò, nghiên cứu và thực nghiệm để rồi cuối cùng phát hiện ra dữ liệu đang sử dụng không chính xác dẫn đến kết quả đầu ra không đạt mong đợi.

Tại sao công việc copy data từ A sang B tưởng dễ nhưng lại khó như vậy?

Thứ nhất, dữ liệu từ các nguồn rất đa dạng và phức tạp: từ dữ liệu files chằng chịt, database vận hành siêu khủng của doanh nghiệp, đến quá trình tích hợp hệ thống trong nhà với các bên thứ ba (CRM, CDP, Marketplace, Workflow) sẽ khiến bất kỳ ai cũng đau đầu. Ngoài ra, các hệ thống tracking real-time events lớn có cấu trúc thay đổi liên tục cộng với khối lượng data tăng lên theo từng ngày. Các bạn sẽ đối mặt với Big Data problem (Volume, Velocity, Variety), nếu quản lý Data Platform không khéo các bạn sẽ end-up với một hệ thống rối rắm – mà dân gian hay gọi là “spaghetti data pipeline”.

Thứ hai, việc đảm bảo data in-sync là một bài toán khó khi đối diện với Big Data, bạn cần có cơ chế đồng bộ dữ liệu real time một cách thông minh, bạn cần kiểm soát được chất lượng dữ liệu đầu ra, hệ thống cần truy vết lại quá trình biến đổi một cách hiệu quả và khả năng tìm kiếm dữ liệu dễ dàng.

Việc khó thì mới tới tay mình, tất cả những lý do kể trên khiến cho nhu cầu tuyển dụng DE ngày càng cao và càng khó. Họ cần những người có khả năng thiết kế, xây dựng và quản trị được Big Data Platform – là nền tảng để phát triển tiếp các Data Products mang lại ROI cao cho doanh nghiệp, từ phân tích báo cáo chuyên sâu cho đến những mô hình dự đoán phức tạp, giúp thay đổi cục diện của một doanh nghiệp từ mô hình kinh doanh cũ kỹ và ỳ ạch trở thành doanh nghiệp mang lại trải nghiệm tốt cho khách hàng thông qua sản phẩm và dịch vụ mới có tính cạnh tranh cao, đồng thời là môi trường làm việc đáng mơ ước mà ai cũng muốn apply vào.

Linh hoạt hơn khi muốn chuyển qua vai trò DA hay DS

https://k12playbook.ccee-ca.org/data-driven-instruction/

Một ngày làm việc của Data Science team chủ yếu diễn ra như thế nào? Đối với DE, ta sẽ tiến hành đo đạc về volume, velocity, variety của dữ liệu để nhắm chừng cách thiết kế, lên kế hoạch và cài đặt Data Platform. Còn DA – data consumer gạo cội nhất nhóm, các bạn sẽ nhờ bộ phận IT xuất các nguồn dữ liệu liên quan trong ERP thành Excel để tiến hành kiểm tra, phân tích và xây dựng các bản báo cáo của mình, nếu có gì bất thường trong dữ liệu thì DA sẽ là người nắm rõ nhất. Đối với DS, sau khi hiểu được business problem, ta sẽ lục lọi trong Data Platform xem hiện tại ta đang có gì, sau đó ta sẽ tiến hành explore data để tìm kiếm các pattern hữu ích cho việc xây dựng predictive models. Vậy ai trong số nhóm này được tiếp xúc với dữ liệu origin (cội nguồn, nguồn gốc) nhiều nhất, có toàn quyền can thiệp và thay đổi cấu trúc dữ liệu trước khi đưa vào Data Platform?

Single-source-of-truth giúp cho mọi người truy cứu dữ liệu ở một nguồn được dễ dàng hơn, công việc của ta không còn loay hoay trong việc tìm kiếm và hỏi xem dữ liệu đang nằm ở đâu, số liệu ta đang nhìn có đúng với các bạn đang nhìn không, việc gom dữ liệu về một chỗ giúp ta tập trung hơn vào việc sử dụng dữ liệu. Đồng thời mọi người có thể đứng trên một “sự thật” (truth, fact) mà cùng thảo luận. Vai trò của DE là xây dựng single-source-of-truth này, nhiệm vụ của các bạn là giữ được dữ liệu sink sao cho “in-sync” với dữ liệu source. Khi xảy ra vấn đề, DA và DS sẽ “cầu cứu” các bạn DE kiểm tra xem lỗi đang nằm ở đâu trong data pipeline của mình. Sau khi tìm kiếm được root cause, DE sẽ document lại những vấn đề này. Tiếp đến, các bạn sẽ đưa ra giải pháp, tiến hành can thiệp và xử lý dữ liệu từ gốc đến ngọn để vấn đề như thế không còn phát sinh trong tương lai. Người có toàn quyền làm việc đó chỉ có thể là DE, khá là quyền lực nhỉ.

Nhờ tiếp xúc với dữ liệu gốc, DE sẽ nắm luôn được quá trình phát sinh dữ liệu, các table liên quan với nhau như thế nào, những ngóc ngách có thể khiến quá trình phân tích dữ liệu bị sai lệch ví dụ như độ trễ của dữ liệu ở bảng này so với bảng khác, cách mà dữ liệu được đưa vào theo kiểu full load hay incremental (kỹ thuật ingesting data), DE có toàn quyền quyết định nên lưu chúng theo định dạng nào để dễ dàng lưu trữ và truy xuất, khi nào nên lưu Json, khi nào nên lưu theo structured table, phân tích theo snapshot hay change data capture. Nhờ có góc nhìn toàn diện về hệ thống dữ liệu ngay từ lúc thu thập, khi chuyển qua vai trò là DA hay DS, DE sẽ nhận diện được điều gì đang diễn ra với dữ liệu, biết được chúng đang nằm ở đâu, và sẽ nhào nặn lại chúng để quá trình phân tích, nghiên cứu dữ liệu ở chặng cuối của pipeline được hợp lý, và thông suốt hơn.

Career path cho các bạn DE cũng linh hoạt hơn nhóm khác. Trong lĩnh vực Data, dù bạn là DE, DA hay DS kỹ năng chung bên Data các bạn cần biết gồm data wrangling, data collection, data exploration, data visualization, cloud computing, business knowledge. Ở đó, DE sẽ hướng đến vận hành hệ thống nhiều hơn. Bạn sẽ trở thành siêu nhân!! Do là đầu mối quan hệ ở nhiều phòng ban từ Software, DevOps, Scientist, Analysis, dần già bạn sẽ hội tụ đủ các kiến thức và kỹ năng cần thiết để trở thành Machine Learning Engineer – người “ôm” được 3 mảng DevOps, DataOps, MLOps, người có thể đưa được sản phẩm AI vào vận hành.

Bạn biết rõ doanh nghiệp đang muốn gì, bạn có thể đưa ra những phân tích đánh giá dựa trên dữ liệu (data-driven) và trực quan hóa chúng bằng các công cụ visualization. Bạn hiểu được tại sao cần thiết kế một Data lakehouse thay vì tách ra Data lake và Data warehouse giúp tiết kiệm tài nguyên lưu trữ, bạn cũng hiểu được Machine Learning được training và serving thì cần chuẩn bị những gì. Từ đó, bạn sẽ học được thêm cách viết phần mềm đúng nghĩa là như thế nào, thiết lập automation deployment bằng CI/CD ra sao, quản trị cluster đồ sộ bằng Kubernetes sao cho hiệu quả. Do đó, không quá khó để môt DE có thể chuyển sang làm DA hay DS nếu có hứng thú.

Động lực đến với bạn thường xuyên hơn, bạn luôn tự tin và trong trạng thái đói kiến thức

Thấy được thành quả từ nỗ lực của mình thường xuyên giúp cho DE duy trì được động lực nội tại của mình mỗi ngày. Động lực có thể đến từ nhiều nguồn cảm hứng, từ các vấn đề ta giải quyết được, từ những người ta đã nhiệt tình hỗ trợ giúp đỡ, từ những công nghệ data hiện đại mới học được, từ những chia sẻ phong phú từ cộng đồng data, hay từ một dự án cá nhân nào đó, và một điều các bạn DE luôn tự tin đó là dù bài toán có khó đến đâu thì cũng sẽ có lời giải, và không giải được thì có thể chi tiền cho giải pháp mà người khác cung cấp giúp tiết kiệm thời gian và công sức.

Các bạn đã và đang làm DS ắt hẳn sẽ hiểu cảm giác, khi bắt đầu dự án, ta sẽ không biết chắc được dự án của đội có thành công hay không, và nó nên kéo dài trong bao lâu, ta thường gọi nó với cái tên PoC – Proof of Concept hay MVP – Minimum Viable Product. Nếu bạn làm trong một doanh nghiệp kinh doanh, ngoài áp lực về thời gian hoàn thành, bạn còn có áp lực về độ chính xác của mô hình, bởi lẽ team DS dưới góc nhìn của tổ chức chỉ có giá trị khi team có thể đưa được mô hình dự đoán áp dụng vào thực tiễn, nếu không team sẽ được xem là bộ phận “đốt tiền” của tổ chức cho những project được gọi là “fancy”. Nếu bạn là nghiên cứu sinh, một đề tài của bạn kéo dài ít nhất 1 năm hay thậm chí nhiều năm đối với những đề tài lớn. Thất bại nhiều khi đến từ ngoại cảnh mà bạn không kiểm soát được, do dữ liệu không đủ (cần nhiều nguồn dữ liệu bên ngoài), do dữ liệu không tốt (bị NULL, bị outliers nhiều, structure phức tạp). Mỗi lần như thế, bạn sẽ down mood cực kỳ, tâm trạng của bạn sẽ trùng lại một chút, sự tự tin và động lực của bạn giảm đi đáng kể do khả năng thất bại cao, thành công đến chậm và không thường xuyên. Đối với DE, bạn đem được dữ liệu ra cho mọi người dùng như vậy đã là thành công rồi, chưa kể đến các công việc cao siêu hơn như Data governent, Data security hay Data sensitive (GDPR, CCPA).

Để phân tích dữ liệu, đưa ra được những insights, trực quan hóa dữ liệu và kể một câu chuyện nào đó xoay quanh dữ liệu khai thác được, ngoài những công cụ quen thuộc và nhàm chán như Excel, Power BI hay Tableau. DE sẽ có vô khối thứ để vọc vạch khám phá từ những cở sở dữ liệu hiện đại nhất như Deltalake, Iceberge, Snowflake cho đến các công cụ open-source visualization tools như Metabase, Superset, Redash, Looker. Nên công cụ đối với DE là không thiếu và không bị ràng buộc vào bất kỳ một công nghệ nào, bạn hoàn toàn tự chủ trong quá trình tìm kiếm và trình bày giải pháp của mình. Hơn nữa, bạn sẽ nhận thấy số lượng chia sẻ về các thủ thuật và cập nhật công nghệ cho DE có rất nhiều, những cuốn sách chuyên ngành và buổi nói chuyện về công nghệ rất đông đảo và phổ biến, chúng sẽ khiến bạn luôn trong trạng thái đói kiến thức và muốn làm mới bản thân mỗi ngày.

Bằng cấp cho DE thì cũng khá nhiều đấy: Azure, AWS, Google, Databricks, Snowflake. Bạn sẽ không bao giờ có thời gian ngồi không cho đến khi bị lụt nghề, luôn có thứ gì đó cho bạn tìm tòi, học hỏi và khám phá. Có bạn hỏi, biết nhiều như vậy để làm gì? Đối với tôi, còn gì tự hào hơn khi thông qua những gì mình học được, tôi có thể biến chúng thành những giải pháp công nghệ tiên tiến, tiết kiệm và tiện lợi, giúp cho công việc và cuộc sống của các Data consumer được dễ dàng hơn.

Kết

Khi đi làm lâu năm có lẽ tôi sẽ bị chủ quan về vai trò của DE. Tôi thấy bắt đầu làm DE sẽ giúp bạn phát triển sự nghiệp về Data được thuận lợi hơn. Từ nhu cầu việc làm là có thật và rất lớn, tôi nghĩ xu hướng này vẫn tiếp tục duy trì trong những năm tới. Tuy nhiên, như bao ngành nghề khác, sẽ có có xuân hạ thu đông, có lên thì sẽ có xuống, đừng vì hot trend mà các bạn FOMO, bỏ hết chuyên môn của mình mà chuyển qua, cái bạn cần duy trì là tinh thần không ngừng học hỏi, trải nghiệm và hơn hết là tập trung vào thế mạnh của mình thì ắt hẳn cơ hội và may mắn sẽ tìm đến bạn thôi.

Dù bạn chọn vai trò nào DE, DA hay DS, mỗi ngành nghề tôi nghĩ sẽ có những thách thức, thế mạnh và điểm thú vị riêng nên đều sẽ tồn tại điều gì đó giúp bạn trưởng thành hơn mỗi ngày, khám phá được nhiều hơn con người bên trong của mình. Một người bạn, người thầy, một chuyên gia hay một người tạo cảm hứng nào đó đều sẽ cho bạn manh mối giúp bạn vượt qua được khó khăn trong sự nghiệp đã chọn. Quan điểm của các bạn thì sao hãy cho tôi biết bằng cách để lại comments bên dưới nhé. Hẹn các bạn ở các bài viết sắp tới.

Một suy nghĩ 3 thoughts on “Tại sao Data Engineer giúp bạn bắt đầu sự nghiệp trong lĩnh vực Data thuận lợi hơn?

Trả lời

Điền thông tin vào ô dưới đây hoặc nhấn vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s