Data Scientist – Công việc hấp dẫn nhất thế kỷ 21

Data Scientist đã được bình chọn là công việc hấp dẫn nhất thế kỷ 21 bởi Harvard Business Review vào năm 2018, trong bối cảnh dữ liệu có tầm ảnh hưởng mạnh mẽ đến thị trường thế giới. Dù vậy, lĩnh vực này lại chưa hoàn toàn lớn mạnh như kỳ vọng.

Data Science, công việc hấp dẫn nhất thế kỷ 21

Trong thế giới mà mọi thứ dựa trên dữ liệu, các Data Scientist (nhà khoa học dữ liệu) nổi lên như một mặt hàng nóng hổi mà nhà nhà, người người săn tìm. Các cuộc tìm kiếm, tranh giành nhân tài trong lĩnh vực Data Science đã bắt đầu. Các chuyên gia ước tính rằng hàng triệu việc làm về Data Science có thể vẫn còn trống vì thiếu nhân sự. Tìm kiếm các Data Scientist trên toàn cầu không chỉ đơn thuần là tìm kiếm nhân sự trong lĩnh vực thống kê (statisticians) hoặc khoa học máy tính (computer scientist). Trên thực tế, các công ty đang tìm kiếm những nhân sự đáp ứng được các kỹ năng như:

  • Có chuyên môn trong một lĩnh vực bất kỳ
  • Một số kinh nghiệm trong lập trình phần mềm (Software Engineering)
  • Kỹ năng phân tích
  • Kỹ năng giao tiếp, kể chuyện

Kỹ thuật số đã thay đổi cuộc sống của chúng ta một cách nhanh chóng trong 10 năm qua. Dung lượng kỹ thuật số khoảng 130 tỷ gigabyte vào năm 1995. Đến năm 2020, con số này sẽ tăng lên đến 40.000 tỷ gigabyte (gấp hơn 300 lần hiện tại). Các công ty sẽ cần bổ sung hàng trăm ngàn, thậm chí lên đến hàng triệu nhân sự trong lĩnh vực kỹ thuật số để có thể tồn tại trong kỷ nguyên kỹ thuật số này. Không có gì lạ khi Harvard Business Review gọi là Data Science là công việc quyến rũ nhất trong thế kỷ 21.

Một báo cáo của Viện McKinsey Global cảnh báo về sự thiếu hụt tài năng lớn về data và analyst. Vào năm 2018, riêng Mỹ có thể phải đối mặt với sự thiếu hụt 140.000 đến 190.000 người có kỹ năng deep analytical cũng như 1,5 triệu managers và analysts có khả năng phân tích bigdata để đưa ra quyết định hiệu quả.

Bởi vì cuộc cách mạng kỹ thuật số đã chạm đến mọi khía cạnh của cuộc sống, cơ hội được hưởng lợi từ việc hiểu về các hành vi của con người là rất lớn. Với một bộ dữ liệu phù hợp, các nhà bán lẻ có thể nhìn vào thói quen mua hàng của người dùngđể đưa ra những quyết định giúp tăng lợi nhuận. Tuy nhiên, họ chỉ có thể làm vậy nếu họ có các Data Scientist làm việc cho họ. Chính vì vậy, nó giống như một cuộc chạy đua vũ trang để tìm kiếm các Data Scientist.

Với sự thiếu hụt Data Scientist, các nhà tuyển dụng sẵn sàng trả tiền rất nhiều tiền cho những tài năng trong lĩnh vực này.

  • Michael Chui, một hiệu trưởng tại McKinsey, đã chia sẻ trong một cuộc phỏng vấn: “Khoa học dữ liệu đã trở nên liên quan và cần thiết với mọi công ty … có một cuộc cạnh tranh về tuyển dụng các tài năng ở vị trí này”.
  • Một ví dụ khác, ông Paul Minton từ một nhân viên phục vụ nhà hàng mới mức lương $20.000 1 năm. Ông học nhiều môn chuyên ngành liên quan đến toán ở trường đại học, tham gia một khóa học kéo dài ba tháng về Data Science và đã thay đổi mọi thứ. Ông đã kiếm được hơn $100.000 1 năm với vai trò Data Scientist công ty khởi nghiệp ở San Francisco.

Định nghĩa

Mặc dù Data Science và Big Data được sử dụng khá phổ biến, tuy nhiên mọi người thường không hiểu rõ, hiểu mơ hồ, hoặc hiểu nhưng không thể diễn đạt. Một câu hỏi tưởng chừng đơn giản như Data Science là gì?, Data Scientist là gì?,… có thể dẫn đến nhiều câu trả lời. Trong bài viết này, mình sẽ cố gắng giải thích và định nghĩa những khai niệm này theo góc nhìn của tác giả trong quyển sách Getting Started with Data Science của IBM

Data Scientist là gì?

Data Scientist là một người tìm ra giải pháp cho các vấn đề bằng cách phân tích dữ liệu bằng các công cụ phù hợp và sau đó nói với những câu chuyện để truyền đạt những phát hiện của mình (data storytelling) cho các bên có liên quan (stakeholder) – từ lãnh đạo cấp cao, quản lý đến khách hàng. Nói một cách dễ hiểu, Data Scientist là những người làm việc cũng dữ liệu và cho ra các insight và truyền đạt các insight này với các bên liên quan. Kích thước dữ liệu lớn hay nhỏ, sử dụng các công cụ phân tích nào (ví dụ như Machine Learning) sẽ không quan trọng, miễn là có một tâm trí tò mò, khả năng phân tích và truyền đạt những phát hiện, thì tôi coi họ là một Data Scientist.

Data Science là gì?

Nếu bạn đã hiểu Data Scientist là gì thì thật dễ dàng để định nghĩa Data Science là gì. Data Science chính là những gì mà các Data Scientist làm. Data Science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy tính khác nhau. Đây là một lĩnh vực đa ngành kết hợp Toán học, Thống kê và Khoa học máy tính

Điều gì tạo nên một Data Scientist?

Điều quan trọng nhất cho một Data Scientist chính là tính tò mò. Một Data Scientist phải là một người có tính tò mò, sẵn sàng dành thời gian và công sức để khám phá những linh cảm của mình. Trong báo chí, các biên tập viên gọi nó là nose for news. Không phải tất cả các phóng viên biết tin tức nằm ở đâu. Chỉ những người có nose for news mới có thể cảm nhận được tin tức đến từ đâu. Tò mò cũng quan trọng không kém đối với các nhà khoa học dữ liệu như đối với các nhà báo.

Mô tả công việc của Data Scientist

Một Kỹ sư Khoa học Dữ liệu sẽ tạo ra giá trị cho doanh nghiệp nhờ dữ liệu. Data Scientist sẽ thực thi hai nhiệm vụ chính là: Thu thập, xử lý dữ liệu để tìm ra insight và trình bày các insight với các bên liên đới.

Thu thập, xử lý dữ liệu để tìm ra insight

Lấy một ví dụ đơn giản để bạn dễ hiểu nhé! Một Data Scientist tìm kiếm dữ liệu về hành vi của các doanh nghiệp bán đồ ngọt trên mạng xã hội. Người này nhận ra rằng, cứ đến gần các ngày lễ như Valentine, 8/3, 20/10,… tần suất xuất hiện của các thương hiệu đó cao hơn.

Insight này sẽ giúp bộ phận Marketing của công ty đưa ra các chiến dịch quảng cáo tối ưu nhất cho giai đoạn trước mắt. Gia tăng doanh thu, lợi nhuận và đẩy mạnh thương hiệu. Như vậy, hiểu đơn giản công việc của Data Scientist là nghiên cứu dữ liệu để tìm insight.

Trình bày insight cho các bên liên quan

Sau khi tìm ra insight, nhiệm vụ của Data Scientist là trình bày, giải thích lại cho các bên liên đới. Làm sao để kết quả đạt được là chuyển hóa được insight thành hành động cụ thể, đem lại hiệu quả cho công việc kinh doanh.

Ví dụ, khi tìm được insight từ các data thu thập được rồi, Data Scientist sẽ làm báo cáo hoặc thuyết trình để giải thích lại cho các bên liên quan hiểu được. Các bên liên quan bao gồm ban giám đốc, ban lãnh đạo, bộ phận CNTT, bộ phận Marketing, bộ phận Sales,…

Cần giải thích được insight đó là gì, có ý nghĩa gì đối với công việc kinh doanh. Có ứng dụng nào thật cụ thể, đem lại được lợi ích cho doanh nghiệp/sản phẩm/khách hàng hay không. Có giải pháp nào để phát triển công việc kinh doanh của tổ chức từ insight đó không.

Phân biệt Data Scientist nhánh A và B

Có thể thấy định nghĩa về nghề Data Scientist là gì vẫn còn khá mơ hồ. Kể cả trên thế giới thì khái niệm này vẫn khá nhập nhằng. Nên còn phải tùy thuộc vào từng doanh nghiệp, từng đặc trưng ngành nghề mà mô tả công việc, yêu cầu kỹ năng và job title có thể khác nhau.

Ở nhiều doanh nghiệp, Data Scientist chính là Data Analyst, Machine Learning Engineer và Data Engineer. Tính chất công việc của họ gần như tương đồng nhau, chỉ khác một chút về chức năng công việc mà thôi.

Đối với vị trí Data Scientist, tạm chia luồng công việc ra làm hai nhánh là A (Analysis) và B (Building). Trong đó:

  • Nhánh A có nhiệm vụ chính là phân tích dữ liệu bằng các phương pháp thống kê để tìm ra insight giá trị. Lúc này, Data Scientist chính là Data Analyst.
  • Nhánh B có nhiệm vụ chính là xử lý, lưu trữ dữ liệu, viết code cho các sản phẩm dữ liệu của công ty. Lúc này, Data Scientist chính là một Software Engineer, mạnh về công nghệ phần mềm hơn. Và họ sẽ làm công việc phát triển tính năng cho các sản phẩm của công ty, hoặc làm hẳn sản phẩm mới (ứng dụng di động, phần mềm,…) dựa trên data thu được. Đảm bảo rằng cốt lõi của sản phẩm luôn là model (mô hình dữ liệu) được phát triển bằng machine learning (học máy).

Nhìn chung thì nghề Data Scientist thiên về nhánh B nhiều hơn vì được tách biệt hẳn so với nghề phân tích dữ liệu Data Analyst. Nghiệp vụ của Kỹ sư Khoa học Dữ liệu cũng cũng yêu cầu nhiều về mảng công nghệ thông tin hơn.

Workflow của Data Scientist là gì?

Từ lúc nhận nhiệm vụ để thu thập, xử lý dữ liệu cho đến khi cho ra được một insight giá trị, Data Scientist cần thực hiện công việc qua 6 bước:

Bước 1: Nhận input

Workflow của một Data Scientist bắt đầu với một nhiệm vụ hoặc yêu cầu. Ví dụ: Yêu cầu đặt ra là khả năng tìm kiếm bằng hình ảnh trên Google, tải một bức ảnh lên máy, kết quả sẽ trả về những bức ảnh có nội dung tương tự.

Yêu cầu này có thể do bộ phận lãnh đạo, kinh doanh, marketing,… đưa ra sau khi đã thu thập phản hồi từ khách hàng. Họ yêu cầu phải có thêm tính năng tìm kiếm bằng hình ảnh trên sản phẩm ứng dụng của công ty chẳng hạn.

Hoặc yêu cầu này xuất phát từ chính Data Scientist trong khi làm việc với dữ liệu, nghiên cứu sản phẩm của công ty. Do chính người ngày nảy ra sáng kiến phát triển thêm tính năng tìm kiếm bằng hình ảnh trên sản phẩm của công ty mình.

Bước 2: Lên kế hoạch

Sau khi nhận được yêu cầu, Data Scientist sẽ làm việc với các bên liên đới để làm rõ các thông tin như:

  • Tính năng được đề xuất có khả thi không?
  • Tính năng đó sẽ xuất hiện ở đâu trên sản phẩm?
  • Tính năng đó giúp ích được gì cho người dùng?
  • Để phát triển tính năng đó cần có dữ liệu gì? Tìm dữ liệu ở đâu? Lượng dữ liệu bao nhiêu là đủ? Làm sao để lấy dữ liệu về?
  • Để thu thập dữ liệu, cần bao nhiêu resources, cần bao nhiêu nhân lực và thời gian?

Bước 3: Thu thập và làm sạch dữ liệu

Vẫn tiếp nối ví dụ trên, trong quá trình thu thập dữ liệu, những hình ảnh trả về chưa đạt yêu cầu, như là bị mờ, hình không đúng nội dung,… thì Data Scientist sẽ loại bỏ chúng. Gom hết các dữ liệu lại cho gọn gàng, loại bỏ rác. Nếu thiếu dữ liệu thì tiếp tục kiếm thêm.

Sau đó là đồng bộ hóa dữ liệu. Đưa hết tất cả hình ảnh về cùng một kích thước, cùng một định dạng hoặc tùy theo mô hình đã chọn. Hình ảnh chưa gán nhãn thì gán thêm nhãn. Tất cả các bước này giúp cho dữ liệu thu về cuối cùng được gọn ghẽ và dễ sử dụng nhất.

Bước 4: Chọn giải pháp

Trong trường hợp yêu cầu đưa ra đã có sẵn giải pháp, Data Scientist sẽ lựa chọn hoặc kết hợp các giải pháp lại với nhau. Ví dụ chọn thuật toán nào đó, chạy thử nghiệm, kiểm tra xem thử nghiệm nào cho ra kết quả tốt nhất thì chọn thuật toán đó để phát triển thêm.

Còn nếu yêu cầu chưa có giải pháp thì Data Scientist sẽ research để tìm ra giải pháp. Tìm hiểu xem đã có ai làm yêu cầu này chưa. Giải pháp họ đưa ra là gì, có khả thi không. Liệu có giải pháp nào tốt hơn không. Cuối cùng chọn ra một hoặc vài phương pháp để thử nghiệm.

Bước 5: Machine learning (học máy)

Công việc tiếp theo trong workflow của Data Scientist là gì? Tiếp theo mới là bước dành thời gian cho machine learning. Tùy theo model, công cụ và resource sẵn có trong hệ thống công ty,… Data Scientist sẽ cho model chạy qua chương trình, điều chỉnh để kiểm soát đầu ra.

Khi chạy thử một model, Data Scientist như sở hữu một bảng điều khiển với nhiều nút bấm. Chỉnh nút này một chút, chỉnh nút kia một chút, thấy kết quả tốt hơn thì giữ lại, rồi lại chỉnh tiếp cho đến khi cho ra được kết quả tốt nhất.

Ví dụ với chính yêu cầu tìm kiếm bằng hình ảnh như trên. Data Scientist sẽ điều chỉnh để máy tập trung vào các dấu hiệu quan trọng hơn trong một bức ảnh. Đảm bảo rằng máy sẽ luôn ưu tiên các dấu hiệu đó để nhận diện đúng nội dung hơn mỗi khi nhận được một bức ảnh mới.

Bước 6: Output

Bước cuối cùng trong workflow của Data Scientist chính là đưa ra output. Output của một Kỹ sư Khoa học Dữ liệu chính là một model như đã giới thiệu ở trên. Model này sẽ được gắn vào sản phẩm của doanh nghiệp.

Nếu model đó là một giải pháp mới, thì Data Scientist cần viết báo cáo hoặc tổ chức hội thảo để công bố kết quả nghiên cứu. Tuy nhiên, thường chỉ có các công ty lớn như Google, Meta mới có bộ phận riêng để nghiên cứu dữ liệu.

Với các công ty nhỏ hơn, nhiệm vụ của Data Scientist chủ yếu là chọn ra và hiệu chỉnh model sẵn có, nhằm cải thiện hiệu suất. Vì nhiều khi mô hình tốt, chính xác, nhưng chạy lại quá chậm và tốn tài nguyên thì cũng không đưa vào sử dụng được.

Tố chất và kỹ năng cần có để trở thành Data Scientist

Nghề Data Scientist đòi hỏi rất nhiều kiến thức và kỹ năng tổng hợp trong lĩnh vực CNTT, gồm có machine learning, database, programming languages và visualization. Bên cạnh đó là kiến thức toán học, khả năng lập trình phần mềm và sự nhạy bén với dữ liệu phải tốt.

Không những vậy, Data Scientist còn cần có những tố chất cần thiết là sự kiên nhẫn, kỹ năng giao tiếp tốt và luôn thích khám phá, tìm hiểu và thử nghiệm cái mới. Do dữ liệu sẽ luôn cập nhật liên tục nên Data Scientist cần có đủ sức bền để luôn theo kịp sự đổi mới.

Tình trạng tuyển dụng Data Scientist tại Việt Nam

Những năm gần đây, ngành CNTT của Việt Nam đã đạt được tăng trưởng hấp dẫn trong lĩnh vực khoa học dữ liệu. Ngày càng có nhiều tổ chức sẵn sàng chi tiền cho hoạt động nghiên cứu. Như vậy, rõ ràng đây là một ngành nghề “hot”, rất đáng được thử nghiệm.

Đặc biệt là ở các thành phố lớn, vị trí Data Scientist fresher HCM, Hà Nội, Đà Nẵng,… đang tuyển dụng rất nhiều. Nếu chưa có kinh nghiệm thì bạn hoàn toàn có thể bắt đầu từ vị trí này để học lên dần dần.

Để có được nền tảng kiến thức vững chắc trước khi bước vào nghề này, bạn cần học tốt về machine learning, data mining, database, ngôn ngữ lập trình, JavaScript, system,… Và đừng quên tích lũy kiến thức từ việc làm thực tiễn để có kinh nghiệm thiết thực hơn.

Nếu như bạn yêu thích làm việc với dữ liệu mỗi ngày, có thể đọc tài liệu khoa học liên tục mà không mỏi mệt, và đặc biệt thích machine learning thì hãy theo đuổi nghề Data Scientist nhé! Bài viết trên đây đã giải đáp cặn kẽ giúp bạn Data Scientist là gì cùng cơ hội nghề nghiệp rộng mở.

Về TechX Corp.

TechX Corp. là đối tác AWS tại Việt Nam được thành lập năm 2019 bởi các chuyên gia có trên 15 năm kinh nghiệm đến từ các công ty đa quốc gia và tập đoàn đi đầu về chuyển đổi số. Sứ mệnh của TechX là tạo lập môi trường cho những con người đầy đam mê, nhiệt huyết thỏa sức khám phá và kiến tạo, mang đến những sản phẩm công nghệ đơn giản và thân thiện, góp phần đẩy nhanh quá trình xây dựng một Việt Nam số trên nền tảng công nghệ điện toán đám mây.

TechX 2 năm liền nhận danh hiệu Đối tác AWS của năm – AWS Partner of the Year tại Việt Nam