Tóm lại: Trí tuệ nhân tạo (AI) sẽ không thay thế hoàn toàn các kỹ sư dữ liệu; nó sẽ tự động hóa các công việc lặp đi lặp lại như soạn thảo câu lệnh SQL, xây dựng cấu trúc đường dẫn dữ liệu, kiểm thử và lập tài liệu. Nếu vai trò của bạn chủ yếu là công việc ít yêu cầu quyền sở hữu, xử lý sự cố theo yêu cầu, thì bạn sẽ dễ bị ảnh hưởng hơn; nếu bạn chịu trách nhiệm về độ tin cậy, định nghĩa, quản trị và xử lý sự cố, thì AI chủ yếu giúp bạn làm việc nhanh hơn.
Những điểm chính cần ghi nhớ:
Trách nhiệm : Ưu tiên trách nhiệm giải trình về kết quả, chứ không chỉ đơn thuần là viết mã nhanh chóng.
Chất lượng : Xây dựng các bài kiểm tra, khả năng giám sát và hợp đồng để đảm bảo quy trình luôn đáng tin cậy.
Quản trị : Giữ quyền kiểm soát truy cập, lưu trữ và nhật ký kiểm toán thuộc về con người.
Khả năng chống lạm dụng : Coi kết quả đầu ra của AI như bản nháp; xem xét lại chúng để tránh tự tin thái quá và đưa ra những nhận định sai lầm.
Thay đổi vai trò : Dành ít thời gian hơn cho việc gõ các đoạn mã lặp đi lặp lại và dành nhiều thời gian hơn cho việc thiết kế các hệ thống bền vững.

Nếu bạn đã dành hơn năm phút tiếp xúc với các nhóm dữ liệu, bạn chắc chắn đã nghe đi nghe lại câu hỏi này - đôi khi được thì thầm, đôi khi được thốt ra trong một cuộc họp như một bước ngoặt bất ngờ: Liệu trí tuệ nhân tạo (AI) có thay thế các kỹ sư dữ liệu?
Và… tôi hiểu rồi. AI có thể tạo ra mã SQL, xây dựng các pipeline, giải thích dấu vết lỗi, lập bản thảo mô hình dbt, thậm chí đề xuất lược đồ kho dữ liệu với độ chính xác đáng kinh ngạc. GitHub Copilot cho SQL Giới thiệu về mô hình dbt GitHub Copilot
Cảm giác như đang xem một chiếc xe nâng học cách tung hứng vậy. Ấn tượng, hơi đáng lo ngại, và bạn không hoàn toàn chắc chắn điều đó có ý nghĩa gì đối với công việc của mình 😅
Nhưng sự thật không gọn gàng như tiêu đề. Trí tuệ nhân tạo (AI) đang hoàn toàn thay đổi kỹ thuật dữ liệu. Nó tự động hóa những công việc nhàm chán, lặp đi lặp lại. Nó giúp xử lý nhanh hơn những khoảnh khắc "Tôi biết mình muốn gì nhưng không nhớ cú pháp". Nó cũng đang tạo ra những kiểu hỗn loạn hoàn toàn mới.
Vậy hãy cùng nhau phân tích vấn đề một cách thấu đáo, không nên quá lạc quan một cách hời hợt hay hoảng loạn vì lướt tin tức tiêu cực.
Những bài viết bạn có thể muốn đọc sau bài này:
🔗 Liệu trí tuệ nhân tạo (AI) có thay thế các bác sĩ X quang?
Trí tuệ nhân tạo trong xử lý hình ảnh sẽ thay đổi quy trình làm việc, độ chính xác và vai trò tương lai của nó như thế nào.
🔗 Liệu trí tuệ nhân tạo (AI) có thay thế được kế toán viên?
Hãy xem những công việc kế toán nào được trí tuệ nhân tạo tự động hóa và những công việc nào vẫn cần đến sự can thiệp của con người.
🔗 Liệu trí tuệ nhân tạo (AI) có thay thế các chuyên viên ngân hàng đầu tư?
Hiểu rõ tác động của AI đối với các giao dịch, nghiên cứu và mối quan hệ khách hàng.
🔗 Liệu trí tuệ nhân tạo (AI) có thay thế các đại lý bảo hiểm?
Tìm hiểu cách trí tuệ nhân tạo (AI) thay đổi quy trình thẩm định bảo hiểm, bán hàng và hỗ trợ khách hàng.
Vì sao câu hỏi "Trí tuệ nhân tạo thay thế kỹ sư dữ liệu" cứ liên tục được đặt ra? 😬
Nỗi sợ hãi xuất phát từ một nguyên nhân rất cụ thể: kỹ thuật dữ liệu có rất nhiều công việc lặp đi lặp lại .
-
Viết và tái cấu trúc SQL
-
Xây dựng các kịch bản nhập dữ liệu
-
Ánh xạ các trường từ lược đồ này sang lược đồ khác
-
Tạo bài kiểm tra và tài liệu cơ bản
-
Gỡ lỗi các sự cố trong quy trình xử lý dữ liệu mà… có thể dự đoán được
Trí tuệ nhân tạo (AI) đặc biệt giỏi trong việc nhận diện các mẫu lặp lại. Và một phần lớn kỹ thuật dữ liệu chính là như vậy - các mẫu được xếp chồng lên nhau. Gợi ý mã của GitHub Copilot
Ngoài ra, hệ sinh thái công cụ hiện tại đang "che giấu" sự phức tạp:
-
Tài liệu Fivetran về các trình kết nối ELT được quản lý
-
Điện toán phi máy chủ AWS Lambda (điện toán phi máy chủ)
-
Cung cấp kho hàng chỉ với một cú nhấp chuột
-
Tài liệu về Apache Airflow (điều phối tự động mở rộng quy mô)
-
Các khung chuyển đổi khai báo (Declarative transformation frameworks) là gì? dbt là gì?
Vậy nên khi AI xuất hiện, nó có thể giống như mảnh ghép cuối cùng. Nếu kiến trúc hệ thống đã được trừu tượng hóa, và AI có thể viết mã kết nối… thì còn gì nữa? 🤷
Nhưng đây là điều mọi người thường bỏ qua: kỹ thuật dữ liệu không chỉ đơn thuần là gõ chữ . Gõ chữ là phần dễ. Phần khó là làm cho thực tế kinh doanh phức tạp, đầy biến động và mang tính chính trị hoạt động như một hệ thống đáng tin cậy.
Và trí tuệ nhân tạo vẫn đang vật lộn với sự mơ hồ đó. Con người cũng vậy - chỉ là họ ứng biến tốt hơn mà thôi.
Công việc thực tế của các kỹ sư dữ liệu cả ngày là gì (sự thật không mấy hào nhoáng) 🧱
Thẳng thắn mà nói, chức danh "Kỹ sư dữ liệu" nghe có vẻ như bạn đang chế tạo động cơ tên lửa từ toán học thuần túy. Nhưng trên thực tế, bạn đang xây dựng niềm tin .
Một ngày điển hình không phải là "phát minh ra các thuật toán mới" mà là:
-
Đàm phán với các nhóm thượng nguồn về định nghĩa dữ liệu (khó khăn nhưng cần thiết)
-
Điều tra lý do tại sao một chỉ số thay đổi (và liệu sự thay đổi đó có thực sự đúng)
-
Xử lý sự thay đổi cấu trúc dữ liệu và những sự cố bất ngờ như "ai đó thêm cột lúc nửa đêm"
-
Đảm bảo các đường ống dẫn dữ liệu có tính bất biến, có thể phục hồi và có thể quan sát được
-
Thiết lập các rào cản để các nhà phân tích ở khâu sau không vô tình tạo ra các bảng điều khiển vô nghĩa
-
Quản lý chi phí để kho hàng của bạn không trở thành một "đống tiền bị đốt cháy" 🔥
-
Bảo mật quyền truy cập, kiểm toán, tuân thủ, chính sách lưu trữ theo nguyên tắc GDPR (Ủy ban Châu Âu), giới hạn lưu trữ (ICO).
-
Xây dựng các sản phẩm dữ liệu mà mọi người thực sự có thể sử dụng mà không cần nhắn tin riêng cho bạn 20 câu hỏi
Một phần lớn công việc liên quan đến các hoạt động xã hội và vận hành:
-
"Ai là chủ sở hữu của cái bàn này?"
-
"Định nghĩa này còn hợp lệ không?"
-
“Tại sao CRM lại xuất ra các bản ghi trùng lặp?”
-
“Liệu chúng ta có thể gửi số liệu này cho ban quản lý mà không gây khó xử không?” 😭
Đúng vậy, trí tuệ nhân tạo có thể giúp ích ở một số khía cạnh. Nhưng thay thế hoàn toàn nó thì… hơi khó.
Điều gì tạo nên một vai trò kỹ sư dữ liệu xuất sắc? ✅
Phần này rất quan trọng vì khi bàn về việc thay thế kỹ sư dữ liệu, người ta thường cho rằng họ chủ yếu là những người "xây dựng đường dẫn dữ liệu". Điều đó giống như việc cho rằng các đầu bếp chủ yếu chỉ "thái rau". Đó là một phần công việc, nhưng không phải là toàn bộ công việc.
Một kỹ sư dữ liệu giỏi thường có thể thực hiện hầu hết các công việc sau:
-
Thiết kế để thích ứng với sự thay đổi
. Dữ liệu thay đổi. Đội ngũ thay đổi. Công cụ thay đổi. Một kỹ sư giỏi xây dựng các hệ thống không sụp đổ mỗi khi thực tế thay đổi 🤧 -
Định nghĩa hợp đồng và kỳ vọng.
"Khách hàng" nghĩa là gì? "Hoạt động" nghĩa là gì? Điều gì xảy ra khi một hàng dữ liệu đến muộn? Hợp đồng giúp ngăn ngừa sự hỗn loạn tốt hơn là mã lập trình phức tạp. Tiêu chuẩn Hợp đồng Dữ liệu Mở (ODCS) ODCS (GitHub) -
Tích hợp khả năng quan sát vào mọi thứ.
Không chỉ là "nó có chạy không" mà còn là "nó có chạy đúng không". Độ mới, sự bất thường về khối lượng, sự bùng nổ dữ liệu rỗng, sự thay đổi phân phối. Khả năng quan sát dữ liệu (Dynatrace) Khả năng quan sát dữ liệu là gì? -
Hãy cân nhắc và đưa ra những sự đánh đổi như người lớn:
Tốc độ so với độ chính xác, chi phí so với độ trễ, tính linh hoạt so với sự đơn giản. Không có quy trình nào hoàn hảo, chỉ có những quy trình mà bạn có thể chấp nhận được. -
Chuyển đổi nhu cầu kinh doanh thành các hệ thống bền vững.
Mọi người yêu cầu số liệu, nhưng điều họ cần là một sản phẩm dữ liệu. Trí tuệ nhân tạo có thể soạn thảo mã, nhưng nó không thể tự nhiên biết được những cạm bẫy kinh doanh. -
Hãy giữ cho dữ liệu im lặng.
Lời khen ngợi cao nhất dành cho một nền tảng dữ liệu là không ai nhắc đến nó. Dữ liệu không gây chú ý là dữ liệu tốt. Giống như hệ thống ống nước vậy. Bạn chỉ nhận ra khi nó bị hỏng 🚽
Nếu bạn đang làm những việc này, câu hỏi “Liệu AI có thay thế các kỹ sư dữ liệu?” nghe có vẻ… hơi sai lệch. AI có thể thay thế các nhiệm vụ , chứ không phải quyền sở hữu .
Nơi trí tuệ nhân tạo đang hỗ trợ các kỹ sư dữ liệu (và điều đó thực sự tuyệt vời) 🤖✨
Trí tuệ nhân tạo không chỉ là tiếp thị. Nếu được sử dụng hiệu quả, nó thực sự là một yếu tố nhân rộng sức mạnh.
1) Tốc độ truy vấn SQL và xử lý chuyển đổi nhanh hơn
-
Soạn thảo các mối nối phức tạp
-
Viết các hàm cửa sổ mà bạn không muốn nghĩ đến
-
Chuyển đổi logic ngôn ngữ thông thường thành khung truy vấn
-
Chuyển đổi các truy vấn phức tạp thành CTE dễ đọc hơn bằng GitHub Copilot for SQL.
Điều này rất quan trọng vì nó giảm thiểu hiệu ứng "trang trắng". Bạn vẫn cần xác thực, nhưng bạn bắt đầu từ 70% thay vì 0%.
2) Gỡ lỗi và tìm ra nguyên nhân gốc rễ
Trí tuệ nhân tạo (AI) khá tốt ở các khía cạnh sau:
-
Giải thích các thông báo lỗi
-
Gợi ý nơi cần tìm kiếm
-
Đề xuất các bước kiểu "kiểm tra sự không khớp lược đồ" trên GitHub Copilot.
Giống như có một kỹ sư trẻ không biết mệt mỏi, không bao giờ ngủ và đôi khi còn tự tin nói dối 😅
3) Làm giàu tài liệu và danh mục dữ liệu
Được tạo tự động:
-
Mô tả cột
-
Tóm tắt mô hình
-
Giải thích về dòng dõi
-
“Bảng này dùng để làm gì?” (bản nháp tài liệu dbt)
Nó không hoàn hảo, nhưng nó đã phá vỡ lời nguyền của các quy trình không được ghi chép lại.
4) Kiểm tra giàn giáo và các công việc kiểm tra khác
Trí tuệ nhân tạo có thể đề xuất:
-
Kiểm tra cơ bản không
-
Kiểm tra tính duy nhất
-
Ý tưởng về tính toàn vẹn tham chiếu
-
Các khẳng định theo kiểu “Chỉ số này không bao giờ được giảm” kiểm thử dữ liệu dbt Kỳ vọng lớn: Kỳ vọng
Một lần nữa - bạn vẫn là người quyết định điều gì quan trọng, nhưng nó giúp tăng tốc các công việc thường nhật.
5) Mã "kết nối" đường ống
Các mẫu cấu hình, khung YAML, bản nháp DAG điều phối. Những thứ đó lặp đi lặp lại và AI "ăn" những thứ lặp đi lặp lại như bữa sáng 🥣 Apache Airflow DAGs
Những khó khăn mà trí tuệ nhân tạo vẫn còn gặp phải (và đây chính là cốt lõi của vấn đề) 🧠🧩
Đây là phần quan trọng nhất, bởi vì nó trả lời câu hỏi về sự thay thế một cách rõ ràng và chi tiết.
1) Sự mơ hồ và định nghĩa thay đổi
Lý lẽ kinh doanh hiếm khi rõ ràng. Mọi người thay đổi ý kiến ngay giữa chừng. "Người dùng hoạt động" trở thành "người dùng trả phí hoạt động" trở thành "người dùng trả phí hoạt động không bao gồm hoàn tiền, trừ một số trường hợp"... bạn hiểu ý tôi mà.
Trí tuệ nhân tạo không thể nắm giữ sự mơ hồ đó. Nó chỉ có thể phỏng đoán.
2) Trách nhiệm giải trình và rủi ro
Khi đường ống dẫn dữ liệu gặp sự cố và bảng điều khiển quản trị hiển thị những thông tin vô lý, ai đó phải xử lý:
-
phân loại
-
truyền đạt tác động
-
sửa nó
-
ngăn ngừa tái phát
-
viết bản báo cáo sau khi chết
-
quyết định xem doanh nghiệp có còn tin tưởng vào số liệu của tuần trước hay không
Trí tuệ nhân tạo có thể hỗ trợ, nhưng nó không thể chịu trách nhiệm một cách có ý nghĩa. Các tổ chức không hoạt động dựa trên cảm tính mà dựa trên trách nhiệm.
3) Tư duy hệ thống
Các nền tảng dữ liệu là các hệ sinh thái: thu thập dữ liệu, lưu trữ, chuyển đổi, điều phối, quản trị, kiểm soát chi phí, thỏa thuận mức dịch vụ (SLA). Một thay đổi ở một lớp sẽ tạo ra những hiệu ứng lan tỏa. Khái niệm Apache Airflow
Trí tuệ nhân tạo có thể đề xuất các giải pháp tối ưu hóa cục bộ nhưng lại gây ra vấn đề toàn cục. Giống như việc sửa một cánh cửa kêu cót két bằng cách tháo bỏ cánh cửa vậy 😬
4) Bảo mật, quyền riêng tư, tuân thủ
Đây là nơi mà những ảo tưởng về sự thay thế tan biến.
-
Kiểm soát truy cập
-
Bảo mật cấp hàng Chính sách truy cập hàng của Snowflake Bảo mật cấp hàng của BigQuery
-
dạng cá nhân (PII) theo Khung bảo mật NIST.
-
Quy tắc lưu giữ Giới hạn lưu trữ (ICO) Hướng dẫn của EU về lưu giữ
-
Nhật ký kiểm toán NIST SP 800-92 (quản lý nhật ký) CIS Control 8 (Quản lý nhật ký kiểm toán)
-
các ràng buộc về nơi lưu trữ dữ liệu
Trí tuệ nhân tạo có thể soạn thảo chính sách, nhưng việc thực thi chúng một cách an toàn mới là kỹ thuật thực sự.
5) Những “điều không biết mà ta không biết”
Các sự cố dữ liệu thường khó lường trước:
-
API của nhà cung cấp âm thầm thay đổi ngữ nghĩa
-
Giả định về múi giờ bị đảo ngược
-
Quá trình sao lưu dữ liệu (backfill) tạo bản sao của một phân vùng
-
Cơ chế thử lại gây ra hiện tượng ghi dữ liệu hai lần
-
Tính năng sản phẩm mới giới thiệu các mô hình sự kiện mới
Trí tuệ nhân tạo (AI) sẽ yếu hơn khi tình huống không tuân theo một khuôn mẫu đã biết.
Bảng so sánh: Cái gì đang làm giảm cái gì, trong thực tế 🧾🤔
Dưới đây là một góc nhìn thực tế. Không phải là "công cụ thay thế con người", mà là các công cụ và phương pháp giúp thu gọn một số nhiệm vụ nhất định.
| Công cụ / phương pháp | Khán giả | Giá cả | Lý do nó hiệu quả |
|---|---|---|---|
| Các trợ lý mã AI (hỗ trợ SQL + Python) GitHub Copilot | Các kỹ sư viết nhiều mã lập trình | Từ miễn phí đến trả phí | Giỏi trong việc xây dựng cấu trúc mã, tái cấu trúc, cú pháp… đôi khi hơi tự mãn theo một cách rất riêng |
| Các trình kết nối ELT được quản lý bởi Fivetran | Các nhóm mệt mỏi vì phải xây dựng hệ thống tiếp nhận dữ liệu | Đăng ký | Loại bỏ cảm giác khó chịu khi uống thuốc, nhưng lại mang đến những trải nghiệm thú vị mới |
| Nền tảng quan sát dữ liệu (Data servability platforms) | Bất kỳ ai sở hữu SLA | Doanh nghiệp vừa và nhỏ | Phát hiện sớm các bất thường - giống như thiết bị báo cháy cho đường ống dẫn dầu 🔔 |
| Khung chuyển đổi (mô hình khai báo) dbt | Phân tích + sự kết hợp DE | Thông thường công cụ + máy tính | Giúp logic trở nên mô-đun và dễ kiểm thử, giảm thiểu sự rối rắm |
| Danh mục dữ liệu + các lớp ngữ nghĩa dbt Lớp ngữ nghĩa | Các tổ chức nhầm lẫn về chỉ số đo lường | Tùy thuộc vào từng trường hợp cụ thể | Định nghĩa "sự thật" một lần duy nhất - giúp giảm bớt những cuộc tranh luận vô bổ về các chỉ số đo lường |
| Điều phối bằng các mẫu Apache Airflow | Các nhóm hướng đến nền tảng | Chi phí mở cửa + vận hành | Chuẩn hóa quy trình làm việc; giảm số lượng DAG riêng lẻ |
| Tạo tài liệu dbt có sự hỗ trợ của AI | Các nhóm ghét viết tài liệu | Giá rẻ đến trung bình | Tạo ra các tài liệu "đủ tốt" để kiến thức không bị mai một |
| Chính sách quản trị tự động Khung bảo mật NIST | Môi trường được quản lý | Doanh nghiệp | Giúp thực thi các quy tắc - nhưng vẫn cần con người thiết kế ra các quy tắc đó |
Hãy để ý xem điều gì bị thiếu: một dòng ghi "nhấn nút để xóa kỹ sư dữ liệu". Ừm... dòng đó không tồn tại 🙃
Vậy… liệu trí tuệ nhân tạo (AI) sẽ thay thế các kỹ sư dữ liệu, hay chỉ đơn thuần là thay đổi vai trò của họ? 🛠️
Câu trả lời không hề kịch tính là: Trí tuệ nhân tạo sẽ thay thế một phần quy trình làm việc, chứ không phải toàn bộ nghề nghiệp.
Nhưng điều đó sẽ định hình lại vai trò. Và nếu bạn phớt lờ điều đó, bạn sẽ cảm thấy bị ép buộc.
Những thay đổi:
-
Tiết kiệm thời gian viết các đoạn văn mẫu
-
Tiết kiệm thời gian tìm kiếm tài liệu
-
Dành nhiều thời gian hơn cho việc xem xét, xác nhận và thiết kế
-
Cần thêm thời gian để xác định hợp đồng và kỳ vọng về chất lượng theo Tiêu chuẩn Hợp đồng Dữ liệu Mở (ODCS)
-
Dành nhiều thời gian hơn để hợp tác với bộ phận sản phẩm, bảo mật và tài chính
Đây là sự thay đổi tinh tế: kỹ thuật dữ liệu không còn chỉ đơn thuần là "xây dựng các đường dẫn dữ liệu" mà tập trung nhiều hơn vào "xây dựng một hệ thống sản phẩm dữ liệu đáng tin cậy"
Và trớ trêu thay, điều đó lại có giá trị hơn chứ không phải ít hơn.
Ngoài ra - và tôi sẽ nói điều này dù nghe có vẻ kịch tính - AI làm tăng số lượng người có thể tạo ra các sản phẩm dữ liệu , điều này làm tăng nhu cầu cần người để duy trì sự ổn định của toàn bộ hệ thống. Sản lượng càng lớn thì khả năng gây nhầm lẫn càng cao. GitHub Copilot
Giống như việc phát cho ai cũng một cái máy khoan điện vậy. Tuyệt vời! Giờ thì cần phải có người giám sát việc "vui lòng không khoan vào đường ống nước" 🪠
Bộ kỹ năng mới vẫn giữ được giá trị (ngay cả khi AI có mặt ở khắp mọi nơi) 🧠⚙️
Nếu bạn muốn một danh sách kiểm tra thực tế "đảm bảo tương lai", nó sẽ trông như thế này:
Tư duy thiết kế hệ thống
-
Mô hình dữ liệu có khả năng thích ứng với sự thay đổi
-
Sự đánh đổi giữa xử lý theo lô và xử lý theo luồng
-
Suy nghĩ về độ trễ, chi phí và độ tin cậy
Kỹ thuật chất lượng dữ liệu
-
Hợp đồng, xác thực, phát hiện bất thường, Tiêu chuẩn hợp đồng dữ liệu mở (ODCS), Khả năng quan sát dữ liệu (Dynatrace)
-
SLA, SLO, thói quen ứng phó sự cố
-
Phân tích nguyên nhân gốc rễ một cách bài bản (không phải dựa vào cảm tính)
Kiến trúc quản trị và tin cậy
-
Mô hình truy cập
-
Khả năng kiểm toán theo tiêu chuẩn NIST SP 800-92 (quản lý nhật ký)
-
Bảo mật theo thiết kế - Khung bảo mật NIST
-
quản lý vòng đời dữ liệu và lưu trữ
Tư duy nền tảng
-
Các mẫu có thể tái sử dụng, những con đường vàng
-
Các mẫu chuẩn hóa cho việc nhập liệu, chuyển đổi và kiểm thử dữ liệu Fivetran
-
Dụng cụ tự phục vụ không bị chảy
Giao tiếp (đúng vậy, thật đấy)
-
Viết tài liệu rõ ràng
-
Điều chỉnh các định nghĩa
-
Nói "không" một cách lịch sự nhưng dứt khoát
-
Giải thích những sự đánh đổi mà không khiến người ta cảm thấy như robot 🤖
Nếu bạn làm được những điều này, câu hỏi “Liệu trí tuệ nhân tạo có thay thế các kỹ sư dữ liệu?” sẽ bớt đáng sợ hơn. Trí tuệ nhân tạo sẽ trở thành khung xương hỗ trợ bạn, chứ không phải là người thay thế bạn.
Các tình huống thực tế dẫn đến việc thu hẹp một số vị trí kỹ sư dữ liệu 📉
Được rồi, hãy nhìn nhận thực tế một chút, vì không phải mọi thứ đều màu hồng và tràn ngập biểu tượng cảm xúc 🎉
Một số vai trò dễ bị lộ diện hơn:
-
Các vai trò chỉ dành riêng cho việc nhập dữ liệu, trong đó mọi thứ đều là các đầu nối tiêu chuẩn, đầu nối Fivetran.
-
Các nhóm chủ yếu thực hiện các quy trình báo cáo lặp đi lặp lại với rất ít kiến thức chuyên môn
-
Các tổ chức nơi kỹ sư dữ liệu được đối xử như "những con khỉ SQL" (nghe có vẻ khắc nghiệt, nhưng đó là sự thật)
-
Các vị trí yêu cầu trách nhiệm thấp, công việc chỉ là xử lý yêu cầu và sao chép dán
Sự kết hợp giữa trí tuệ nhân tạo (AI) và các công cụ được quản lý có thể thu hẹp những nhu cầu đó.
Nhưng ngay cả ở đó, việc thay thế thường diễn ra như sau:
-
Ít người hơn làm cùng một công việc lặp đi lặp lại
-
Chú trọng hơn vào quyền sở hữu nền tảng và độ tin cậy
-
Xu hướng chuyển dịch sang quan điểm “một người có thể hỗ trợ nhiều đường ống dẫn dầu hơn”
Vậy nên, đúng vậy - mô hình nhân sự có thể thay đổi. Vai trò phát triển. Chức danh thay đổi. Điều đó là sự thật.
Tuy nhiên, phiên bản vai trò đòi hỏi quyền sở hữu cao và sự tin tưởng cao vẫn tồn tại.
Tóm tắt kết thúc 🧾✅
Liệu trí tuệ nhân tạo (AI) có thay thế hoàn toàn các kỹ sư dữ liệu? Không phải theo cách hoàn toàn và triệt để như mọi người vẫn tưởng tượng.
Trí tuệ nhân tạo sẽ:
-
tự động hóa các tác vụ lặp đi lặp lại
-
Tăng tốc quá trình lập trình, gỡ lỗi và viết tài liệu GitHub Copilot for SQL dbt documentation
-
giảm chi phí sản xuất đường ống
Nhưng về bản chất, kỹ thuật dữ liệu xoay quanh:
-
trách nhiệm giải trình
-
thiết kế hệ thống
-
Niềm tin, chất lượng và quản trị Tiêu chuẩn Hợp đồng Dữ liệu Mở (ODCS) Khung Bảo mật NIST
-
Chuyển đổi thực tế kinh doanh phức tạp thành các sản phẩm dữ liệu đáng tin cậy
Trí tuệ nhân tạo có thể giúp ích trong việc đó… nhưng nó không “sở hữu” nó.
Nếu bạn là kỹ sư dữ liệu, bước chuyển đổi rất đơn giản (không dễ, nhưng đơn giản):
hãy tập trung vào trách nhiệm, chất lượng, tư duy nền tảng và giao tiếp. Hãy để AI xử lý những công việc lặp đi lặp lại, còn bạn tập trung vào những phần quan trọng.
Và đúng vậy - đôi khi điều đó có nghĩa là phải là người lớn trong đám đông. Không hào nhoáng chút nào. Nhưng lại có sức mạnh thầm lặng đấy 😄
Liệu trí tuệ nhân tạo (AI) có thay thế các kỹ sư dữ liệu?
Thực tế là nó sẽ thay thế một số nhiệm vụ, sắp xếp lại thứ bậc trong nghề và làm cho những kỹ sư dữ liệu giỏi nhất trở nên có giá trị hơn nữa.
Câu hỏi thường gặp
Liệu trí tuệ nhân tạo (AI) có thay thế hoàn toàn các kỹ sư dữ liệu?
Trong hầu hết các tổ chức, AI có nhiều khả năng đảm nhiệm các nhiệm vụ cụ thể hơn là xóa bỏ hoàn toàn vai trò đó. Nó có thể tăng tốc việc soạn thảo SQL, xây dựng cấu trúc đường dẫn dữ liệu, chỉnh sửa tài liệu ban đầu và tạo các bài kiểm tra cơ bản. Nhưng kỹ thuật dữ liệu cũng đi kèm với quyền sở hữu và trách nhiệm giải trình, cộng với công việc không hào nhoáng là biến thực tế kinh doanh phức tạp thành một hệ thống đáng tin cậy. Những phần đó vẫn cần con người để quyết định điều gì là "đúng" và chịu trách nhiệm khi có sự cố xảy ra.
Trí tuệ nhân tạo (AI) đã tự động hóa những khía cạnh nào của kỹ thuật dữ liệu?
Trí tuệ nhân tạo (AI) hoạt động hiệu quả nhất trên các tác vụ lặp đi lặp lại: soạn thảo và chỉnh sửa mã SQL, tạo khung sườn mô hình dbt, giải thích các lỗi thường gặp và lập dàn ý tài liệu. Nó cũng có thể tạo cấu trúc kiểm thử như kiểm tra giá trị null hoặc tính duy nhất và tạo mã "kết nối" mẫu cho các công cụ điều phối. Lợi ích là tạo đà – bạn tiến gần hơn đến một giải pháp hoạt động – nhưng bạn vẫn cần xác thực tính đúng đắn và đảm bảo nó phù hợp với môi trường của mình.
Nếu AI có thể viết SQL và các pipeline, thì các kỹ sư dữ liệu còn lại gì để làm nữa?
Rất nhiều việc: định nghĩa các hợp đồng dữ liệu, xử lý sự thay đổi lược đồ và đảm bảo các đường dẫn dữ liệu có tính bất biến, có thể quan sát được và có thể phục hồi. Các kỹ sư dữ liệu dành thời gian để điều tra những thay đổi về số liệu, xây dựng các biện pháp bảo vệ cho người dùng ở khâu tiếp theo và quản lý sự cân bằng giữa chi phí và độ tin cậy. Công việc thường xoay quanh việc xây dựng lòng tin và giữ cho nền tảng dữ liệu "êm ái", nghĩa là đủ ổn định để không ai phải bận tâm đến nó hàng ngày.
Trí tuệ nhân tạo (AI) thay đổi công việc hàng ngày của một kỹ sư dữ liệu như thế nào?
Thông thường, nó giúp loại bỏ mã lặp lại và thời gian tìm kiếm, nhờ đó bạn dành ít thời gian gõ phím hơn và nhiều thời gian hơn để xem xét, xác nhận và thiết kế. Sự thay đổi này hướng vai trò đến việc xác định kỳ vọng, tiêu chuẩn chất lượng và các mẫu có thể tái sử dụng thay vì tự viết mã mọi thứ. Trên thực tế, bạn có thể sẽ làm việc nhiều hơn với bộ phận sản phẩm, bảo mật và tài chính - bởi vì việc tạo ra sản phẩm kỹ thuật trở nên dễ dàng hơn, nhưng việc quản lý lại khó khăn hơn.
Tại sao trí tuệ nhân tạo lại gặp khó khăn với những định nghĩa kinh doanh mơ hồ như "người dùng hoạt động"?
Bởi vì logic nghiệp vụ không cố định hoặc chính xác - nó thay đổi giữa chừng dự án và khác nhau tùy thuộc vào các bên liên quan. Trí tuệ nhân tạo (AI) có thể đưa ra cách diễn giải, nhưng nó không thể đưa ra quyết định cuối cùng khi các định nghĩa thay đổi hoặc xung đột phát sinh. Kỹ thuật dữ liệu thường đòi hỏi sự đàm phán, ghi lại các giả định và biến các yêu cầu mơ hồ thành các hợp đồng bền vững. Công việc "điều chỉnh phù hợp giữa con người" đó là lý do cốt lõi khiến vai trò này không biến mất ngay cả khi công cụ được cải tiến.
Liệu trí tuệ nhân tạo (AI) có thể xử lý các vấn đề về quản trị dữ liệu, bảo mật và tuân thủ quy định một cách an toàn?
Trí tuệ nhân tạo (AI) có thể giúp soạn thảo chính sách hoặc đề xuất các phương pháp tiếp cận, nhưng việc triển khai an toàn vẫn đòi hỏi kỹ thuật thực sự và sự giám sát cẩn thận. Quản trị bao gồm kiểm soát truy cập, xử lý thông tin cá nhân nhạy cảm (PII), quy tắc lưu giữ, nhật ký kiểm toán và đôi khi cả các hạn chế về nơi cư trú. Đây là những lĩnh vực rủi ro cao, nơi mà sự "gần đúng" là không thể chấp nhận được. Con người phải thiết kế các quy tắc, xác minh việc thực thi và chịu trách nhiệm về kết quả tuân thủ.
Những kỹ năng nào vẫn giữ được giá trị đối với kỹ sư dữ liệu khi trí tuệ nhân tạo ngày càng phát triển?
Các kỹ năng giúp hệ thống trở nên bền vững: tư duy thiết kế hệ thống, kỹ thuật chất lượng dữ liệu và tiêu chuẩn hóa theo định hướng nền tảng. Hợp đồng, khả năng quan sát, thói quen ứng phó sự cố và phân tích nguyên nhân gốc rễ có kỷ luật trở nên quan trọng hơn khi nhiều người có thể tạo ra các bằng chứng dữ liệu một cách nhanh chóng. Giao tiếp cũng trở thành yếu tố tạo nên sự khác biệt - việc thống nhất định nghĩa, viết tài liệu rõ ràng và giải thích các sự đánh đổi mà không gây tranh cãi là một phần quan trọng để giữ cho dữ liệu đáng tin cậy.
Những vị trí kỹ sư dữ liệu nào có nguy cơ bị ảnh hưởng nhiều nhất bởi trí tuệ nhân tạo và các công cụ quản lý tự động?
Các vai trò tập trung hẹp vào việc nhập liệu lặp đi lặp lại hoặc các quy trình báo cáo tiêu chuẩn dễ bị ảnh hưởng hơn, đặc biệt khi các trình kết nối ELT được quản lý bao phủ hầu hết các nguồn dữ liệu. Công việc ít yêu cầu quyền sở hữu và dựa trên phiếu yêu cầu có thể bị thu hẹp do AI và khả năng trừu tượng hóa làm giảm nỗ lực cho mỗi quy trình. Nhưng điều này thường chỉ thể hiện ở việc ít người thực hiện các nhiệm vụ lặp đi lặp lại, chứ không phải là "không còn kỹ sư dữ liệu". Các vai trò yêu cầu quyền sở hữu cao, tập trung vào độ tin cậy, chất lượng và sự tin tưởng sẽ vẫn bền vững.
Tôi nên sử dụng các công cụ như GitHub Copilot hay dbt với trí tuệ nhân tạo như thế nào để tránh gây ra sự hỗn loạn?
Hãy coi kết quả đầu ra của AI như một bản nháp, chứ không phải là một quyết định cuối cùng. Sử dụng nó để tạo khung truy vấn, cải thiện khả năng đọc hiểu, hoặc xây dựng cấu trúc cho các bài kiểm tra và tài liệu dbt, sau đó xác thực bằng dữ liệu thực và các trường hợp ngoại lệ. Kết hợp nó với các quy ước chặt chẽ: hợp đồng, tiêu chuẩn đặt tên, kiểm tra khả năng quan sát và các quy trình đánh giá. Mục tiêu là đẩy nhanh tiến độ mà không làm giảm độ tin cậy, kiểm soát chi phí hoặc quản trị.
Tài liệu tham khảo
-
Ủy ban Châu Âu - Giải thích về bảo vệ dữ liệu: Các nguyên tắc của GDPR - commission.europa.eu
-
Văn phòng Ủy viên Thông tin (ICO) - Giới hạn dung lượng lưu trữ - ico.org.uk
-
Ủy ban Châu Âu - Dữ liệu có thể được lưu giữ trong bao lâu và có cần thiết phải cập nhật dữ liệu không? - commission.europa.eu
-
Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) - Khung Bảo mật Thông tin - nist.gov
-
Trung tâm Tài nguyên An ninh Máy tính NIST (CSRC) - SP 800-92: Hướng dẫn Quản lý Nhật ký An ninh Máy tính - csrc.nist.gov
-
Trung tâm An ninh Internet (CIS) - Quản lý nhật ký kiểm toán (Kiểm soát của CIS) - cisecurity.org
-
Tài liệu Snowflake - Chính sách truy cập hàng - docs.snowflake.com
-
Tài liệu Google Cloud - Bảo mật cấp độ hàng trong BigQuery - docs.cloud.google.com
-
BITOL - Tiêu chuẩn Hợp đồng Dữ liệu Mở (ODCS) v3.1.0 - bitol-io.github.io
-
BITOL (GitHub) - Tiêu chuẩn hợp đồng dữ liệu mở - github.com
-
Apache Airflow - Tài liệu (phiên bản ổn định) - airflow.apache.org
-
Apache Airflow - DAG (các khái niệm cốt lõi) - airflow.apache.org
-
Tài liệu hướng dẫn của dbt Labs - dbt là gì? - docs.getdbt.com
-
Tài liệu hướng dẫn của dbt Labs - Giới thiệu về các mô hình dbt - docs.getdbt.com
-
Tài liệu hướng dẫn của dbt Labs - Tài liệu - docs.getdbt.com
-
Tài liệu hướng dẫn của dbt Labs - Kiểm thử dữ liệu - docs.getdbt.com
-
Tài liệu của dbt Labs - Lớp ngữ nghĩa dbt - docs.getdbt.com
-
Tài liệu hướng dẫn Fivetran - Bắt đầu - fivetran.com
-
Fivetran - Bộ kết nối - fivetran.com
-
Tài liệu AWS - Hướng dẫn dành cho nhà phát triển AWS Lambda - docs.aws.amazon.com
-
GitHub - GitHub Copilot - github.com
-
Tài liệu GitHub - Nhận gợi ý mã trong IDE của bạn với GitHub Copilot - docs.github.com
-
Microsoft Learn - GitHub Copilot for SQL (tiện ích mở rộng cho VS Code) - learn.microsoft.com
-
Tài liệu hướng dẫn Dynatrace - Khả năng quan sát dữ liệu - docs.dynatrace.com
-
DataGalaxy - Khả năng quan sát dữ liệu là gì? - datagalaxy.com
-
Tài liệu hướng dẫn "Những kỳ vọng lớn lao" - Tổng quan về "Kỳ vọng - docs.greatexpectations.io