Bạn đã bao giờ tự hỏi điều gì ẩn sau cụm từ "Kỹ sư AI" chưa? Tôi cũng vậy. Nhìn từ bên ngoài thì nghe có vẻ hào nhoáng, nhưng thực tế, đó là sự kết hợp giữa công việc thiết kế, xử lý dữ liệu hỗn độn, kết nối các hệ thống lại với nhau và kiểm tra tỉ mỉ xem mọi thứ có hoạt động đúng như mong đợi hay không. Nếu bạn muốn phiên bản ngắn gọn: họ biến những vấn đề mơ hồ thành các hệ thống AI hoạt động hiệu quả, không bị sụp đổ khi người dùng thực sự sử dụng. Còn phiên bản dài hơn, có phần hỗn loạn hơn một chút - thì bạn có thể xem bên dưới. Chuẩn bị một tách cà phê nhé! ☕
Những bài viết bạn có thể muốn đọc sau bài này:
🔗 Công cụ AI dành cho kỹ sư: Nâng cao hiệu quả và sự đổi mới
Khám phá các công cụ AI mạnh mẽ giúp nâng cao năng suất và khả năng sáng tạo trong kỹ thuật.
🔗 Liệu các kỹ sư phần mềm có bị trí tuệ nhân tạo thay thế?
Khám phá tương lai của kỹ thuật phần mềm trong kỷ nguyên tự động hóa.
🔗 Ứng dụng kỹ thuật của trí tuệ nhân tạo đang chuyển đổi các ngành công nghiệp
Hãy tìm hiểu cách trí tuệ nhân tạo đang định hình lại các quy trình công nghiệp và thúc đẩy sự đổi mới.
🔗 Làm thế nào để trở thành một kỹ sư trí tuệ nhân tạo?
Hướng dẫn từng bước để bắt đầu hành trình hướng tới sự nghiệp kỹ sư trí tuệ nhân tạo.
Tóm tắt nhanh: Kỹ sư trí tuệ nhân tạo thực sự làm gì? 💡
Ở mức độ đơn giản nhất, kỹ sư trí tuệ nhân tạo thiết kế, xây dựng, vận chuyển và bảo trì các hệ thống trí tuệ nhân tạo. Công việc hàng ngày thường bao gồm:
-
Chuyển đổi những nhu cầu mơ hồ về sản phẩm hoặc kinh doanh thành những thứ mà các mô hình thực sự có thể xử lý được.
-
Thu thập, dán nhãn, làm sạch và - tất nhiên - kiểm tra lại dữ liệu khi nó bắt đầu sai lệch.
-
Lựa chọn và huấn luyện các mô hình, đánh giá chúng bằng các chỉ số phù hợp và ghi lại những điểm mà chúng sẽ thất bại.
-
Đóng gói toàn bộ vào các pipeline MLOps để có thể kiểm thử, triển khai và quan sát.
-
Quan sát nó trong thực tế: độ chính xác, an toàn, công bằng… và điều chỉnh trước khi nó đi chệch hướng.
Nếu bạn đang nghĩ "vậy thì đó là kỹ thuật phần mềm cộng với khoa học dữ liệu và một chút tư duy sản phẩm" - đúng vậy, đại khái là như vậy.
Điều gì làm nên sự khác biệt giữa giỏi và những người còn lại? ✅
Bạn có thể biết mọi bài báo về kiến trúc được xuất bản từ năm 2017 đến nay mà vẫn có thể tạo ra một công trình dễ đổ vỡ. Những người thành công trong vai trò này thường:
-
Hãy suy nghĩ theo hệ thống. Họ nhìn thấy toàn bộ chu trình: dữ liệu đầu vào, quyết định đầu ra, mọi thứ đều có thể theo dõi.
-
Đừng vội vàng tìm kiếm điều kỳ diệu. Hãy thiết lập các tiêu chuẩn cơ bản và thực hiện các kiểm tra đơn giản trước khi thêm thắt sự phức tạp.
-
Tích hợp phản hồi vào quy trình. Đào tạo lại và khôi phục lại phiên bản trước không phải là những tính năng bổ sung, mà là một phần của thiết kế.
-
Hãy ghi chép mọi thứ lại. Những sự đánh đổi, giả định, hạn chế - nghe có vẻ nhàm chán, nhưng sẽ rất hữu ích sau này.
-
Hãy coi trọng trí tuệ nhân tạo có trách nhiệm. Rủi ro không biến mất chỉ bằng sự lạc quan, mà sẽ được ghi nhận và quản lý.
Câu chuyện ngắn: Một nhóm hỗ trợ bắt đầu với một mô hình cơ bản đơn giản gồm các quy tắc và phương thức truy xuất. Điều đó giúp họ có được các bài kiểm tra chấp nhận rõ ràng, vì vậy khi họ thay thế bằng một mô hình lớn hơn sau này, họ có thể dễ dàng so sánh và có phương án dự phòng khi mô hình đó hoạt động không đúng cách.
Vòng đời: thực tế hỗn độn so với sơ đồ gọn gàng 🔁
-
Xác định rõ vấn đề. Định nghĩa mục tiêu, nhiệm vụ và tiêu chí "đủ tốt".
-
Thực hiện quy trình xử lý dữ liệu. Làm sạch, gắn nhãn, chia tách, tạo phiên bản. Liên tục xác thực để phát hiện sự thay đổi cấu trúc dữ liệu.
-
Thử nghiệm mô hình. Hãy thử những phương pháp đơn giản, kiểm tra các chỉ số cơ bản, lặp lại và ghi lại kết quả.
-
Triển khai nó. Các đường dẫn CI/CD/CT, triển khai an toàn, canary, rollback.
-
Hãy theo dõi sát sao. Giám sát độ chính xác, độ trễ, sự sai lệch, tính công bằng và kết quả của người dùng. Sau đó tiến hành huấn luyện lại.
Trên slide, nó trông giống như một vòng tròn gọn gàng. Nhưng trên thực tế, nó giống như tung hứng mì spaghetti với một cái chổi vậy.
Trí tuệ nhân tạo có trách nhiệm khi được áp dụng vào thực tế 🧭
Đây không chỉ là những bài thuyết trình đẹp mắt. Các kỹ sư dựa vào các khuôn khổ để biến rủi ro thành hiện thực:
-
NIST AI RMF cung cấp cấu trúc để phát hiện, đo lường và xử lý rủi ro trong suốt quá trình thiết kế cho đến triển khai [1].
-
Các Nguyên tắc của OECD hoạt động giống như một chiếc la bàn - những hướng dẫn rộng rãi mà nhiều tổ chức tuân theo [2].
Nhiều nhóm cũng tự tạo ra danh sách kiểm tra riêng (đánh giá quyền riêng tư, các bước kiểm soát có sự tham gia của con người) phù hợp với các chu kỳ phát triển này.
Những tài liệu không thể thiếu: Thẻ mô hình & Bảng dữ liệu 📝
Hai loại giấy tờ mà sau này bạn sẽ tự cảm ơn chính mình vì đã chuẩn bị:
-
Thẻ mẫu → nêu rõ mục đích sử dụng, bối cảnh đánh giá, những lưu ý. Được viết sao cho những người phụ trách sản phẩm/pháp lý cũng có thể hiểu được [3].
-
Bảng dữ liệu cho các tập dữ liệu → giải thích lý do dữ liệu tồn tại, nội dung của nó, các sai lệch có thể xảy ra và cách sử dụng an toàn so với không an toàn [4].
Bạn của tương lai (và các đồng đội tương lai) sẽ thầm vỗ tay tán thưởng bạn vì đã viết ra những điều đó.
Phân tích chuyên sâu: đường dẫn dữ liệu, hợp đồng và quản lý phiên bản 🧹📦
Dữ liệu trở nên khó quản lý. Các kỹ sư AI thông minh sẽ thực thi các hợp đồng, tích hợp các cơ chế kiểm tra và giữ các phiên bản gắn liền với mã nguồn để bạn có thể quay lại phiên bản trước đó sau này.
-
Xác thực → mã hóa lược đồ, phạm vi, độ mới; tự động tạo tài liệu.
-
Quản lý phiên bản → đồng bộ hóa các tập dữ liệu và mô hình với các commit Git, để bạn có một nhật ký thay đổi mà bạn thực sự có thể tin tưởng.
Ví dụ nhỏ: Một nhà bán lẻ đã tích hợp kiểm tra lược đồ để chặn các nguồn cấp dữ liệu từ nhà cung cấp chứa đầy giá trị null. Chỉ một biện pháp đơn giản đó đã ngăn chặn tình trạng giảm liên tục của recall@k trước khi khách hàng nhận ra.
Phân tích chuyên sâu: Vận chuyển và mở rộng quy mô 🚢
Việc đưa một mô hình hoạt động trong môi trường sản xuất không chỉ đơn giản là sử dụng `model.fit()` . Bộ công cụ ở đây bao gồm:
-
Docker giúp đóng gói phần mềm một cách nhất quán.
-
Kubernetes dùng để điều phối, mở rộng quy mô và triển khai an toàn.
-
Các framework MLOps dành cho thử nghiệm Canary, phân tách A/B, phát hiện ngoại lệ.
Đằng sau bức màn là các bước kiểm tra sức khỏe, theo dõi, lập lịch CPU so với GPU, tinh chỉnh thời gian chờ. Không hào nhoáng, nhưng hoàn toàn cần thiết.
Phân tích chuyên sâu: Hệ thống GenAI & RAG 🧠📚
Các hệ thống tạo sinh mang đến một khía cạnh khác - khả năng truy xuất thông tin.
-
Sử dụng phép nhúng (embeddings) và tìm kiếm vector để tra cứu độ tương đồng nhanh chóng.
-
điều phối giúp kết nối các bước truy xuất, sử dụng công cụ và xử lý hậu kỳ.
Việc lựa chọn phân đoạn, sắp xếp lại thứ hạng và đánh giá - những quyết định nhỏ này sẽ quyết định bạn nhận được một chatbot cồng kềnh hay một trợ lý đắc lực.
Kỹ năng & công cụ: thực chất có những gì trong bộ công cụ này 🧰
Một bộ sưu tập hỗn hợp các công cụ học máy cổ điển và học sâu:
-
Các framework: PyTorch, TensorFlow, scikit-learn.
-
Hệ thống đường ống: Luồng khí, v.v., cho các công việc theo lịch trình.
-
Môi trường sản xuất: Docker, K8s, các framework phục vụ.
-
Khả năng quan sát: giám sát sự thay đổi giá trị, theo dõi độ trễ, kiểm tra tính công bằng.
Không ai sử dụng mọi thứ . Mấu chốt là phải hiểu đủ về toàn bộ vòng đời sản phẩm để có thể đưa ra những quyết định hợp lý.
Bảng dụng cụ: những thứ mà các kỹ sư thực sự cần đến 🧪
| Dụng cụ | Khán giả | Giá | Vì sao nó tiện lợi |
|---|---|---|---|
| PyTorch | Các nhà nghiên cứu, kỹ sư | Mã nguồn mở | Linh hoạt, đậm chất Python, cộng đồng lớn mạnh, mạng tùy chỉnh. |
| TensorFlow | Các nhóm hướng đến sản phẩm | Mã nguồn mở | Độ sâu hệ sinh thái, TF Serving & Lite dành cho triển khai. |
| scikit-learn | Người dùng ML cổ điển | Mã nguồn mở | Các đường cơ sở tuyệt vời, API gọn gàng, xử lý trước được tích hợp sẵn. |
| Luồng ML | Các nhóm thực hiện nhiều thí nghiệm | Mã nguồn mở | Giúp sắp xếp các bản chạy, mô hình và hiện vật một cách ngăn nắp. |
| Luồng không khí | Những người làm việc trong đường ống | Mã nguồn mở | Đồ thị định hướng không chu trình (DAG), lập lịch và khả năng quan sát là đủ tốt. |
| Docker | Về cơ bản là mọi người | Lõi miễn phí | Môi trường (hầu hết) vẫn vậy. Ít xảy ra những cuộc tranh cãi kiểu "chỉ làm việc được trên máy tính xách tay của tôi". |
| Kubernetes | Các đội có cơ sở hạ tầng lớn | Mã nguồn mở | Tự động mở rộng quy mô, triển khai, sức mạnh cấp doanh nghiệp. |
| Mô hình phục vụ trên K8s | Người dùng mô hình K8s | Mã nguồn mở | Móc câu tiêu chuẩn, móc câu kiểu trôi nổi, có thể điều chỉnh kích thước. |
| Thư viện tìm kiếm vectơ | Thợ xây RAG | Mã nguồn mở | Tính tương đồng nhanh, thân thiện với GPU. |
| Các kho lưu trữ vector được quản lý | Các nhóm RAG doanh nghiệp | Các gói trả phí | Chỉ mục không máy chủ, lọc dữ liệu, độ tin cậy ở quy mô lớn. |
Đúng vậy, cách diễn đạt nghe có vẻ không nhất quán. Việc lựa chọn công cụ thường là như vậy.
Đo lường thành công mà không bị nhấn chìm trong những con số 📏
Các chỉ số quan trọng phụ thuộc vào ngữ cảnh, nhưng thường là sự kết hợp của các yếu tố sau:
-
Chất lượng dự đoán: độ chính xác, độ thu hồi, F1, hiệu chuẩn.
-
Hệ thống + người dùng: độ trễ, p95/p99, độ tăng chuyển đổi, tỷ lệ hoàn thành.
-
Các chỉ số công bằng: bình đẳng, tác động khác biệt - được sử dụng cẩn thận [1][2].
Các chỉ số đo lường tồn tại để làm nổi bật những sự đánh đổi. Nếu chúng không làm được điều đó, hãy thay thế chúng.
Các mô hình hợp tác: đó là một môn thể thao đồng đội 🧑🤝🧑
Các kỹ sư trí tuệ nhân tạo thường làm việc ở điểm giao thoa giữa:
-
Những người phụ trách sản phẩm và lĩnh vực (xác định thành công, các giới hạn).
-
Kỹ sư dữ liệu (nguồn dữ liệu, lược đồ, thỏa thuận mức dịch vụ).
-
An ninh/pháp lý (quyền riêng tư, tuân thủ).
-
Thiết kế/nghiên cứu (thử nghiệm người dùng, đặc biệt là cho GenAI).
-
Vận hành/Kỹ thuật hệ thống (đảm bảo hoạt động liên tục và diễn tập khắc phục sự cố).
Hãy chuẩn bị tinh thần cho những tấm bảng trắng đầy những nét vẽ nguệch ngoạc và những cuộc tranh luận sôi nổi về các chỉ số đo lường - đó là điều bình thường.
Những cạm bẫy: vũng lầy nợ kỹ thuật 🧨
Hệ thống ML thu hút nợ tiềm ẩn: cấu hình rối rắm, phụ thuộc dễ vỡ, tập lệnh kết nối bị lãng quên. Các chuyên gia thiết lập các rào chắn - kiểm tra dữ liệu, cấu hình kiểu, hoàn tác - trước khi đầm lầy phát triển. [5]
Những cách giữ gìn sự tỉnh táo: những thói quen giúp ích 📚
-
Hãy bắt đầu từ những bước nhỏ. Chứng minh quy trình hoạt động hiệu quả trước khi làm phức tạp các mô hình.
-
Các pipeline MLOps. CI cho dữ liệu/mô hình, CD cho dịch vụ, CT cho việc đào tạo lại.
-
Danh sách kiểm tra AI có trách nhiệm. Được ánh xạ tới tổ chức của bạn, với các tài liệu như Thẻ mô hình & Bảng dữ liệu [1][3][4].
Câu hỏi thường gặp được tóm tắt lại bằng một câu duy nhất 🥡
Các kỹ sư AI xây dựng các hệ thống hoàn chỉnh, hữu ích, có thể kiểm thử, có thể triển khai và tương đối an toàn - đồng thời nêu rõ các sự đánh đổi để không ai bị mù mờ.
Tóm tắt 🎯
-
Họ giải quyết các vấn đề phức tạp một cách mơ hồ, xây dựng các hệ thống AI đáng tin cậy thông qua xử lý dữ liệu, mô hình hóa, MLOps và giám sát.
-
Những người giỏi nhất luôn bắt đầu bằng sự đơn giản, đo lường liên tục và ghi chép lại các giả định.
-
AI trong sản xuất = quy trình + nguyên tắc (CI/CD/CT, công bằng khi cần thiết, tư duy quản lý rủi ro được tích hợp).
-
Công cụ chỉ là công cụ. Hãy sử dụng tối thiểu những thứ cần thiết để hoàn thành quá trình: đào tạo → theo dõi → phục vụ → quan sát.
Liên kết tham khảo
-
NIST AI RMF (1.0). Liên kết
-
Nguyên tắc AI của OECD. Liên kết
-
Thẻ mẫu (Mitchell và cộng sự, 2019). Liên kết
-
Bảng dữ liệu cho các tập dữ liệu (Gebru et al., 2018/2021). Liên kết
-
Nợ kỹ thuật tiềm ẩn (Sculley và cộng sự, 2015). Liên kết