AI dự đoán xu hướng như thế nào?

AI có thể phát hiện các mô hình mà mắt thường bỏ sót, làm nổi lên những tín hiệu thoạt nhìn tưởng chừng như nhiễu. Nếu làm đúng, nó sẽ biến những hành vi lộn xộn thành những dự đoán hữu ích - doanh số tháng tới, lưu lượng truy cập ngày mai, tỷ lệ khách hàng rời bỏ (churn) vào cuối quý này. Nếu làm sai, nó sẽ chỉ là một cái nhún vai tự tin. Trong hướng dẫn này, chúng ta sẽ tìm hiểu cơ chế chính xác của AI trong việc Dự đoán Xu hướng, nguồn gốc của những thành công và cách tránh bị đánh lừa bởi những biểu đồ đẹp mắt. Tôi sẽ trình bày theo hướng thực tế, với một vài khoảnh khắc trò chuyện thực tế và đôi khi là những cái nhướn mày 🙃.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Cách đo lường hiệu suất AI
Các số liệu chính để đánh giá độ chính xác, hiệu quả và độ tin cậy của hệ thống AI.

🔗 Cách nói chuyện với AI
Mẹo thực tế để giao tiếp với AI nhằm cải thiện chất lượng phản hồi.

🔗 AI đang nhắc nhở điều gì?
Giải thích rõ ràng về cách lời nhắc ảnh hưởng đến hành vi và đầu ra của AI.

🔗 Ghi nhãn dữ liệu AI là gì
Giới thiệu về cách gắn nhãn dữ liệu hiệu quả để đào tạo các mô hình học máy.

Điều gì tạo nên dự đoán xu hướng AI tốt ✅

Khi mọi người hỏi AI dự đoán xu hướng như thế nào, họ thường muốn nói: làm thế nào nó có thể dự đoán một điều gì đó không chắc chắn nhưng lại thường xuyên lặp lại. Một dự đoán xu hướng tốt có một vài yếu tố nhàm chán nhưng thú vị:

Dữ liệu có tín hiệu - bạn không thể vắt nước cam từ đá. Bạn cần các giá trị trong quá khứ và ngữ cảnh.
Các tính năng phản ánh thực tế - tính thời vụ, ngày lễ, chương trình khuyến mãi, bối cảnh vĩ mô, thậm chí cả thời tiết. Không phải tất cả, chỉ những tính năng phù hợp với bạn.
Các mô hình phù hợp với đồng hồ - các phương pháp nhận biết thời gian tôn trọng thứ tự, khoảng cách và độ trôi.
Đánh giá phản ánh quá trình triển khai - kiểm thử ngược mô phỏng cách bạn thực sự dự đoán. Không nhìn trộm [2].
Theo dõi sự thay đổi - thế giới thay đổi; mô hình của bạn cũng nên như vậy [5].

Đó là bộ xương. Phần còn lại là cơ, gân và một ít caffeine.

Đường ống cốt lõi: cách AI dự đoán xu hướng từ dữ liệu thô đến dự báo 🧪

Thu thập và đồng bộ dữ liệu
: Kết hợp chuỗi dữ liệu mục tiêu với các tín hiệu ngoại sinh. Các nguồn dữ liệu điển hình: danh mục sản phẩm, chi tiêu quảng cáo, giá cả, chỉ số kinh tế vĩ mô và sự kiện. Đồng bộ dấu thời gian, xử lý các giá trị thiếu, chuẩn hóa đơn vị. Công việc này không hào nhoáng nhưng vô cùng quan trọng.
Các tính năng kỹ thuật
Tạo độ trễ, trung bình trượt, phân vị di động, cờ ngày trong tuần và các chỉ báo cụ thể theo miền. Để điều chỉnh theo mùa, nhiều chuyên gia phân tích một chuỗi thành các thành phần xu hướng, theo mùa và phần dư trước khi lập mô hình; chương trình X-13 của Cục Điều tra Dân số Hoa Kỳ là tài liệu tham khảo chuẩn mực về cách thức và lý do tại sao điều này hoạt động [1].
Chọn một nhóm gia đình mẫu.
Bạn có ba nhóm lớn:

Thống kê cổ điển: ARIMA, ETS, không gian trạng thái/Kalman. Dễ hiểu và nhanh chóng.
Học máy: tăng cường độ dốc, rừng ngẫu nhiên với các tính năng nhận biết thời gian. Linh hoạt trên nhiều chuỗi.
Học sâu: LSTM, Mạng nơ-ron tích chập thời gian (Temporal CNN), Transformer. Hữu ích khi bạn có nhiều dữ liệu và cấu trúc phức tạp.

Kiểm tra ngược chính xác
Xác thực chéo chuỗi thời gian sử dụng nguồn gốc di động để bạn không bao giờ huấn luyện trên tương lai trong khi kiểm tra quá khứ. Đó là sự khác biệt giữa độ chính xác trung thực và suy nghĩ viển vông [2].
Dự báo, định lượng sự không chắc chắn và gửi
dự đoán Trả về với các khoảng thời gian, theo dõi lỗi và đào tạo lại khi thế giới thay đổi. Các dịch vụ được quản lý thường hiển thị các số liệu về độ chính xác (ví dụ: MAPE, WAPE, MASE) và các cửa sổ kiểm tra ngược ngay lập tức, giúp quản trị và bảng điều khiển dễ dàng hơn [3].

Một câu chuyện ngắn gọn về quá trình ra mắt sản phẩm: trong một lần ra mắt, chúng tôi đã dành thêm một ngày cho các tính năng lịch (ngày lễ khu vực + cờ khuyến mãi) và giảm thiểu đáng kể các lỗi ban đầu hơn là việc thay đổi mẫu mã. Chất lượng tính năng quan trọng hơn sự mới lạ của mẫu mã - một chủ đề bạn sẽ thấy lặp lại.

Bảng so sánh: các công cụ giúp AI dự đoán xu hướng 🧰

Không hoàn hảo một cách cố ý - một chiếc bàn thực sự với một vài nét kỳ quặc của con người.

Công cụ / Ngăn xếp	Khán giả tốt nhất	Giá	Tại sao nó lại hiệu quả... đại loại thế	Ghi chú
Nhà tiên tri	Các nhà phân tích, người sản xuất sản phẩm	Miễn phí	Tính thời vụ + ngày lễ được đưa vào, chiến thắng nhanh chóng	Tuyệt vời cho các đường cơ sở; ổn với các giá trị ngoại lệ
mô hình thống kê ARIMA	Các nhà khoa học dữ liệu	Miễn phí	Nền tảng cổ điển vững chắc - có thể diễn giải được	Cần được chăm sóc với tính ổn định
Dự báo AI của Google Vertex	Các nhóm ở quy mô lớn	Bậc trả phí	AutoML + công cụ tính năng + móc triển khai	Tiện lợi nếu bạn đã sử dụng GCP. Tài liệu rất đầy đủ.
Dự báo của Amazon	Các nhóm dữ liệu/ML trên AWS	Bậc trả phí	Kiểm tra ngược, số liệu chính xác, điểm cuối có thể mở rộng	Các số liệu như MAPE, WAPE, MASE có sẵn [3].
GluonTS	Các nhà nghiên cứu, kỹ sư ML	Miễn phí	Nhiều kiến trúc sâu, có thể mở rộng	Nhiều mã hơn, nhiều quyền kiểm soát hơn
Kats	Người thử nghiệm	Miễn phí	Bộ công cụ của Meta - máy dò, máy dự báo, máy chẩn đoán	Cảm giác quân đội Thụy Sĩ, đôi khi nói chuyện phiếm
Quỹ đạo	Dự báo chuyên nghiệp	Miễn phí	Mô hình Bayesian, khoảng tin cậy	Thật tuyệt nếu bạn thích những điều trước đó
Dự báo PyTorch	Người học sâu	Miễn phí	Công thức nấu ăn DL hiện đại, thân thiện với nhiều dòng sản phẩm	Mang theo GPU, đồ ăn nhẹ

Đúng, cách diễn đạt không đồng đều. Đó là cuộc sống thực tế.

Kỹ thuật tính năng thực sự tạo nên sự thay đổi 🧩

Câu trả lời hữu ích và đơn giản nhất cho cách AI dự đoán xu hướng là: chúng ta biến chuỗi số liệu thành một bảng học có giám sát ghi nhớ thời gian. Một vài bước cần thực hiện:

Độ trễ & cửa sổ: bao gồm y[t-1], y[t-7], y[t-28], cộng với giá trị trung bình lăn và độ lệch chuẩn. Nó nắm bắt được động lượng và quán tính.
Tín hiệu theo mùa: tháng, tuần, ngày trong tuần, giờ trong ngày. Các số hạng Fourier tạo ra đường cong theo mùa mượt mà.
Lịch & sự kiện: ngày lễ, ra mắt sản phẩm, thay đổi giá, khuyến mãi. Các hiệu ứng ngày lễ kiểu Prophet chỉ là các tính năng có thông tin trước đó.
Phân tích: trừ đi một thành phần theo mùa và mô hình hóa phần còn lại khi các mô hình mạnh; X-13 là đường cơ sở được thử nghiệm tốt cho việc này [1].
Các biến hồi quy bên ngoài: thời tiết, chỉ mục vĩ mô, lượt xem trang, sở thích tìm kiếm.
Gợi ý tương tác: các phép so sánh đơn giản như promo_flag × day_of_week. Cách này hơi thô sơ nhưng thường hiệu quả.

Nếu bạn có nhiều chuỗi liên quan - chẳng hạn hàng nghìn SKU - bạn có thể gộp thông tin giữa chúng bằng các mô hình phân cấp hoặc toàn cục. Trên thực tế, một mô hình toàn cục được tăng cường gradient với các tính năng nhận biết thời gian thường có hiệu quả vượt trội.

Chọn gia đình mẫu mực: một cuộc ẩu đả thân thiện 🤼♀️

ARIMA/ETS
: dễ hiểu, nhanh, đường cơ sở vững chắc. Nhược điểm: việc điều chỉnh cho từng chuỗi có thể trở nên phức tạp ở quy mô lớn. Tự tương quan riêng phần có thể giúp tiết lộ thứ tự, nhưng đừng kỳ vọng điều kỳ diệu.
Gradient Boosting
: xử lý các đặc điểm dạng bảng, mạnh mẽ với tín hiệu hỗn hợp, hiệu quả với nhiều chuỗi liên quan. Nhược điểm: bạn phải thiết kế các đặc điểm thời gian tốt và tôn trọng tính nhân quả.
của học sâu
: nắm bắt được tính phi tuyến tính và các mẫu xuyên chuỗi. Nhược điểm: cần nhiều dữ liệu, khó gỡ lỗi hơn. Khi bạn có ngữ cảnh phong phú hoặc lịch sử dài, nó có thể phát huy tối đa hiệu quả; ngược lại, nó giống như một chiếc xe thể thao trong giờ cao điểm.
Mô hình lai và kết hợp:
Thành thật mà nói, việc kết hợp một mô hình cơ bản theo mùa với một mô hình tăng cường độ dốc và pha trộn với một mô hình LSTM nhẹ là một thú vui thầm kín không hiếm gặp. Tôi đã nhiều lần thay đổi quan điểm về "sự thuần túy của một mô hình duy nhất".

Quan hệ nhân quả và tương quan: hãy cẩn thận 🧭

Chỉ vì hai đường ngoằn ngoèo với nhau không có nghĩa là đường này thúc đẩy đường kia. nhân quả Granger xem liệu việc thêm một tác nhân ứng cử viên có cải thiện khả năng dự đoán cho mục tiêu hay không, dựa trên lịch sử của chính nó. Nó liên quan đến tính hữu ích dự đoán theo giả định tự hồi quy tuyến tính, chứ không phải nhân quả triết học - một sự khác biệt tinh tế nhưng quan trọng [4].

Trong quá trình sản xuất, bạn vẫn cần kiểm tra tính hợp lý bằng kiến thức chuyên môn. Ví dụ: hiệu ứng ngày thường rất quan trọng đối với bán lẻ, nhưng việc thêm lượt nhấp vào quảng cáo của tuần trước có thể là thừa nếu chi tiêu đã có trong mô hình.

Kiểm tra ngược & Số liệu: nơi ẩn chứa nhiều lỗi nhất 🔍

Để đánh giá cách AI dự đoán xu hướng một cách thực tế, hãy mô phỏng cách bạn dự báo trong thực tế:

Xác thực chéo nguồn gốc liên tục: huấn luyện lặp lại trên dữ liệu trước đó và dự đoán khối tiếp theo. Điều này tôn trọng thứ tự thời gian và ngăn ngừa rò rỉ trong tương lai [2].
Số liệu lỗi: hãy chọn số liệu phù hợp với quyết định của bạn. Các số liệu phần trăm như MAPE rất phổ biến, nhưng các số liệu có trọng số (WAPE) hoặc không có thang đo (MASE) thường hoạt động tốt hơn đối với danh mục đầu tư và tổng hợp [3].
Khoảng dự đoán: đừng chỉ đưa ra một con số cụ thể. Hãy truyền đạt sự không chắc chắn. Các nhà quản lý cấp cao hiếm khi thích các khoảng giá trị, nhưng họ lại thích ít bất ngờ hơn.

Một lưu ý nhỏ: khi các mục có thể bằng 0, số liệu phần trăm sẽ trở nên kỳ lạ. Nên chọn sai số tuyệt đối hoặc sai số tỷ lệ, hoặc thêm một độ lệch nhỏ - chỉ cần nhất quán.

Sự trôi dạt xảy ra: phát hiện và thích nghi với sự thay đổi 🌊

Thị trường thay đổi, sở thích thay đổi, cảm biến lão hóa. Sự trôi dạt khái niệm là yếu tố then chốt khi mối quan hệ giữa đầu vào và mục tiêu thay đổi. Bạn có thể theo dõi sự trôi dạt bằng các bài kiểm tra thống kê, lỗi cửa sổ trượt hoặc kiểm tra phân phối dữ liệu. Sau đó, hãy chọn một chiến lược: thời gian đào tạo ngắn hơn, đào tạo lại định kỳ hoặc các mô hình thích ứng được cập nhật trực tuyến. Các khảo sát thực địa cho thấy nhiều loại trôi dạt và chính sách thích ứng khác nhau; không có chính sách nào phù hợp với tất cả [5].

Cẩm nang thực tế: thiết lập ngưỡng cảnh báo cho lỗi dự báo trực tiếp, đào tạo lại theo lịch trình và duy trì đường cơ sở dự phòng. Không hào nhoáng nhưng rất hiệu quả.

Khả năng giải thích: mở hộp đen mà không làm vỡ nó 🔦

Các bên liên quan đặt câu hỏi tại sao dự báo lại tăng lên. Điều này hoàn toàn hợp lý. Các công cụ không phụ thuộc vào mô hình như SHAP gán dự đoán cho các đặc điểm theo cách có cơ sở lý thuyết, giúp bạn thấy liệu yếu tố mùa vụ, giá cả hay tình trạng khuyến mãi có ảnh hưởng đến con số đó hay không. Nó không chứng minh được mối quan hệ nhân quả, nhưng nó giúp tăng độ tin cậy và hỗ trợ gỡ lỗi.

Trong thử nghiệm của riêng tôi, tính mùa vụ hàng tuần và các lá cờ khuyến mãi có xu hướng chi phối các dự báo bán lẻ ngắn hạn, trong khi các lá cờ dài hạn lại thiên về các đại diện vĩ mô. Kết quả của bạn sẽ thay đổi theo chiều hướng tích cực.

Đám mây & MLOps: dự báo vận chuyển mà không cần băng keo 🚚

Nếu bạn thích nền tảng được quản lý:

Google Vertex AI Forecast cung cấp quy trình làm việc được hướng dẫn để thu thập chuỗi thời gian, chạy dự báo AutoML, kiểm thử ngược và triển khai các điểm cuối. Công cụ này cũng tương thích tốt với ngăn xếp dữ liệu hiện đại.
Amazon Forecast tập trung vào việc triển khai trên quy mô lớn, với các số liệu kiểm tra ngược và độ chính xác được chuẩn hóa mà bạn có thể lấy thông qua API, giúp ích cho việc quản trị và bảng thông tin [3].

Cả hai cách đều giảm thiểu sự rườm rà. Chỉ cần chú ý đến chi phí và dòng dõi dữ liệu. Cả hai cách - tuy khó khăn nhưng vẫn có thể thực hiện được.

Hướng dẫn chi tiết về một trường hợp: từ những cú nhấp chuột thô sơ đến tín hiệu xu hướng 🧭✨

Hãy tưởng tượng bạn đang dự báo số lượng đăng ký hàng ngày cho một ứng dụng freemium:

Dữ liệu: thu thập số lượng đăng ký hàng ngày, chi tiêu quảng cáo theo kênh, thời gian ngừng hoạt động của trang web và lịch khuyến mãi đơn giản.
Đặc điểm: độ trễ 1, 7, 14; giá trị trung bình động 7 ngày; cờ ngày trong tuần; cờ khuyến mãi nhị phân; một thuật ngữ theo mùa Fourier; và phần dư theo mùa phân rã để mô hình tập trung vào phần không lặp lại. Phân rã theo mùa là một động thái kinh điển trong công việc thống kê chính thức - tên nhàm chán, lợi nhuận lớn [1].
Mô hình: bắt đầu với bộ hồi quy tăng cường độ dốc như một mô hình toàn cục trên mọi địa lý.
Backtest: gốc lăn với các lần gấp hàng tuần. Tối ưu hóa WAPE trên phân khúc kinh doanh chính của bạn. Backtest tuân thủ thời gian là điều không thể thương lượng để có kết quả đáng tin cậy [2].
Giải thích: kiểm tra các thuộc tính tính năng hàng tuần để xem liệu cờ quảng cáo có thực sự có tác dụng gì ngoài việc trông đẹp mắt trên các slide hay không.
Theo dõi: nếu tác động của chương trình khuyến mãi giảm dần hoặc các mẫu ngày trong tuần thay đổi sau khi thay đổi sản phẩm, hãy kích hoạt đào tạo lại. Sự trôi dạt không phải là lỗi - đó là thứ Tư [5].

Kết quả: một dự báo đáng tin cậy với các dải tin cậy, cùng bảng thông tin thể hiện những thay đổi. Ít tranh luận hơn, nhiều hành động hơn.

Những cạm bẫy và huyền thoại cần tránh một cách lặng lẽ 🚧

Lầm tưởng: Nhiều tính năng hơn luôn tốt hơn. Không phải vậy. Quá nhiều tính năng không liên quan sẽ dẫn đến hiện tượng overfitting. Hãy giữ lại những gì hữu ích cho backtest và phù hợp với nhận thức của người dùng.
Huyền thoại: Mạng sâu vượt trội hơn tất cả. Đôi khi đúng, nhưng thường thì không. Nếu dữ liệu ngắn hoặc nhiễu, các phương pháp cổ điển sẽ vượt trội hơn về tính ổn định và minh bạch.
Cạm bẫy: rò rỉ. Việc vô tình để thông tin của ngày mai vào buổi huấn luyện hôm nay sẽ làm tăng số liệu của bạn và gây hại cho năng suất của bạn [2].
Cạm bẫy: chạy theo số thập phân cuối cùng. Nếu chuỗi cung ứng của bạn không đồng đều, việc tranh cãi về sai số giữa 7,3 và 7,4 phần trăm chỉ là trò hề. Hãy tập trung vào ngưỡng quyết định.
Huyền thoại: quan hệ nhân quả từ tương quan. Các bài kiểm tra Granger kiểm tra tính hữu ích của dự đoán, không phải chân lý triết học - hãy sử dụng chúng như những lan can, không phải phúc âm [4].

Danh sách kiểm tra triển khai bạn có thể sao chép và dán 📋

Xác định tầm nhìn, mức độ tổng hợp và quyết định mà bạn sẽ đưa ra.
Xây dựng chỉ số thời gian sạch, điền hoặc đánh dấu khoảng trống và căn chỉnh dữ liệu ngoại sinh.
Độ trễ thủ công, chỉ số lăn, cờ theo mùa và một số tính năng miền mà bạn tin cậy.
Bắt đầu với một đường cơ sở vững chắc, sau đó lặp lại thành một mô hình phức tạp hơn nếu cần.
Sử dụng các bài kiểm tra ngược nguồn gốc liên tục với số liệu phù hợp với doanh nghiệp của bạn [2][3].
Thêm khoảng thời gian dự đoán - không tùy chọn.
Tàu, theo dõi sự trôi dạt và đào tạo lại theo lịch trình cộng với các cảnh báo [5].

Quá dài, tôi chưa đọc hết - Lời kết 💬

Sự thật giản đơn về cách AI dự đoán xu hướng: nó không phải là những thuật toán kỳ diệu mà là thiết kế có kỷ luật, nhạy bén với thời gian. Hãy thu thập dữ liệu và tính năng chính xác, đánh giá trung thực, giải thích đơn giản và điều chỉnh khi thực tế thay đổi. Nó giống như việc dò đài bằng núm vặn hơi nhờn - hơi khó khăn, đôi khi bị nhiễu, nhưng khi đài bắt đầu phát, âm thanh lại trong trẻo đến bất ngờ.

Nếu bạn bỏ qua một điều: tôn trọng thời gian, xác thực như một người hoài nghi, và tiếp tục theo dõi. Phần còn lại chỉ là công cụ và hương vị.

Tài liệu tham khảo

Cục Thống kê Dân số Hoa Kỳ - Chương trình Điều chỉnh Theo mùa X-13ARIMA-SEATS. Liên kết
Hyndman & Athanasopoulos - Dự báo: Nguyên tắc và Thực tiễn (FPP3), §5.10 Kiểm định chéo chuỗi thời gian. Liên kết
Amazon Web Services - Đánh giá độ chính xác của dự báo (Dự báo của Amazon). Liên kết
Đại học Houston - Nguyên nhân Granger (ghi chú bài giảng). Liên kết
Gama và cộng sự - Khảo sát về khả năng thích ứng với sự trôi dạt của khái niệm (phiên bản mở). Liên kết

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog