Tóm lại: Trí tuệ nhân tạo tạo sinh chủ yếu giúp đẩy nhanh quá trình khám phá thuốc giai đoạn đầu bằng cách tạo ra các phân tử hoặc chuỗi protein tiềm năng, đề xuất các lộ trình tổng hợp và đưa ra các giả thuyết có thể kiểm chứng, nhờ đó các nhóm nghiên cứu có thể thực hiện ít thí nghiệm "mù quáng" hơn. Nó hoạt động tốt nhất khi bạn áp đặt các ràng buộc chặt chẽ và xác thực kết quả đầu ra; nếu được sử dụng như một nhà tiên tri, nó có thể đưa ra kết luận sai lệch một cách tự tin.
Những điểm chính cần ghi nhớ:
Tăng tốc : Sử dụng GenAI để mở rộng phạm vi tạo ý tưởng, sau đó thu hẹp lại bằng cách lọc nghiêm ngặt.
Ràng buộc : Cần có phạm vi thuộc tính, quy tắc khung sườn và giới hạn tính mới trước khi tạo.
Kiểm chứng : Coi kết quả đầu ra như các giả thuyết; xác nhận bằng các thử nghiệm và mô hình trực giao.
Khả năng truy vết : Ghi lại các lời nhắc, kết quả đầu ra và lý do để các quyết định luôn được kiểm toán và xem xét lại.
Khả năng chống lạm dụng : Ngăn chặn rò rỉ thông tin và sự tự tin thái quá bằng quản trị, kiểm soát truy cập và xem xét của con người.

Những bài viết bạn có thể muốn đọc sau bài này:
🔗 Vai trò của trí tuệ nhân tạo trong chăm sóc sức khỏe
Trí tuệ nhân tạo (AI) cải thiện chẩn đoán, quy trình làm việc, chăm sóc bệnh nhân và kết quả điều trị như thế nào?.
🔗 Liệu trí tuệ nhân tạo (AI) có thay thế các bác sĩ X quang?
Nội dung này khám phá cách tự động hóa hỗ trợ ngành X quang và những khía cạnh nào vẫn cần đến con người.
🔗 Liệu trí tuệ nhân tạo có thay thế bác sĩ?
Đánh giá thẳng thắn về tác động của trí tuệ nhân tạo đối với công việc và hoạt động hành nghề của bác sĩ.
🔗 Các công cụ phòng thí nghiệm AI tốt nhất cho khám phá khoa học
Các công cụ phòng thí nghiệm AI hàng đầu giúp tăng tốc quá trình thử nghiệm, phân tích và khám phá.
Vai trò của trí tuệ nhân tạo tạo sinh trong việc khám phá thuốc, tóm gọn trong một câu 😮💨
Generative AI) giúp các nhóm nghiên cứu thuốc tạo ra các phân tử ứng cử viên, dự đoán các đặc tính, đề xuất các sửa đổi, đề xuất các lộ trình tổng hợp, khám phá các giả thuyết sinh học và rút ngắn chu kỳ lặp lại - đặc biệt là trong giai đoạn khám phá ban đầu và tối ưu hóa chất dẫn đầu. Nature 2023 (bài đánh giá về khám phá phối tử) Elsevier 2024 (bài đánh giá về các mô hình tạo sinh trong thiết kế thuốc de novo)
Và đúng vậy, nó cũng có thể tự tin tạo ra những điều vô nghĩa. Đó là một phần của vấn đề. Giống như một thực tập sinh rất nhiệt tình với động cơ tên lửa. Hướng dẫn dành cho bác sĩ lâm sàng (nguy cơ ảo giác) npj Y học kỹ thuật số 2025 (ảo giác + khung an toàn)
Vì sao điều này lại quan trọng hơn mọi người thừa nhận 💥
Rất nhiều công trình khám phá là "tìm kiếm". Tìm kiếm trong không gian hóa học, tìm kiếm trong sinh học, tìm kiếm trong tài liệu, tìm kiếm trong các mối quan hệ cấu trúc-chức năng. Vấn đề là không gian hóa học... về cơ bản là vô hạn. (Accounts of Chemical Research 2015 (không gian hóa học) Irwin & Shoichet 2009 (thang đo không gian hóa học))
Bạn có thể dành cả đời người chỉ để thử những biến thể "hợp lý".
Trí tuệ nhân tạo tạo sinh (Generative AI) chuyển đổi quy trình làm việc từ:
-
“Hãy thử xem chúng ta có thể nghĩ ra những gì.”
ĐẾN:
-
“Hãy tạo ra nhiều lựa chọn hơn, thông minh hơn, rồi thử nghiệm những lựa chọn tốt nhất.”
Vấn đề không phải là loại bỏ các thí nghiệm, mà là lựa chọn những thí nghiệm tốt hơn . 🧠 Nature 2023 (bài đánh giá về khám phá phối tử)
Ngoài ra, và điều này ít được thảo luận, nó giúp các nhóm trao đổi thông tin giữa các lĩnh vực khác nhau. Các nhà hóa học, nhà sinh học, chuyên gia DMPK, nhà khoa học tính toán… mỗi người đều có những mô hình tư duy khác nhau. Một hệ thống tạo sinh tốt có thể đóng vai trò như một bảng phác thảo chung. ( Trích dẫn từ bài đánh giá trên tạp chí Frontiers in Drug Discovery năm 2024)
Điều gì tạo nên một phiên bản AI tạo sinh tốt cho việc khám phá thuốc? ✅
Không phải tất cả AI tạo sinh đều giống nhau. Một phiên bản "tốt" trong lĩnh vực này không phải là về các bản demo hào nhoáng mà là về độ tin cậy không phô trương (không phô trương lại là một ưu điểm ở đây). Nature 2023 (bài đánh giá về khám phá phối tử)
Một hệ thống trí tuệ nhân tạo tạo sinh tốt thường có:
-
Nền tảng chuyên môn : được đào tạo hoặc điều chỉnh dựa trên dữ liệu hóa học, sinh học và dược lý (không chỉ là văn bản chung chung) 🧬 Đánh giá của Elsevier năm 2024 (mô hình tạo sinh)
-
Ràng buộc thế hệ đầu tiên : nó có thể tuân theo các quy tắc như phạm vi ưa lipid, ràng buộc khung cấu trúc, đặc điểm vị trí liên kết, mục tiêu chọn lọc JCIM 2024 (mô hình khuếch tán trong thiết kế thuốc de novo) REINVENT 4 (khung mở)
-
Nhận thức về tính chất : nó tạo ra các phân tử không chỉ mới lạ mà còn "không hề vô lý" theo thuật ngữ ADMET. ADMETlab 2.0 (tại sao giai đoạn đầu của ADMET lại quan trọng)
-
Báo cáo về độ không chắc chắn : nó cho biết khi nào chỉ là phỏng đoán so với khi nào là kết quả chắc chắn (ngay cả một dải tin cậy sơ bộ cũng hữu ích). Nguyên tắc xác thực QSAR của OECD (phạm vi áp dụng).
-
Kiểm soát có sự tham gia của con người : các nhà hóa học có thể nhanh chóng điều khiển, loại bỏ và định hướng kết quả đầu ra. Nature 2023 (bối cảnh quy trình làm việc + công nghệ khám phá)
-
Khả năng truy xuất nguồn gốc : bạn có thể thấy lý do tại sao một đề xuất được đưa ra (ít nhất là một phần), hoặc bạn đang làm việc một cách mù quáng. Hướng dẫn QSAR của OECD (tính minh bạch của mô hình + xác thực)
-
Bộ công cụ đánh giá : ghép nối, QSAR, bộ lọc, kiểm tra tổng hợp ngược - tất cả được kết nối với nhau 🔧 Nature 2023 (bài đánh giá về khám phá phối tử) Học máy trong CASP (Coley 2018)
-
Kiểm soát sai lệch và rò rỉ dữ liệu : để tránh việc ghi nhớ dữ liệu huấn luyện một cách âm thầm (đúng vậy, điều đó vẫn xảy ra) USENIX 2021 (trích xuất dữ liệu huấn luyện) Vogt 2023 (các vấn đề về tính mới/độc đáo)
Nếu AI tạo sinh của bạn không thể xử lý các ràng buộc, về cơ bản nó chỉ là một công cụ tạo ra sự mới lạ. Vui vẻ ở các bữa tiệc. Nhưng kém vui hơn trong một chương trình nghiên cứu thuốc.
Ứng dụng của trí tuệ nhân tạo tạo sinh trong toàn bộ quy trình khám phá thuốc 🧭
Đây là sơ đồ tư duy đơn giản. Trí tuệ nhân tạo tạo sinh có thể đóng góp vào hầu hết mọi giai đoạn, nhưng nó hoạt động tốt nhất ở những nơi mà quá trình lặp lại tốn kém và không gian giả thuyết rất lớn. Nature 2023 (bài đánh giá về khám phá phối tử)
Các điểm tiếp xúc chung:
-
Khám phá và xác nhận mục tiêu (giả thuyết, lập bản đồ đường dẫn, đề xuất dấu ấn sinh học) - Bài đánh giá tại hội nghị Frontiers in Drug Discovery năm 2024.
-
Xác định chất tiềm năng (tăng cường sàng lọc ảo, tạo chất tiềm năng mới) Nature Biotechnology 2019 (GENTRL)
-
Tối ưu hóa chất dẫn đầu (đề xuất chất tương tự, điều chỉnh đa tham số) REINVENT 4
-
Hỗ trợ tiền lâm sàng (dự đoán đặc tính ADMET, đôi khi cung cấp gợi ý về công thức) ADMETlab 2.0
-
Lập kế hoạch tổng hợp và CMC (đề xuất tổng hợp ngược, phân loại lộ trình) AiZynthFinder 2020 Coley 2017 (tổng hợp ngược có sự hỗ trợ của máy tính)
-
Công việc trí tuệ (tổng hợp tài liệu, tóm tắt bối cảnh cạnh tranh) 📚 Các mô hình năm 2025 (LLM trong lĩnh vực khám phá thuốc)
Trong nhiều chương trình, những thành công lớn nhất đến từ việc tích hợp quy trình làm việc , chứ không phải từ một mô hình duy nhất nào đó "thiên tài". Mô hình là động cơ - quy trình là chiếc xe. Nature 2023 (bài đánh giá về khám phá phối tử)
Bảng so sánh: Các phương pháp trí tuệ nhân tạo tạo sinh phổ biến được sử dụng trong khám phá thuốc 📊
Một chiếc bàn hơi không hoàn hảo, bởi vì cuộc sống thực vốn dĩ hơi không hoàn hảo.
| Công cụ / Phương pháp | Phù hợp nhất với (đối tượng khán giả) | Giá cả tương đối | Vì sao nó hiệu quả (và khi nào thì không) |
|---|---|---|---|
| Các công cụ tạo phân tử mới (SMILES, đồ thị) | Hóa dược + Hóa học tính toán | $$-$$$ | Giỏi trong việc nhanh chóng khám phá các chất tương tự mới 😎 - nhưng cũng có thể tạo ra những chất không ổn định và không phù hợp. REINVENT 4 GENTRL (Nature Biotech 2019) |
| Máy tạo protein/cấu trúc | Các nhóm sinh học, sinh học cấu trúc | $$$ | Giúp đề xuất các trình tự + cấu trúc - nhưng "có vẻ hợp lý" không đồng nghĩa với "hoạt động hiệu quả" AlphaFold (Nature 2021) RFdiffusion (Nature 2023) |
| Thiết kế phân tử kiểu khuếch tán | Các nhóm ML tiên tiến | $$-$$$$ | Giỏi về điều kiện ràng buộc và tính đa dạng - thiết lập có thể là… cả một vấn đề JCIM 2024 (mô hình khuếch tán) PMC 2025 đánh giá về khuếch tán |
| Các trợ lý dự đoán bất động sản (kết hợp QSAR + GenAI) | DMPK, các nhóm dự án | $$ | Tốt cho việc phân loại và xếp hạng - không tốt nếu coi như chân lý tuyệt đối 😬 OECD (lĩnh vực áp dụng) ADMETlab 2.0 |
| Các nhà lập kế hoạch tổng hợp ngược | Hóa chất quy trình, CMC | $$-$$$ | Tăng tốc quá trình lên ý tưởng tuyến đường - vẫn cần sự tham gia của con người để đánh giá tính khả thi và an toàn. AiZynthFinder 2020 Coley 2018 (CASP) |
| Các trợ lý thí nghiệm đa phương thức (văn bản + dữ liệu xét nghiệm) | Nhóm dịch thuật | $$$ | Hữu ích để trích xuất tín hiệu từ nhiều tập dữ liệu khác nhau - dễ dẫn đến sự tự tin thái quá nếu dữ liệu không đồng nhất. Nature 2024 (hiệu ứng theo lô trong hình ảnh tế bào) npj Digital Medicine 2025 (đa phương thức trong công nghệ sinh học) |
| Trợ lý nghiên cứu văn học và giả thuyết | Mọi người, trên thực tế | $ | Giúp tiết kiệm rất nhiều thời gian đọc - nhưng ảo giác có thể khó nắm bắt, giống như việc tất biến mất vậy. Các mô hình năm 2025 (LLM trong khám phá thuốc) Hướng dẫn dành cho bác sĩ lâm sàng (ảo giác) |
| Các mô hình nền móng nội bộ tùy chỉnh | Các công ty dược phẩm lớn, các công ty công nghệ sinh học được đầu tư mạnh | $$$$ | Kiểm soát và tích hợp tốt nhất - nhưng cũng đắt tiền và xây dựng chậm (xin lỗi, nhưng đó là sự thật) - Bài đánh giá của Frontiers in Drug Discovery năm 2024. |
Ghi chú: Giá cả có thể thay đổi rất nhiều tùy thuộc vào quy mô, năng lực tính toán, giấy phép và việc nhóm của bạn muốn "cắm là chạy" hay "hãy cùng nhau xây dựng một con tàu vũ trụ"
Tìm hiểu kỹ hơn: Trí tuệ nhân tạo tạo sinh cho việc tìm kiếm sản phẩm tiềm năng và thiết kế mới hoàn toàn 🧩
Đây là trường hợp sử dụng chính: tạo ra các phân tử ứng cử viên từ đầu (hoặc từ một khung cấu trúc) phù hợp với hồ sơ mục tiêu. Nature Biotechnology 2019 (GENTRL) REINVENT 4
Cách thức hoạt động điển hình trong thực tế:
-
Xác định các ràng buộc
-
lớp mục tiêu, hình dạng túi liên kết, các phối tử đã biết
-
Các phạm vi tính chất (độ hòa tan, logP, PSA, v.v.) Lipinski (Ngữ cảnh quy tắc 5)
-
Các ràng buộc về tính mới (tránh các vùng sở hữu trí tuệ đã biết) 🧠 Vogt 2023 (đánh giá tính mới)
-
-
Tạo ứng viên
-
nhảy giàn giáo
-
sự phát triển mảnh vỡ
-
“Những gợi ý trang trí cho phần lõi này”
-
Tạo ra nhiều mục tiêu (liên kết + thấm + không độc hại) REINVENT 4 Elsevier 2024 đánh giá (mô hình tạo sinh)
-
-
Lọc mạnh mẽ
-
các quy tắc hóa dược
-
PAINS và các bộ lọc nhóm phản ứng Baell & Holloway 2010 (PAINS)
-
Kiểm tra khả năng tổng hợp AiZynthFinder 2020
-
Ghép nối/chấm điểm (không hoàn hảo nhưng hữu ích) Nature 2023 (bài đánh giá về khám phá phối tử)
-
-
Chọn một tập hợp nhỏ để tổng hợp
-
Con người vẫn hái lượm, bởi vì đôi khi con người có thể ngửi thấy mùi vô nghĩa
-
Sự thật khó chịu: giá trị không chỉ nằm ở "các phân tử mới". Mà là các phân tử mới phù hợp với các ràng buộc của chương trình nghiên cứu . Phần cuối cùng đó mới là tất cả. Nature 2023 (bài đánh giá về khám phá phối tử)
Ngoài ra, tôi xin phép nói hơi quá một chút: khi làm tốt, bạn sẽ có cảm giác như mình đang thuê một đội ngũ các nhà hóa học trẻ không biết mệt mỏi, ngủ không bao giờ phàn nàn. Nhưng mặt khác, họ cũng không hiểu tại sao một chiến lược bảo vệ cụ thể lại là một cơn ác mộng, nên… cần phải cân bằng 😅.
Xem xét kỹ hơn: Tối ưu hóa khách hàng tiềm năng bằng trí tuệ nhân tạo tạo sinh (điều chỉnh đa tham số) 🎛️
Tối ưu hóa khách hàng tiềm năng là nơi mà mọi thứ trở nên phức tạp.
Bạn muốn:
-
tăng cường hiệu lực
-
độ chọn lọc tăng lên
-
sự ổn định trao đổi chất tăng lên
-
độ hòa tan lên
-
tín hiệu an toàn tắt
-
Độ thấm “vừa phải”
-
VÀ vẫn có thể tổng hợp được
Đây là ví dụ kinh điển về tối ưu hóa đa mục tiêu. Trí tuệ nhân tạo tạo sinh đặc biệt giỏi trong việc đề xuất một tập hợp các giải pháp thỏa hiệp thay vì giả vờ rằng có một hợp chất hoàn hảo duy nhất. REINVENT 4 Elsevier 2024 (mô hình tạo sinh))
Các cách thực tiễn mà các nhóm sử dụng nó:
-
Gợi ý tương tự : “Tạo ra 30 biến thể giúp giảm độ thanh thải nhưng vẫn giữ nguyên hiệu lực”.
-
Quét chất thay thế : khám phá có hướng dẫn thay vì liệt kê bằng phương pháp vét cạn.
-
Hiện tượng "nhảy giàn giáo" : khi một lõi gặp phải rào cản (độc tính, IP hoặc độ ổn định)
-
Gợi ý mang tính giải thích : “Nhóm phân cực này có thể giúp tăng khả năng hòa tan nhưng lại có thể làm giảm khả năng thẩm thấu” (không phải lúc nào cũng đúng, nhưng hữu ích)
Một lưu ý: các mô hình dự đoán tính chất có thể không ổn định. Nếu dữ liệu huấn luyện của bạn không khớp với chuỗi hóa học, mô hình có thể sai một cách chắc chắn. Sai rất nhiều. Và nó sẽ không hề xấu hổ. Nguyên tắc xác thực QSAR của OECD (phạm vi áp dụng) Weaver 2008 (phạm vi áp dụng QSAR)
Xem xét kỹ hơn: ADMET, độc tính và quá trình sàng lọc "xin đừng hủy bỏ chương trình" 🧯
ADMET là nơi mà nhiều ứng viên âm thầm thất bại. Trí tuệ nhân tạo tạo sinh không giải quyết được vấn đề sinh học, nhưng nó có thể giảm thiểu những sai lầm có thể tránh được. ADMETlab 2.0 Waring 2015 (tỷ lệ bỏ cuộc)
Các vai trò phổ biến:
-
Dự đoán các rủi ro chuyển hóa (vị trí chuyển hóa, xu hướng thanh thải)
-
Đánh dấu các dấu hiệu độc tính tiềm tàng (cảnh báo, chỉ số đại diện cho các chất trung gian phản ứng)
-
ước tính phạm vi độ hòa tan và độ thấm
-
Đề xuất các điều chỉnh để giảm nguy cơ hERG hoặc cải thiện tính ổn định 🧪 FDA (Hỏi đáp ICH E14/S7B) EMA (Tổng quan ICH E14/S7B)
Mô hình hiệu quả nhất thường trông như thế này: sử dụng GenAI để đề xuất các lựa chọn, nhưng sử dụng các mô hình chuyên biệt và các thí nghiệm để xác minh.
Trí tuệ nhân tạo tạo sinh là động lực thúc đẩy ý tưởng. Việc xác thực vẫn nằm ở các thử nghiệm.
Tìm hiểu kỹ hơn: Trí tuệ nhân tạo tạo sinh cho công nghệ sinh học và kỹ thuật protein 🧬✨
Việc khám phá thuốc không chỉ giới hạn ở các phân tử nhỏ. Trí tuệ nhân tạo tạo sinh (Generative AI) cũng được sử dụng cho:
-
tạo trình tự kháng thể
-
gợi ý về sự trưởng thành của mối quan hệ
-
cải thiện độ ổn định của protein
-
kỹ thuật enzyme
-
Nghiên cứu về liệu pháp peptide ProteinMPNN (Science 2022) Rives 2021 (mô hình ngôn ngữ protein)
Việc tạo ra protein và trình tự có thể rất mạnh mẽ vì "ngôn ngữ" của trình tự tương ứng khá tốt với các phương pháp học máy. Nhưng đây là điểm mấu chốt: nó tương ứng tốt… cho đến khi không còn tốt nữa. Bởi vì các yếu tố như tính sinh miễn dịch, biểu hiện gen, mô hình glycosyl hóa và các ràng buộc về khả năng phát triển có thể rất khắc nghiệt. AlphaFold (Nature 2021) ProteinGenerator (Nat Biotech 2024)
Vì vậy, các cấu hình tốt nhất bao gồm:
-
bộ lọc khả năng phát triển
-
chấm điểm rủi ro sinh miễn dịch
-
hạn chế về khả năng sản xuất
-
Hệ thống tuần hoàn ướt trong phòng thí nghiệm giúp lặp lại quy trình nhanh chóng 🧫
Nếu bạn bỏ qua những phần đó, bạn sẽ có được một chuỗi hình ảnh tuyệt đẹp, nhưng lại mang dáng vẻ "ngôi sao" trong quá trình sản xuất.
Xem xét kỹ hơn: Kế hoạch tổng hợp và các gợi ý về tổng hợp ngược 🧰
Trí tuệ nhân tạo tạo sinh cũng đang len lỏi vào các hoạt động hóa học, chứ không chỉ giới hạn ở việc hình thành ý tưởng phân tử.
Các nhà lập kế hoạch tổng hợp ngược có thể:
-
đề xuất các lộ trình dẫn đến hợp chất mục tiêu
-
đề xuất các nguyên liệu ban đầu có sẵn trên thị trường
-
Xếp hạng các tuyến đường theo số bước hoặc tính khả thi được đánh giá
-
Giúp các nhà hóa học nhanh chóng loại bỏ những ý tưởng "dễ thương nhưng bất khả thi" AiZynthFinder 2020 Coley 2018 (CASP)
Điều này có thể tiết kiệm thời gian thực sự, đặc biệt khi bạn đang khám phá nhiều cấu trúc tiềm năng. Tuy nhiên, yếu tố con người vẫn rất quan trọng ở đây vì:
-
thay đổi về tính sẵn có của thuốc thử
-
Các mối lo ngại về an toàn và quy mô là có thật
-
Một số bước trông có vẻ ổn trên lý thuyết nhưng lại thất bại liên tục
Một phép ẩn dụ không hoàn hảo lắm, nhưng tôi vẫn sẽ dùng nó: trí tuệ nhân tạo tổng hợp ngược giống như một hệ thống định vị GPS, hầu hết đều chính xác, ngoại trừ đôi khi nó dẫn bạn đi qua một cái hồ và khăng khăng đó là đường tắt. 🚗🌊 Coley 2017 (tổng hợp ngược có sự hỗ trợ của máy tính)
Dữ liệu, mô hình đa phương thức và thực tế khắc nghiệt của các phòng thí nghiệm 🧾🧪
Trí tuệ nhân tạo tạo sinh (Generative AI) rất cần dữ liệu. Các phòng thí nghiệm tạo ra dữ liệu. Trên lý thuyết, điều đó nghe có vẻ đơn giản.
Ha. Không.
Dữ liệu thực tế từ phòng thí nghiệm là:
-
chưa hoàn chỉnh
-
ồn ào
-
Đầy rẫy các hiệu ứng theo lô Leek et al. 2010 (hiệu ứng theo lô) Nature 2024 (hiệu ứng theo lô trong chụp ảnh tế bào)
-
rải rác trên nhiều định dạng
-
được ưu ái với những quy ước đặt tên “sáng tạo”
Các hệ thống tạo sinh đa phương thức có thể kết hợp:
-
kết quả xét nghiệm
-
cấu trúc hóa học
-
hình ảnh (kính hiển vi, mô học)
-
omics (transcriptomics, proteomics)
-
Văn bản (giao thức, ELN, báo cáo) npj Y học số 2025 (đa phương thức trong công nghệ sinh học) Phân tích hình ảnh y tế 2025 (trí tuệ nhân tạo đa phương thức trong y học)
Khi nó hoạt động hiệu quả, nó thật tuyệt vời. Bạn có thể phát hiện ra những quy luật không dễ nhận thấy và đề xuất những thí nghiệm mà một chuyên gia đơn lẻ có thể bỏ sót.
Khi thất bại, nó thất bại một cách lặng lẽ. Nó không đóng sầm cửa lại. Nó chỉ nhẹ nhàng đẩy bạn đến một kết luận sai lầm đầy tự tin. Đó là lý do tại sao quản trị, xác thực và xem xét lĩnh vực không phải là tùy chọn. Hướng dẫn dành cho bác sĩ lâm sàng (ảo giác) npj Y học kỹ thuật số 2025 (ảo giác + khung an toàn)
Rủi ro, hạn chế và phần "đừng để bị đánh lừa bởi kết quả trôi chảy" ⚠️
Nếu bạn chỉ nhớ một điều, hãy nhớ điều này: Trí tuệ nhân tạo tạo sinh có sức thuyết phục. Nó có thể nghe có vẻ đúng trong khi thực tế lại sai. Hướng dẫn dành cho các nhà lâm sàng (ảo giác)
Các rủi ro chính:
-
Các cơ chế ảo giác : sinh học hợp lý nhưng không có thật. Hướng dẫn dành cho các nhà lâm sàng (ảo giác)
-
Rò rỉ dữ liệu : tạo ra thứ gì đó quá giống với các hợp chất đã biết USENIX 2021 (trích xuất dữ liệu huấn luyện) Vogt 2023 (mối quan ngại về tính mới/độc đáo)
-
Tối ưu hóa quá mức : theo đuổi các điểm số dự đoán không thể hiện được trong thí nghiệm in vitro. Nature 2023 (bài đánh giá về quá trình khám phá phối tử)
-
Thiên lệch : dữ liệu huấn luyện bị lệch về phía các kiểu hóa học hoặc mục tiêu nhất định Vogt 2023 (đánh giá mô hình + thiên lệch/tính mới)
-
Tính mới lạ giả tạo : các phân tử “mới” thực chất chỉ là những biến thể tầm thường (Vogt 2023).
-
Khoảng trống về khả năng giải thích : khó biện minh cho các quyết định trước các bên liên quan. Nguyên tắc xác thực QSAR của OECD.
-
Vấn đề bảo mật và sở hữu trí tuệ : thông tin chi tiết nhạy cảm về chương trình trong lời nhắc 😬 USENIX 2021 (trích xuất dữ liệu đào tạo)
Các biện pháp giảm thiểu có hiệu quả trong thực tế:
-
Giữ con người tham gia vào quá trình ra quyết định
-
Ghi nhật ký nhắc nhở và đầu ra để theo dõi
-
Xác thực bằng các phương pháp trực giao (thử nghiệm, mô hình thay thế)
-
áp dụng tự động các ràng buộc và bộ lọc
-
Coi kết quả đầu ra như giả thuyết, chứ không phải là chân lý tuyệt đối. Hướng dẫn QSAR của OECD.
Trí tuệ nhân tạo tạo sinh là một công cụ mạnh mẽ. Công cụ mạnh mẽ không biến bạn thành thợ mộc… chúng chỉ khiến bạn mắc lỗi nhanh hơn nếu bạn không biết mình đang làm gì.
Cách các nhóm áp dụng trí tuệ nhân tạo tạo sinh mà không gây hỗn loạn 🧩🛠️
Các nhóm thường muốn sử dụng điều này mà không biến tổ chức thành một cuộc triển lãm khoa học. Một lộ trình áp dụng thực tế trông như sau:
-
Bắt đầu với một nút thắt cổ chai (mở rộng phạm vi tìm kiếm, tạo ra các chất tương tự, sàng lọc tài liệu) Nature 2023 (đánh giá quá trình khám phá phối tử)
-
Xây dựng một quy trình đánh giá chặt chẽ (bộ lọc + ghép nối + kiểm tra thuộc tính + xem xét hóa học) REINVENT 4 AiZynthFinder 2020
-
Đo lường kết quả (thời gian tiết kiệm được, tỷ lệ thành công, giảm tỷ lệ bỏ việc) Waring 2015 (tỷ lệ bỏ việc)
-
Tích hợp với các công cụ hiện có (ELN, sổ đăng ký hợp chất, cơ sở dữ liệu xét nghiệm) Tài nguyên ELN Edinburgh
-
Thiết lập quy tắc sử dụng (những gì có thể được yêu cầu, những gì được giữ ngoại tuyến, các bước xem xét) USENIX 2021 (rủi ro trích xuất dữ liệu)
-
Hãy huấn luyện mọi người một cách nhẹ nhàng (thực sự, hầu hết các lỗi đều do sử dụng sai cách, chứ không phải do mô hình) Hướng dẫn dành cho các nhà lâm sàng (ảo giác)
Ngoài ra, đừng đánh giá thấp yếu tố văn hóa. Nếu các nhà hóa học cảm thấy bị ép buộc sử dụng AI, họ sẽ phớt lờ nó. Nhưng nếu nó giúp họ tiết kiệm thời gian và tôn trọng chuyên môn của họ, họ sẽ nhanh chóng áp dụng. Con người vốn dĩ là như vậy đấy 🙂.
Nhìn tổng quan, vai trò của trí tuệ nhân tạo tạo sinh trong việc khám phá thuốc là gì? 🔭
Nhìn tổng thể, vai trò không phải là "thay thế các nhà khoa học", mà là "mở rộng năng lực khoa học". (Nature 2023 (bài đánh giá về khám phá phối tử))
Nó giúp các đội:
-
khám phá thêm nhiều giả thuyết mỗi tuần
-
đề xuất nhiều cấu trúc ứng cử viên hơn mỗi chu kỳ
-
ưu tiên các thí nghiệm một cách thông minh hơn
-
Rút ngắn các vòng lặp lặp lại giữa thiết kế và kiểm thử
-
Chia sẻ kiến thức giữa các bộ phận khác nhau. Mô hình 2025 (LLM trong khám phá thuốc)
Và có lẽ phần bị đánh giá thấp nhất là: nó giúp bạn không lãng phí sự sáng tạo quý giá của con người vào những công việc lặp đi lặp lại. Mọi người nên tập trung suy nghĩ về cơ chế, chiến lược và cách diễn giải - chứ không phải dành nhiều ngày để tự tay lập ra các danh sách biến thể. (Nature 2023 (bài đánh giá về khám phá phối tử))
Vậy nên, đúng vậy, vai trò của trí tuệ nhân tạo tạo sinh trong việc khám phá thuốc là một chất xúc tác, một công cụ tạo ra, một bộ lọc, và đôi khi là một kẻ gây rắc rối. Nhưng đó là một vai trò có giá trị.
Tóm tắt kết thúc 🧾✅
tạo tạo sinh (Generative AI) đang trở thành một khả năng cốt lõi trong việc khám phá thuốc hiện đại vì nó có thể tạo ra các phân tử, giả thuyết, trình tự và lộ trình nhanh hơn con người - và nó có thể giúp các nhóm lựa chọn các thí nghiệm tốt hơn. (Bài đánh giá trên Frontiers in Drug Discovery năm 2024, Nature năm 2023 (bài đánh giá về khám phá phối tử))
Tóm tắt các điểm chính:
-
Nó hiệu quả nhất trong việc khám phá sớm và tối ưu hóa các vòng lặp tìm kiếm khách hàng tiềm năng ⚙️ TÁI TẠO 4
-
Nó hỗ trợ các phân tử nhỏ và các sản phẩm sinh học GENTRL (Nature Biotech 2019) ProteinMPNN (Science 2022)
-
Nó thúc đẩy năng suất bằng cách mở rộng kênh ý tưởng (Nature 2023 - bài đánh giá về khám phá phối tử).
-
Cần có những ràng buộc, sự xác thực và sự tham gia của con người để tránh những điều vô lý đầy tự tin. Nguyên tắc QSAR của OECD. Hướng dẫn dành cho các nhà lâm sàng (ảo giác).
-
Những thành công lớn nhất đến từ việc tích hợp quy trình làm việc , chứ không phải từ những chiêu trò tiếp thị hào nhoáng. Nature 2023 (bài đánh giá về khám phá phối tử)
Nếu bạn coi nó như một cộng tác viên - chứ không phải là một nhà tiên tri - nó thực sự có thể thúc đẩy các chương trình tiến lên. Và nếu bạn coi nó như một nhà tiên tri… thì có lẽ bạn sẽ lại đi theo cái GPS đó xuống hồ lần nữa đấy. 🚗🌊
Câu hỏi thường gặp
Trí tuệ nhân tạo tạo sinh đóng vai trò gì trong việc khám phá thuốc?
Trí tuệ nhân tạo tạo sinh (Generative AI) chủ yếu mở rộng phạm vi ý tưởng trong giai đoạn khám phá ban đầu và tối ưu hóa chất dẫn đầu bằng cách đề xuất các phân tử ứng cử viên, trình tự protein, lộ trình tổng hợp và giả thuyết sinh học. Giá trị của nó không nằm ở việc "thay thế các thí nghiệm" mà là "lựa chọn các thí nghiệm tốt hơn" bằng cách tạo ra nhiều lựa chọn và sau đó lọc kỹ lưỡng. Nó hoạt động hiệu quả nhất như một công cụ tăng tốc trong một quy trình làm việc có kỷ luật, chứ không phải là một công cụ ra quyết định độc lập.
Trí tuệ nhân tạo tạo sinh (generative AI) hoạt động hiệu quả nhất ở những giai đoạn nào trong quy trình khám phá thuốc?
Phương pháp này thường mang lại giá trị cao nhất khi không gian giả thuyết rộng lớn và quá trình lặp lại tốn kém, chẳng hạn như xác định hợp chất tiềm năng, thiết kế de novo và tối ưu hóa hợp chất dẫn đầu. Các nhóm cũng sử dụng nó để phân loại ADMET, đề xuất tổng hợp ngược và hỗ trợ tài liệu hoặc giả thuyết. Lợi ích lớn nhất thường đến từ việc tích hợp quá trình tạo ra kết quả với các bộ lọc, chấm điểm và đánh giá của con người, thay vì kỳ vọng một mô hình duy nhất sẽ "thông minh"
Làm thế nào để thiết lập các ràng buộc sao cho các mô hình tạo sinh không tạo ra các phân tử vô dụng?
Một cách tiếp cận thực tiễn là xác định các ràng buộc trước khi tạo ra phân tử: phạm vi thuộc tính (như độ hòa tan hoặc mục tiêu logP), quy tắc khung hoặc cấu trúc con, đặc điểm vị trí liên kết và giới hạn tính mới. Sau đó, áp dụng các bộ lọc hóa dược (bao gồm PAINS/nhóm phản ứng) và kiểm tra khả năng tổng hợp. Việc tạo phân tử theo ràng buộc trước tiên đặc biệt hữu ích với thiết kế phân tử kiểu khuếch tán và các khung như REINVENT 4, nơi có thể mã hóa các mục tiêu đa chiều.
Các nhóm nên làm thế nào để xác thực kết quả đầu ra của GenAI nhằm tránh ảo giác và sự tự tin thái quá?
Hãy coi mỗi kết quả đầu ra là một giả thuyết, chứ không phải là một kết luận, và xác thực chúng bằng các thử nghiệm và mô hình trực giao. Kết hợp việc tạo ra mô hình với việc lọc, ghép nối hoặc chấm điểm mạnh mẽ khi thích hợp, và kiểm tra phạm vi áp dụng cho các mô hình dự đoán kiểu QSAR. Làm cho sự không chắc chắn trở nên rõ ràng khi có thể, bởi vì các mô hình có thể sai một cách chắc chắn về mặt hóa học nằm ngoài phạm vi phân bố hoặc các tuyên bố sinh học không đáng tin cậy. Việc xem xét có sự tham gia của con người vẫn là một tính năng an toàn cốt lõi.
Làm thế nào để ngăn chặn rò rỉ dữ liệu, rủi ro sở hữu trí tuệ và các kết quả đầu ra được "lưu trữ"?
Sử dụng các biện pháp quản trị và kiểm soát truy cập để tránh việc các chi tiết nhạy cảm của chương trình bị đưa vào các lời nhắc một cách tùy tiện, và ghi nhật ký các lời nhắc/kết quả đầu ra để phục vụ cho việc kiểm toán. Thực thi các kiểm tra tính mới lạ và tương đồng để đảm bảo các ứng viên được tạo ra không quá giống với các hợp chất đã biết hoặc các vùng được bảo vệ. Duy trì các quy tắc rõ ràng về dữ liệu nào được phép đưa vào các hệ thống bên ngoài, và ưu tiên môi trường được kiểm soát cho các công việc có tính nhạy cảm cao. Việc xem xét của con người giúp phát hiện sớm các đề xuất "quá quen thuộc".
Trí tuệ nhân tạo tạo sinh được sử dụng như thế nào để tối ưu hóa khách hàng tiềm năng và điều chỉnh đa tham số?
Trong tối ưu hóa chất dẫn đầu, trí tuệ nhân tạo tạo sinh rất có giá trị vì nó có thể đề xuất nhiều giải pháp đánh đổi thay vì chỉ theo đuổi một hợp chất “hoàn hảo” duy nhất. Các quy trình làm việc phổ biến bao gồm đề xuất chất tương tự, quét nhóm thế có hướng dẫn và thay đổi khung cấu trúc khi các ràng buộc về hiệu lực, độc tính hoặc sở hữu trí tuệ cản trở tiến trình. Các công cụ dự đoán thuộc tính có thể không ổn định, vì vậy các nhóm thường xếp hạng các ứng viên bằng nhiều mô hình khác nhau và sau đó xác nhận các lựa chọn tốt nhất bằng thực nghiệm.
Liệu trí tuệ nhân tạo tạo sinh (generative AI) có thể hỗ trợ trong lĩnh vực sinh học và kỹ thuật protein không?
Đúng vậy - các nhóm sử dụng nó để tạo chuỗi kháng thể, phát triển ý tưởng về khả năng trưởng thành ái lực, cải thiện độ ổn định và khám phá enzyme hoặc peptide. Việc tạo ra protein/chuỗi có thể trông khả thi nhưng chưa chắc đã khả thi về mặt phát triển, vì vậy điều quan trọng là phải áp dụng các bộ lọc về khả năng phát triển, tính sinh miễn dịch và khả năng sản xuất. Các công cụ cấu trúc như AlphaFold có thể hỗ trợ lập luận, nhưng "cấu trúc khả thi" vẫn không phải là bằng chứng về sự biểu hiện, chức năng hoặc độ an toàn. Các thí nghiệm trong phòng thí nghiệm vẫn rất cần thiết.
Trí tuệ nhân tạo tạo sinh hỗ trợ việc lập kế hoạch tổng hợp và tổng hợp ngược như thế nào?
Các công cụ lập kế hoạch tổng hợp ngược có thể đề xuất các lộ trình, nguyên liệu ban đầu và thứ tự ưu tiên của các lộ trình để đẩy nhanh quá trình hình thành ý tưởng và nhanh chóng loại bỏ các con đường không khả thi. Các công cụ và phương pháp như lập kế hoạch kiểu AiZynthFinder hiệu quả nhất khi được kết hợp với các kiểm tra tính khả thi thực tế từ các nhà hóa học. Tính sẵn có, an toàn, hạn chế về quy mô và các "phản ứng trên giấy" thất bại trong thực tế vẫn cần đến sự đánh giá của con người. Khi được sử dụng theo cách này, nó giúp tiết kiệm thời gian mà không cần phải tuyên bố rằng hóa học đã được giải quyết hoàn toàn.
Tài liệu tham khảo
-
Nature - Bài đánh giá về quá trình khám phá phối tử (2023) - nature.com
-
Công nghệ sinh học tự nhiên - GENTRL (2019) - nature.com
-
Thiên nhiên - AlphaFold (2021) - nature.com
-
Thiên nhiên - RFdiffusion (2023) - nature.com
-
Công nghệ sinh học tự nhiên - ProteinGenerator (2024) - nature.com
-
Nature Communications - Hiệu ứng theo lô trong chụp ảnh tế bào (2024) - nature.com
-
npj Y học kỹ thuật số - Ảo giác + khung an toàn (2025) - nature.com
-
npj Y học kỹ thuật số - Đa phương thức trong công nghệ sinh học (2025) - nature.com
-
Khoa học - ProteinMPNN (2022) - science.org
-
Mô hình tế bào - Mô hình LLM trong khám phá thuốc (2025) - cell.com
-
ScienceDirect (Elsevier) - Mô hình tạo sinh trong thiết kế thuốc mới (2024) - sciencedirect.com
-
ScienceDirect (Elsevier) - Vogt (2023): Mối quan ngại về tính mới/độc đáo - sciencedirect.com
-
Phân tích hình ảnh y tế (ScienceDirect) - Trí tuệ nhân tạo đa phương thức trong y học (2025) - sciencedirect.com
-
PubMed Central - Hướng dẫn dành cho bác sĩ lâm sàng (nguy cơ ảo giác) - nih.gov
-
Tạp chí Nghiên cứu Hóa học (Ấn phẩm của ACS) - Không gian hóa học (2015) - acs.org
-
PubMed Central - Irwin & Shoichet (2009): thang đo không gian hóa học - nih.gov
-
Tạp chí Frontiers in Drug Discovery (PubMed Central) - Bài đánh giá (2024) - nih.gov
-
Tạp chí Thông tin và Mô hình Hóa học (Ấn phẩm của ACS) - Mô hình khuếch tán trong thiết kế thuốc mới (2024) - acs.org
-
PubMed Central - REINVENT 4 (khung mở) - nih.gov
-
PubMed Central - ADMETlab 2.0 (những vấn đề ban đầu của ADMET) - nih.gov
-
OECD - Nguyên tắc thẩm định mô hình (Q)SAR phục vụ mục đích quản lý - oecd.org
-
OECD - Tài liệu hướng dẫn về việc xác thực các mô hình (Q)SAR - oecd.org
-
Tạp chí Nghiên cứu Hóa học (Ấn phẩm của ACS) - Lập kế hoạch tổng hợp hỗ trợ bằng máy tính / CASP (Coley, 2018) - acs.org
-
ACS Central Science (ACS Publications) - Tổng hợp ngược có hỗ trợ máy tính (Coley, 2017) - acs.org
-
PubMed Central - AiZynthFinder (2020) - nih.gov
-
PubMed - Lipinski: Quy tắc 5 trong ngữ cảnh - nih.gov
-
Tạp chí Hóa học Y dược (Ấn phẩm của ACS) - Baell & Holloway (2010): PAINS - acs.org
-
PubMed - Waring (2015): sự hao hụt - nih.gov
-
PubMed - Rives (2021): mô hình ngôn ngữ protein - nih.gov
-
PubMed Central - Leek et al. (2010): hiệu ứng lô - nih.gov
-
PubMed Central - Đánh giá về sự lan truyền (2025) - nih.gov
-
FDA - E14 và S7B: Đánh giá lâm sàng và phi lâm sàng về sự kéo dài khoảng QT/QTc và tiềm năng gây loạn nhịp tim (Hỏi & Đáp) - fda.gov
-
Cơ quan Dược phẩm Châu Âu - Tổng quan về hướng dẫn ICH E14/S7B - europa.eu
-
USENIX - Carlini và cộng sự (2021): trích xuất dữ liệu huấn luyện từ các mô hình ngôn ngữ - usenix.org
-
Đại học Edinburgh – Dịch vụ Nghiên cứu Kỹ thuật số - Tài nguyên sổ tay thí nghiệm điện tử (ELN) - ed.ac.uk
-
ScienceDirect (Elsevier) - Weaver (2008): Phạm vi ứng dụng của QSAR - sciencedirect.com