Google, Microsoft, Anthropic chạy đua bịt lỗ hổng nguy hiểm của AI

Sơn Vân11:38 04/11/2025

Google DeepMind, Microsoft, Anthropic đang cố gắng ngăn chặn kiểu tấn công chèn prompt gián tiếp bởi hacker.

Các đội ngũ trí tuệ nhân tạo (AI) hàng đầu thế giới đang tăng cường nỗ lực để giải quyết một lỗ hổng bảo mật nghiêm trọng trong các mô hình ngôn ngữ lớn của họ. Đây là lỗ hổng có thể bị tội phạm mạng khai thác.

Google DeepMind, Anthropic, OpenAI và Microsoft nằm trong số những bên đang cố gắng ngăn chặn cái gọi là tấn công chèn prompt (lệnh) gián tiếp, trong đó bên thứ ba giấu các lệnh trong những trang web hoặc email được thiết kế để đánh lừa mô hình AI tiết lộ thông tin trái phép, chẳng hạn dữ liệu mật.

“AI đang bị các tác nhân mạng sử dụng ở mọi mắt xích của cuộc tấn công vào lúc này”, Jacob Klein, người đứng đầu đội tình báo về mối đe dọa tại công ty khởi nghiệp AI Anthropic, cho hay.

Các nhóm AI đang sử dụng nhiều kỹ thuật khác nhau, gồm thuê những người kiểm thử bên ngoài và sử dụng công cụ chạy bằng AI, để phát hiện và giảm thiểu việc sử dụng ác ý công nghệ mạnh mẽ của họ. Thế nhưng, các chuyên gia cảnh báo ngành công nghiệp vẫn chưa giải quyết được cách ngăn chặn các tấn công chèn prompt gián tiếp.

Một phần của vấn đề là mô hình ngôn ngữ lớn được thiết kế để tuân theo hướng dẫn, hiện không phân biệt được giữa các lệnh hợp pháp từ người dùng và đầu vào không nên tin cậy. Đây cũng là lý do khiến các mô hình AI dễ bị jailbreak.

Jailbreak là hình thức thao túng để vượt qua các rào cản bảo mật và buộc mô hình AI thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.

Jacob Klein cho biết Anthropic đã hợp tác với các chuyên gia kiểm thử bên ngoài để giúp mô hình Claude của mình chống chịu tốt hơn các cuộc tấn công chèn prompt gián tiếp. Anthropic cũng có các công cụ AI để phát hiện khi những việc đó có thể đang diễn ra.

“Khi chúng tôi phát hiện mô hình AI bị sử dụng vào mục đích xấu, tùy vào mức độ nghi ngờ, hệ thống có thể tự động kích hoạt biện pháp ngăn chặn. Nếu mức độ rủi ro cao hoặc không chắc chắn, chúng tôi sẽ chuyển cho nhân viên kiểm tra thủ công”, ông cho biết thêm.

Google DeepMind sử dụng một kỹ thuật gọi là red teaming (đội đỏ) tự động, nơi các nhà nghiên cứu nội bộ liên tục tấn công mô hình Gemini của họ một cách thực tế để khám phá các điểm yếu bảo mật tiềm ẩn.

Dù những lỗ hổng này gây ra những rủi ro lớn, các chuyên gia cho rằng AI cũng đang giúp tăng cường khả năng phòng thủ của Google DeepMind trước các cuộc tấn công mạng.

Nhiều hacker đang sử dụng các cuộc tấn công chèn prompt gián tiếp để lừa mô hình AI tiết lộ thông tin trái phép – Getty Images

Vào tháng 5, Trung tâm An ninh Mạng Quốc gia của Vương quốc Anh cảnh báo rằng lỗ hổng này đặt ra mối đe dọa gia tăng, vì có nguy cơ khiến hàng triệu công ty cùng cá nhân sử dụng mô hình ngôn ngữ lớn lẫn chatbot bị nhắm tới các cuộc tấn công lừa đảo (phishing) và chiêu trò tinh vi.

Mô hình ngôn ngữ lớn còn có một lỗ hổng lớn khác, nơi người ngoài có thể tạo cửa sau và khiến chúng hoạt động sai bằng cách chèn tài liệu độc hại vào dữ liệu sau đó được sử dụng trong huấn luyện AI.

Các cuộc tấn công gọi là “đầu độc dữ liệu” này dễ thực hiện hơn so với những gì các nhà khoa học từng suy nghĩ, theo nghiên cứu mới được công bố tháng 9 bởi Anthropic, Viện An ninh AI của Vương quốc Anh và Viện Alan Turing.

Trong khi những lỗ hổng này đặt ra rủi ro lớn, các chuyên gia cho rằng AI cũng đang giúp tăng cường hệ phòng thủ của các công ty trước cuộc tấn công mạng.

Nhiều năm qua, kẻ tấn công có một chút lợi thế vì chỉ cần tìm một điểm yếu, trong khi người phòng thủ phải bảo vệ mọi thứ, theo Ann Johnson – Phó chủ tịch cấp cao phụ trách doanh nghiệp và phó giám đốc an ninh thông tin của Microsoft.

“Hệ thống phòng thủ đang học nhanh hơn, thích nghi nhanh hơn và chuyển từ phản ứng sang chủ động”, bà nói thêm.

Mối lo ngại được nhắc đến nhiều nhất

Cuộc đua khắc phục những lỗ hổng trong mô hình AI diễn ra giữa bối cảnh an ninh mạng đang nổi lên như mối quan tâm hàng đầu với các công ty muốn áp dụng công cụ AI vào hoạt động kinh doanh.

Một phân tích gần đây của tờ FT cho thấy: Trong số hàng trăm báo cáo và cuộc họp của các công ty thuộc S&P 500 vào năm ngoái, mối lo ngại được nhắc đến nhiều nhất là an ninh mạng. Hơn một nửa số doanh nghiệp trong nhóm này coi đây là một rủi ro lớn vào năm 2024.

S&P 500 là một chỉ số chứng khoán quan trọng của Mỹ, đại diện cho 500 công ty đại chúng lớn nhất đang niêm yết trên các sàn giao dịch của Mỹ như NYSE và Nasdaq. Nó được xem là chỉ số đại diện tốt nhất cho toàn bộ nền kinh tế Mỹ vì gồm các công ty thuộc nhiều ngành nghề khác nhau như công nghệ, tài chính, y tế, năng lượng, tiêu dùng,… Một số công ty nổi bật trong S&P 500 có thể kể đến Apple, Microsoft, Amazon, Alphabet, Nvidia, Meta Platforms, Tesla.

Các chuyên gia về hacker nói rằng sự phát triển của AI những năm gần đây đã thúc đẩy ngành tội phạm mạng trị giá hàng tỉ USD. AI đã cung cấp cho các hacker nghiệp dư công cụ rẻ tiền để viết phần mềm độc hại, cũng như những hệ thống giúp tội phạm chuyên nghiệp tự động hóa và mở rộng hoạt động tốt hơn.

Mô hình ngôn ngữ lớn cho phép hacker nhanh chóng tạo ra mã độc mới mà chưa bị phát hiện, điều này khiến việc phòng thủ trở nên khó khăn hơn, theo Jake Moore, cố vấn an ninh mạng toàn cầu tại hãng ESET.

Một nghiên cứu gần đây của các nhà nghiên cứu tại Viện Công nghệ Massachusetts (Mỹ) cho thấy 80% cuộc tấn công bằng ransomware mà họ khảo sát đã sử dụng AI. Trong năm 2024, các trò lừa đảo phishing và gian lận liên quan deepfake liên quan tới công nghệ này tăng 60%.

Các công cụ AI cũng đang được hacker sử dụng để thu thập thông tin về nạn nhân trực tuyến. Mô hình ngôn ngữ lớn có thể rà soát web hiệu quả để tìm dữ liệu cá nhân trên các tài khoản công khai của ai đó, hình ảnh hoặc thậm chí là tìm kiếm đoạn ghi âm giọng nói của ai đó một cách hiệu quả trên web.

Những thứ này có thể được sử dụng để tiến hành cuộc tấn công kỹ thuật xã hội tinh vi cho các tội phạm tài chính, theo Paul Fabara – Giám đốc rủi ro và dịch vụ khách hàng của Visa.

Vijay Balasubramaniyan, Giám đốc điều hành kiêm đồng sáng lập Pindrop – công ty an ninh mạng chuyên về gian lận qua giọng nói, thông báo AI tạo sinh đã làm cho việc tạo deepfake có âm thanh thực tế trở nên dễ dàng và nhanh hơn trước rất nhiều. “Vào năm 2023, chúng tôi thấy một vụ tấn công deepfake mỗi tháng trên toàn bộ cơ sở khách hàng. Bây giờ, chúng tôi thấy 7 vụ mỗi ngày với mỗi khách hàng”, ông nói thêm.

Các công ty đặc biệt dễ bị các kiểu tấn công này, Jake Moore của ESET nói. Các hệ thống AI có thể tổng hợp thông tin từ internet, chẳng hạn bài đăng LinkedIn của nhân viên, để biết loại chương trình và phần mềm mà các công ty sử dụng hàng ngày rồi dùng điều đó để tìm lỗ hổng.

Gần đây Anthropic đã chặn đứng một tác nhân tinh vi sử dụng mô hình ngôn ngữ của công ty cho vibe hacking.

Vibe hacking là thuật ngữ mới nổi, dùng để chỉ việc tội phạm mạng lạm dụng công cụ AI để thực hiện các cuộc tấn công mà không cần quá nhiều kiến thức chuyên sâu về kỹ thuật. Cụm từ này bắt nguồn từ vibe coding (lập trình theo cảm hứng), phương pháp lập trình sử dụng AI để tạo ra mã một cách nhanh chóng chỉ bằng cách đưa ra các câu lệnh bằng ngôn ngữ tự nhiên. Vibe hacking áp dụng cách tiếp cận tương tự, nhưng với mục đích xấu.

Thay vì phải tự viết từng dòng mã độc, hacker chỉ cần “trò chuyện” với AI, mô tả mục tiêu và mong muốn của mình. AI sẽ tự động tạo ra các công cụ cần thiết, từ mã độc, mã hóa dữ liệu, cho đến các kịch bản tống tiền và thư rác.

Tác nhân sử dụng Claude Code để tự động hóa việc trinh sát, thu thập thông tin đăng nhập của nạn nhân và xâm nhập hệ thống. Kẻ này đã nhắm tới 17 tổ chức để tống tiền lên tới 500.000 USD từ họ.

Claude Code là phiên bản chuyên dụng của mô hình Claude do Anthropic phát triển, được thiết kế để hỗ trợ lập trình, viết mã và phân tích mã nguồn.

Chuyên gia an ninh mạng cho rằng những công ty cần cảnh giác trong việc giám sát các mối đe dọa mới và cân nhắc hạn chế có bao nhiêu người có quyền truy cập vào các bộ dữ liệu nhạy cảm và công cụ AI dễ bị tấn công.

“Ngày nay không cần nhiều thứ để trở thành tội phạm mạng. Bạn chỉ cần một chiếc laptop, 15 USD để tải phiên bản AI tạo sinh lậu rẻ trên dark web rồi bắt đầu”, Paul Fabara nói.

Dark web (web tối) là phần internet ẩn và không thể truy cập bằng trình duyệt thông thường như Google Chrome, Firefox hay Safari. Bạn cần phần mềm đặc biệt, phổ biến nhất là Tor, để vào được dark web.

Dark web là một phần nhỏ của deep web (web chìm), tức là toàn bộ nội dung không hiển thị trên Google hay các công cụ tìm kiếm phổ biến.

Đừng để AI 'ảo giác' thay con ngườiLà con người, khó tránh khỏi việc đôi khi chúng ta sẽ thấy những điều không tồn tại. Trong tâm lý học, người ta gọi đó là ảo giác. Trí tuệ nhân tạo (AI) cũng có thứ 'ảo giác' khi chúng tạo ra kết quả không tồn tại trong thực tế, thậm chí vô nghĩa hoặc sai lệch, nói cách khác là hệ...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Tiêu điểm

Tin đang nóng

Tin mới nhất

OpenAI phát hành mô hình mặc định mới cho ChatGPT

05:28:46 07/05/2026

Đối với các nhà phát triển, mô hình GPT-5.5 sẽ có sẵn thông qua API với tên gọi chat-latest, trong khi phiên bản 5.3 sẽ là tùy chọn dành cho người dùng trả phí chỉ trong ba tháng.

Lỗ hổng nghiêm trọng trên Android, người dùng nên cập nhật ngay lập tức

05:25:03 07/05/2026

Trong thời gian chờ bản vá, người dùng nên hạn chế kết nối vào các mạng WiFi lạ, tắt ADB không dây nếu không sử dụng và tránh để điện thoại kết nối với các mạng nội bộ không đáng tin cậy.

Lời giải cho bài toán hạ tầng trong cuộc đua AI

05:19:24 07/05/2026

Dù chủ đề xoay quanh trí tuệ nhân tạo, trọng tâm của các thảo luận không nằm ở mô hình hay thuật toán, mà tập trung nhiều hơn vào nền tảng hạ tầng - yếu tố đang được xem là điều kiện tiên quyết để AI có thể đi vào vận hành thực tế.

'Cơn sốt' AI đẩy giá chip nhớ tăng tới 40%

05:15:28 07/05/2026

Dữ liệu từ ADATA cho thấy nhu cầu AI bùng nổ đang kéo giá chip nhớ tăng mạnh, tạo áp lực lan rộng lên thiết bị điện tử tiêu dùng.

Chính thức xác lập 10 nhóm công nghệ chiến lược

05:13:01 07/05/2026

Thủ tướng quyết định thông qua điều chỉnh danh mục 10 nhóm công nghệ chiến lược, đánh dấu bước ngoặt quan trọng trong việc định hình tương lai công nghiệp và nền kinh tế số của Việt Nam.

Máy tính cần bao nhiêu RAM để chạy ổn định?

09:33:18 06/05/2026

Tuy nhiên, khi những ứng dụng, trò chơi và hệ điều hành trở nên ngốn bộ nhớ hơn, tiêu chuẩn này đã được nâng lên mức 16GB RAM.

Màn hình hiện đúng số người thân vẫn có thể là cuộc gọi lừa đảo

09:07:01 06/05/2026

Caller ID Spoofing (giả mạo số hiển thị) không phải là công nghệ mới. Kỹ thuật này đã tồn tại hơn 20 năm, nhưng sự bùng nổ của giao thức VoIP (truyền giọng nói qua Internet) đã xóa bỏ mọi rào cản về chi phí và trình độ.

AI sắp "ngốn" tới 400 GB RAM mỗi chip

08:29:52 06/05/2026

Một số công nghệ mới như MRDIMM đang được kỳ vọng sẽ cải thiện cả dung lượng lẫn băng thông bộ nhớ, nhưng về bản chất vẫn là DRAM dạng tách rời.

Android gửi file trực tiếp sang iPhone qua Quick Share

15:44:00 05/05/2026

Việc bổ sung chia sẻ tệp trực tiếp được xem là bước đột phá trong việc xóa bỏ bức tường giữa hệ sinh thái Android và iOS, hướng đến giảm phụ thuộc vào ranh giới nền tảng.

Google phát hành ứng dụng trợ lý AI thử nghiệm

08:25:02 05/05/2026

Phần mô tả cho biết COSMO mang sức mạnh của trí tuệ nhân tạo trực tiếp lên thiết bị của bạn. Các trường hợp sử dụng bao gồm tổ chức ngày của bạn đến trả lời những câu hỏi phức tạp.

Google Cloud tăng trưởng 63% nhưng cầu đang vượt cung?

08:18:39 05/05/2026

Trong bối cảnh đó, lợi thế cạnh tranh không còn nằm ở chất lượng sản phẩm hay giá cả, mà ở một yếu tố đơn giản hơn nhiều: ai có đủ hạ tầng để phục vụ khách hàng ngay lúc này.

Cách AI và tự động hóa đang định nghĩa lại các cuộc tấn công hiện đại

08:06:20 05/05/2026

Khi một kẻ tấn công không biết lập trình vẫn có thể phát động chiến dịch ransomware trong vài giờ nhờ WormGPT và FraudGPT, ranh giới bảo vệ doanh nghiệp đã dịch chuyển hoàn toàn.