AI gây sốc với thủ đoạn ‘trả thù’ công ty chủ quản

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

AI gây sốc với thủ đoạn trả thù công ty chủ quản - Hình 1

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra”.

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ

Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.

Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.

Theo Live Science, trong nghiên cứu được công bố ngày 18.3 trên arXiv, nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ - Hình 1

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.

Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.

Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.

Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.

"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.

Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.

"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.

Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.

Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.

"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.

Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Wi-Fi 6 và Wi-Fi 6E: Khác biệt ở đâu, chọn thế nào cho đúng?Wi-Fi 6 và Wi-Fi 6E: Khác biệt ở đâu, chọn thế nào cho đúng?
05:22:36 21/04/2026
Microsoft chính thức vận hành trung tâm AI mạnh nhất thế giớiMicrosoft chính thức vận hành trung tâm AI mạnh nhất thế giới
08:09:16 21/04/2026
Google biến Chrome thành trợ lý AI ngay trên trình duyệtGoogle biến Chrome thành trợ lý AI ngay trên trình duyệt
08:06:18 22/04/2026
Google hợp tác Marvell phát triển chip AI giải bài toán hiệu năng suy luậnGoogle hợp tác Marvell phát triển chip AI giải bài toán hiệu năng suy luận
07:41:43 21/04/2026
Google mở rộng tính năng Notebooks miễn phí cho người dùng GeminiGoogle mở rộng tính năng Notebooks miễn phí cho người dùng Gemini
05:43:00 21/04/2026
Gemini AI chính thức có mặt trên máy MacGemini AI chính thức có mặt trên máy Mac
13:24:43 22/04/2026
Google Gemini tại Việt Nam chính thức kết nối Gmail và YouTube để cá nhân hóa trải nghiệmGoogle Gemini tại Việt Nam chính thức kết nối Gmail và YouTube để cá nhân hóa trải nghiệm
05:00:57 21/04/2026
Máy tính tự chạy AI không cần internet: Bước đi mới từ HP và LenovoMáy tính tự chạy AI không cần internet: Bước đi mới từ HP và Lenovo
05:04:14 21/04/2026

Tin đang nóng

Đỉnh miễn bàn: Bé gái 8 tuổi giành HCV cờ vua thế giới về cho Việt NamĐỉnh miễn bàn: Bé gái 8 tuổi giành HCV cờ vua thế giới về cho Việt Nam
13:23:05 22/04/2026
Tóm dính cặp đôi mới Vbiz: Công khai ôm eo sát rạt, còn ngồi chung một xe ra vềTóm dính cặp đôi mới Vbiz: Công khai ôm eo sát rạt, còn ngồi chung một xe ra về
15:03:05 22/04/2026
Nóng nhất hôm nay: Mỹ nam Thơ Ngây và bạn gái hot girl bị tuyên án 6 tháng tù giamNóng nhất hôm nay: Mỹ nam Thơ Ngây và bạn gái hot girl bị tuyên án 6 tháng tù giam
14:58:28 22/04/2026
Hồng Loan tuyên bố 20 chữ sau tin mất chứng từ quan trọng, phiên tòa bị hoãn?Hồng Loan tuyên bố 20 chữ sau tin mất chứng từ quan trọng, phiên tòa bị hoãn?
13:54:50 22/04/2026
Lý do hoãn phúc thẩm tranh chấp di sản NSƯT Vũ Linh, chú Bảy bất ngờ ngất xỉu?Lý do hoãn phúc thẩm tranh chấp di sản NSƯT Vũ Linh, chú Bảy bất ngờ ngất xỉu?
11:13:33 22/04/2026
Ảnh nét căng: Văn Thanh mang trap xịn xò đến nhà vợ "trâm anh thế phiệt" dạm ngõ, trao ngay "thẻ lương" cực uy tínẢnh nét căng: Văn Thanh mang trap xịn xò đến nhà vợ "trâm anh thế phiệt" dạm ngõ, trao ngay "thẻ lương" cực uy tín
13:25:20 22/04/2026
Hồng Loan thất lạc giấy tờ gốc, Hồng Nhung tố gian lận, vụ Vũ Linh chưa hồi kết?Hồng Loan thất lạc giấy tờ gốc, Hồng Nhung tố gian lận, vụ Vũ Linh chưa hồi kết?
14:43:13 22/04/2026
Nghệ An: Phát hiện thi thể nam thanh niên mắc kẹt trên cột điện 35kVNghệ An: Phát hiện thi thể nam thanh niên mắc kẹt trên cột điện 35kV
11:10:17 22/04/2026

Tin mới nhất

ChatGPT 'phản đòn' Gemini với công cụ mới đầy sức mạnh

ChatGPT 'phản đòn' Gemini với công cụ mới đầy sức mạnh

14:55:25 22/04/2026
ChatGPT Images 2.0 không chỉ là một cải tiến kỹ thuật mà còn là bước tiến quan trọng trong việc tạo ra hình ảnh hữu ích từ AI (trí tuệ nhân tạo) nhằm cạnh tranh với các đối thủ trên thị trường, đặc biệt là Nano Banana 2 của Gemini.
Facebook theo dõi chuột, bàn phím của nhân viên

Facebook theo dõi chuột, bàn phím của nhân viên

14:51:03 22/04/2026
Andrew Bosworth, Giám đốc công nghệ Meta thông báo với nhân viên trong một văn bản riêng rằng công ty sẽ tăng cường thu thập dữ liệu nội bộ như một phần của chương trình mang tên Agent Transformation Accelerator.
Đột phá trong lĩnh vực robot

Đột phá trong lĩnh vực robot

14:47:40 22/04/2026
Điểm khác biệt lớn nhất của mô hình này nằm ở khả năng khái quát hóa theo tổ hợp. Điều này có nghĩa là robot không còn chỉ máy móc lặp lại những gì được dạy, mà đã có thể tự suy luận để giải quyết các tình huống mới lạ.
Tiết lộ mới về iOS 27

Tiết lộ mới về iOS 27

08:02:58 21/04/2026
Theo Bloomberg, Apple sẽ bổ sung một số tùy chỉnh trên màn hình chính của iOS 27 để hỗ trợ người dùng sử dụng thuận tiện hơn.
5 hiểu lầm phổ biến về Mesh WiFi người dùng thường mắc phải

5 hiểu lầm phổ biến về Mesh WiFi người dùng thường mắc phải

05:08:48 21/04/2026
Hệ thống Mesh WiFi là giải pháp hiệu quả để mở rộng vùng phủ sóng. Tuy nhiên, việc hiểu sai về cách vận hành của công nghệ này có thể khiến người dùng có những kỳ vọng sai khi sử dụng.
Ra mắt "siêu pin" sạc mãi không chai, không lo cháy nổ

Ra mắt "siêu pin" sạc mãi không chai, không lo cháy nổ

09:29:08 20/04/2026
Không chỉ dừng lại ở xe điện, các chuyên gia tin rằng đột phá này sẽ mở đường cho sự ra đời của các dòng máy bay điện trong tương lai gần.
Bản đồ AI thế giới dịch chuyển: Cơ hội nào cho các nước đang phát triển?

Bản đồ AI thế giới dịch chuyển: Cơ hội nào cho các nước đang phát triển?

08:46:56 20/04/2026
Quyết định mở cửa chương trình xuất khẩu trí tuệ nhân tạo của Mỹ đã tạo ra một lực hút từ trường khổng lồ, tái cấu trúc lại đường đi của dòng tiền toàn cầu.
Gemini thuần Macbook: AI dành riêng cho tín đồ của Apple

Gemini thuần Macbook: AI dành riêng cho tín đồ của Apple

08:40:47 20/04/2026
Chỉ vài ngày sau khi ra mắt, ứng dụng Gemini native dành cho macOS đã khiến cộng đồng người dùng MacBook tại Việt Nam xôn xao.
Nguy cơ hacker AI gia tăng đe dọa an ninh tài chính toàn cầu

Nguy cơ hacker AI gia tăng đe dọa an ninh tài chính toàn cầu

08:33:56 20/04/2026
Sự xuất hiện của hacker AI gắn trực tiếp với các mối đe dọa an ninh, có tin cho thấy các nhóm hacker nguy hiểm trên toàn cầu cũng sẽ đổ xô theo xu hướng này.
OpenAI bổ sung gói đăng ký ChatGPT mới

OpenAI bổ sung gói đăng ký ChatGPT mới

07:24:37 20/04/2026
Codex - trợ lý lập trình AI đang tăng trưởng nhanh chóng khi có khả năng tự động hóa tác vụ và sửa lỗi cho lập trình viên. Công cụ này đạt doanh thu ước tính hơn 2,5 tỷ USD vào tháng 2, tăng hơn 100% kể từ đầu năm 2026.
AI kém tin cậy hơn cả mạng xã hội?

AI kém tin cậy hơn cả mạng xã hội?

13:37:40 19/04/2026
Đáng chú ý 44% người tham gia cuộc thăm dò từng dùng qua AI - một nửa trong số này sử dụng ít nhất 1 lần mỗi ngày. Mức độ sử dụng tăng lên ở nhóm có thu nhập trên 100.000 USD một năm.
AI có thể giúp Wafer phá vỡ sự thống trị của Nvidia, thiết kế chip dễ hơn

AI có thể giúp Wafer phá vỡ sự thống trị của Nvidia, thiết kế chip dễ hơn

13:29:09 19/04/2026
Claude Code hiện là một trong nhiều mô hình AI có khả năng viết mã vượt trội so với con người. Vì vậy, Emilio Andere cho rằng sẽ không lâu nữa AI có thể làm suy giảm lợi thế phần mềm của Nvidia.

Có thể bạn quan tâm

Ngọc Trinh sau khi sở hữu tài sản 117 tỷ đồng

Ngọc Trinh sau khi sở hữu tài sản 117 tỷ đồng

Hậu trường phim

16:45:58 22/04/2026
Sau dấu ấn với vai Tư Nhị đầy cuốn hút, góp phần đưa Chị Chị Em Em 2 gia nhập vào câu lạc bộ phim trăm tỷ, Ngọc Trinh đã chứng minh sức hút rõ rệt của mình tại thị trường phòng vé.
Cuba và Trung Quốc tăng cường hợp tác dầu khí

Cuba và Trung Quốc tăng cường hợp tác dầu khí

Thế giới

16:41:16 22/04/2026
Theo ông Enrique Castellanos, Giám đốc địa chất thuộc Bộ Năng lượng và Mỏ Cuba, địa chất là mắt xích đầu tiên mà trên đó sự phát triển kinh tế của đất nước có thể được xây dựng, dựa trên tiềm năng đã được nghiên cứu và phân tích trước đ...
Hồng Loan vạch trần chiêu hoãn tòa, dằn thẳng mặt Hồng Phượng vì đòi giám định

Hồng Loan vạch trần chiêu hoãn tòa, dằn thẳng mặt Hồng Phượng vì đòi giám định

Sao việt

16:38:32 22/04/2026
Sau khi phiên tòa phúc thẩm sáng 22-4 bị tạm hoãn, cuộc đối đầu giữa ca sĩ Hồng Phượng và bà Võ Thị Hồng Loan tiếp tục tăng nhiệt với những phát ngôn trái chiều về tính minh bạch của hồ sơ hộ tịch.
Vì sao Palmer và Joao Pedro vắng mặt ở trận Chelsea thua thảm Brighton?

Vì sao Palmer và Joao Pedro vắng mặt ở trận Chelsea thua thảm Brighton?

Sao thể thao

16:16:43 22/04/2026
Chelsea bước vào trận gặp Brighton mà không có Cole Palmer và Joao Pedro vì chấn thương, và hệ quả là thất bại nặng nề 0-3.
Chưa đầy 3 tiếng Đà Nẵng xảy ra liên tiếp 4 trận động đất, người dân hoang mang!

Chưa đầy 3 tiếng Đà Nẵng xảy ra liên tiếp 4 trận động đất, người dân hoang mang!

Tin nổi bật

16:09:15 22/04/2026
Sáng 22/4, miền Trung ghi nhận 5 trận động đất liên tiếp trong thời gian ngắn. Riêng xã Trà Linh, TP Đà Nẵng hứng chịu 4 trận động đất liên hoàn chỉ trong chưa đầy 3 giờ đồng hồ, gây lo ngại về những biến động địa chất bất thường tại kh...
Top 10 phim Hàn Quốc được quan tâm nhiều nhất tuần qua

Top 10 phim Hàn Quốc được quan tâm nhiều nhất tuần qua

Phim châu á

15:32:41 22/04/2026
Danh sách những bộ phim được xem nhiều nhất tuần qua phản ánh rõ xu hướng khán giả ưu tiên nội dung mới lạ, dàn diễn viên nổi bật và kịch bản giàu tính giải trí.
Mason Nguyễn xin lỗi fan và đồng nghiệp nữ, không bị áp lực bởi nhãn hàng hay cư dân mạng

Mason Nguyễn xin lỗi fan và đồng nghiệp nữ, không bị áp lực bởi nhãn hàng hay cư dân mạng

Nhạc việt

15:28:35 22/04/2026
Mason Nguyễn vừa tổ chức buổi gặp gỡ truyền thông, phân trần về những ồn ào vừa qua liên quan đến việc B Ray rap phản cảm.
Em gái Từ Hy Viên hối hận về sự ra đi của chị, tự trách bản thân không nghe lời

Em gái Từ Hy Viên hối hận về sự ra đi của chị, tự trách bản thân không nghe lời

Sao châu á

15:25:22 22/04/2026
Sau hơn một năm tạm dừng hoạt động, Từ Hy Đệ mới đây đã chính thức trở lại với công việc. Trong lần xuất hiện tại một chương trình tạp kỹ, nữ MC gây xúc động khi lần đầu chia sẻ công khai về nỗi đau mất mát sau sự ra đi của chị gái Từ H...
Cựu tiếp viên hàng không làm chồng tỷ phú si mê, lộ hôn nhân viên mãn, CĐM ước?

Cựu tiếp viên hàng không làm chồng tỷ phú si mê, lộ hôn nhân viên mãn, CĐM ước?

Netizen

15:24:36 22/04/2026
Bà Lê Hồng Thủy Tiên - CEO IPP Group từng là mỹ nhân màn ảnh và nữ tiếp viên hàng không khiến vị tỷ phú lừng lẫy si mê. Cuộc đời bà là bản tình ca rực rỡ, minh chứng cho sự kết hợp hoàn hảo giữa nhan sắc, trí tuệ cùng bản lĩnh kinh doan...
Chông gai tiếp theo của Trang Pháp ở show Trung: Mỹ nhân "all-rounder" visual gây thương nhớ, thực lực liên tục gây tranh cãi

Chông gai tiếp theo của Trang Pháp ở show Trung: Mỹ nhân "all-rounder" visual gây thương nhớ, thực lực liên tục gây tranh cãi

Nhạc quốc tế

15:16:47 22/04/2026
Việc phong độ biểu diễn chưa thực sự thuyết phục đã khiến năng lực của Từ Mộng Khiết liên tục bị đặt lên bàn cân so sánh.
Phim của Doãn Quốc Đam doanh thu hơn 133 tỷ đồng nhưng chỉ bán được 2 vé?

Phim của Doãn Quốc Đam doanh thu hơn 133 tỷ đồng nhưng chỉ bán được 2 vé?

Phim việt

14:58:18 22/04/2026
Theo dữ liệu phòng vé sáng 22/4, bộ phim kinh dị Quỷ Nhập Tràng 2 ghi nhận một con số gây chú ý khi chỉ bán được 2 vé ở một suất chiếu. Thông tin này nhanh chóng thu hút sự quan tâm của khán giả.