AI gây sốc với thủ đoạn ‘trả thù’ công ty chủ quản

Anh Tuấn17:21 24/05/2025

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra”.

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ

Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.

Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.

Theo Live Science, trong nghiên cứu được công bố ngày 18.3 trên arXiv, nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.

Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.

Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.

Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.

"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.

Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.

"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.

Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.

Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.

"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.

Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.

Ra mắt dòng mô hình AI mạnh nhất dành cho người viết phần mềmNgày 15.5, Windsurf đã công bố ra mắt dòng mô hình AI dành cho kỹ thuật phần mềm, gọi tắt là SWE-1. Windsurf là một startup chuyên phát triển các công cụ AI phổ biến dành cho kỹ sư phần mềm. Công ty cho biết họ đã huấn luyện dòng mô hình mới này (gồm SWE-1, SWE-1-lite và SWE-1-mini) để tối ưu hóa...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Chủ đề: google hệ thống ai openai mô hình ai anthropic ai claude opus mô hình claude claude opus 4 mô hình claude 4

Xem thêm Share

Xem nhiều

Shipper vào nhà xin nằm ngả lưng giữa trưa, chủ nhà niềm nở nhưng trích xuất camera đăng lên mạng00:31

Người dân TPHCM chen chân trải nghiệm quán buffet 'ăn tùy bụng trả tiền tùy tâm'00:55

Cô dâu chú rể "đánh yêu" ngay trên sân khấu cưới hút 2,5 triệu view: Chú rể run, xin lỗi vợ liên tục00:11

Tiêu điểm

Tin đang nóng

Tin mới nhất

ChatGPT 'phản đòn' Gemini với công cụ mới đầy sức mạnh

14:55:25 22/04/2026

ChatGPT Images 2.0 không chỉ là một cải tiến kỹ thuật mà còn là bước tiến quan trọng trong việc tạo ra hình ảnh hữu ích từ AI (trí tuệ nhân tạo) nhằm cạnh tranh với các đối thủ trên thị trường, đặc biệt là Nano Banana 2 của Gemini.

Facebook theo dõi chuột, bàn phím của nhân viên

14:51:03 22/04/2026

Andrew Bosworth, Giám đốc công nghệ Meta thông báo với nhân viên trong một văn bản riêng rằng công ty sẽ tăng cường thu thập dữ liệu nội bộ như một phần của chương trình mang tên Agent Transformation Accelerator.

Đột phá trong lĩnh vực robot

14:47:40 22/04/2026

Điểm khác biệt lớn nhất của mô hình này nằm ở khả năng khái quát hóa theo tổ hợp. Điều này có nghĩa là robot không còn chỉ máy móc lặp lại những gì được dạy, mà đã có thể tự suy luận để giải quyết các tình huống mới lạ.

Tiết lộ mới về iOS 27

08:02:58 21/04/2026

Theo Bloomberg, Apple sẽ bổ sung một số tùy chỉnh trên màn hình chính của iOS 27 để hỗ trợ người dùng sử dụng thuận tiện hơn.

5 hiểu lầm phổ biến về Mesh WiFi người dùng thường mắc phải

05:08:48 21/04/2026

Hệ thống Mesh WiFi là giải pháp hiệu quả để mở rộng vùng phủ sóng. Tuy nhiên, việc hiểu sai về cách vận hành của công nghệ này có thể khiến người dùng có những kỳ vọng sai khi sử dụng.

Ra mắt "siêu pin" sạc mãi không chai, không lo cháy nổ

09:29:08 20/04/2026

Không chỉ dừng lại ở xe điện, các chuyên gia tin rằng đột phá này sẽ mở đường cho sự ra đời của các dòng máy bay điện trong tương lai gần.

Bản đồ AI thế giới dịch chuyển: Cơ hội nào cho các nước đang phát triển?

08:46:56 20/04/2026

Quyết định mở cửa chương trình xuất khẩu trí tuệ nhân tạo của Mỹ đã tạo ra một lực hút từ trường khổng lồ, tái cấu trúc lại đường đi của dòng tiền toàn cầu.

Gemini thuần Macbook: AI dành riêng cho tín đồ của Apple

08:40:47 20/04/2026

Chỉ vài ngày sau khi ra mắt, ứng dụng Gemini native dành cho macOS đã khiến cộng đồng người dùng MacBook tại Việt Nam xôn xao.

Nguy cơ hacker AI gia tăng đe dọa an ninh tài chính toàn cầu

08:33:56 20/04/2026

Sự xuất hiện của hacker AI gắn trực tiếp với các mối đe dọa an ninh, có tin cho thấy các nhóm hacker nguy hiểm trên toàn cầu cũng sẽ đổ xô theo xu hướng này.

OpenAI bổ sung gói đăng ký ChatGPT mới

07:24:37 20/04/2026

Codex - trợ lý lập trình AI đang tăng trưởng nhanh chóng khi có khả năng tự động hóa tác vụ và sửa lỗi cho lập trình viên. Công cụ này đạt doanh thu ước tính hơn 2,5 tỷ USD vào tháng 2, tăng hơn 100% kể từ đầu năm 2026.

AI kém tin cậy hơn cả mạng xã hội?

13:37:40 19/04/2026

Đáng chú ý 44% người tham gia cuộc thăm dò từng dùng qua AI - một nửa trong số này sử dụng ít nhất 1 lần mỗi ngày. Mức độ sử dụng tăng lên ở nhóm có thu nhập trên 100.000 USD một năm.

AI có thể giúp Wafer phá vỡ sự thống trị của Nvidia, thiết kế chip dễ hơn

13:29:09 19/04/2026

Claude Code hiện là một trong nhiều mô hình AI có khả năng viết mã vượt trội so với con người. Vì vậy, Emilio Andere cho rằng sẽ không lâu nữa AI có thể làm suy giảm lợi thế phần mềm của Nvidia.

Có thể bạn quan tâm

Ngọc Trinh sau khi sở hữu tài sản 117 tỷ đồng

Hậu trường phim

16:45:58 22/04/2026

Sau dấu ấn với vai Tư Nhị đầy cuốn hút, góp phần đưa Chị Chị Em Em 2 gia nhập vào câu lạc bộ phim trăm tỷ, Ngọc Trinh đã chứng minh sức hút rõ rệt của mình tại thị trường phòng vé.

Cuba và Trung Quốc tăng cường hợp tác dầu khí

Thế giới

16:41:16 22/04/2026

Theo ông Enrique Castellanos, Giám đốc địa chất thuộc Bộ Năng lượng và Mỏ Cuba, địa chất là mắt xích đầu tiên mà trên đó sự phát triển kinh tế của đất nước có thể được xây dựng, dựa trên tiềm năng đã được nghiên cứu và phân tích trước đ...

Hồng Loan vạch trần chiêu hoãn tòa, dằn thẳng mặt Hồng Phượng vì đòi giám định

Sao việt

16:38:32 22/04/2026

Sau khi phiên tòa phúc thẩm sáng 22-4 bị tạm hoãn, cuộc đối đầu giữa ca sĩ Hồng Phượng và bà Võ Thị Hồng Loan tiếp tục tăng nhiệt với những phát ngôn trái chiều về tính minh bạch của hồ sơ hộ tịch.

Vì sao Palmer và Joao Pedro vắng mặt ở trận Chelsea thua thảm Brighton?

Sao thể thao

16:16:43 22/04/2026

Chelsea bước vào trận gặp Brighton mà không có Cole Palmer và Joao Pedro vì chấn thương, và hệ quả là thất bại nặng nề 0-3.

Chưa đầy 3 tiếng Đà Nẵng xảy ra liên tiếp 4 trận động đất, người dân hoang mang!

Tin nổi bật

16:09:15 22/04/2026

Sáng 22/4, miền Trung ghi nhận 5 trận động đất liên tiếp trong thời gian ngắn. Riêng xã Trà Linh, TP Đà Nẵng hứng chịu 4 trận động đất liên hoàn chỉ trong chưa đầy 3 giờ đồng hồ, gây lo ngại về những biến động địa chất bất thường tại kh...

Top 10 phim Hàn Quốc được quan tâm nhiều nhất tuần qua

Phim châu á

15:32:41 22/04/2026

Danh sách những bộ phim được xem nhiều nhất tuần qua phản ánh rõ xu hướng khán giả ưu tiên nội dung mới lạ, dàn diễn viên nổi bật và kịch bản giàu tính giải trí.

Mason Nguyễn xin lỗi fan và đồng nghiệp nữ, không bị áp lực bởi nhãn hàng hay cư dân mạng

Nhạc việt

15:28:35 22/04/2026

Mason Nguyễn vừa tổ chức buổi gặp gỡ truyền thông, phân trần về những ồn ào vừa qua liên quan đến việc B Ray rap phản cảm.

Em gái Từ Hy Viên hối hận về sự ra đi của chị, tự trách bản thân không nghe lời

Sao châu á

15:25:22 22/04/2026

Sau hơn một năm tạm dừng hoạt động, Từ Hy Đệ mới đây đã chính thức trở lại với công việc. Trong lần xuất hiện tại một chương trình tạp kỹ, nữ MC gây xúc động khi lần đầu chia sẻ công khai về nỗi đau mất mát sau sự ra đi của chị gái Từ H...

Cựu tiếp viên hàng không làm chồng tỷ phú si mê, lộ hôn nhân viên mãn, CĐM ước?

Netizen

15:24:36 22/04/2026

Bà Lê Hồng Thủy Tiên - CEO IPP Group từng là mỹ nhân màn ảnh và nữ tiếp viên hàng không khiến vị tỷ phú lừng lẫy si mê. Cuộc đời bà là bản tình ca rực rỡ, minh chứng cho sự kết hợp hoàn hảo giữa nhan sắc, trí tuệ cùng bản lĩnh kinh doan...

Thế giới số