AI gây sốc với thủ đoạn ‘trả thù’ công ty chủ quản
Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.
Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.
Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.
Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.
Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.
Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra”.
Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.
Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.
AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ
Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.
Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.
Theo Live Science, trong nghiên cứu được công bố ngày 18.3 trên arXiv, nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).
Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy
Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.
Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.
Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.
Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.
"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.
Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.
"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.
Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.
Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.
"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.
Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.
Ra mắt dòng mô hình AI mạnh nhất dành cho người viết phần mềm
Ngày 15.5, Windsurf đã công bố ra mắt dòng mô hình AI dành cho kỹ thuật phần mềm, gọi tắt là SWE-1. Windsurf là một startup chuyên phát triển các công cụ AI phổ biến dành cho kỹ sư phần mềm. Công ty cho biết họ đã huấn luyện dòng mô hình mới này (gồm SWE-1, SWE-1-lite và SWE-1-mini) để tối ưu hóa...
Tiêu điểm
Tin đang nóng
Tin mới nhất

ChatGPT 'phản đòn' Gemini với công cụ mới đầy sức mạnh

Facebook theo dõi chuột, bàn phím của nhân viên

Đột phá trong lĩnh vực robot

Tiết lộ mới về iOS 27

5 hiểu lầm phổ biến về Mesh WiFi người dùng thường mắc phải

Ra mắt "siêu pin" sạc mãi không chai, không lo cháy nổ

Bản đồ AI thế giới dịch chuyển: Cơ hội nào cho các nước đang phát triển?

Gemini thuần Macbook: AI dành riêng cho tín đồ của Apple

Nguy cơ hacker AI gia tăng đe dọa an ninh tài chính toàn cầu

OpenAI bổ sung gói đăng ký ChatGPT mới

AI kém tin cậy hơn cả mạng xã hội?

AI có thể giúp Wafer phá vỡ sự thống trị của Nvidia, thiết kế chip dễ hơn
Có thể bạn quan tâm

Ngọc Trinh sau khi sở hữu tài sản 117 tỷ đồng
Hậu trường phim
16:45:58 22/04/2026
Cuba và Trung Quốc tăng cường hợp tác dầu khí
Thế giới
16:41:16 22/04/2026
Hồng Loan vạch trần chiêu hoãn tòa, dằn thẳng mặt Hồng Phượng vì đòi giám định
Sao việt
16:38:32 22/04/2026
Vì sao Palmer và Joao Pedro vắng mặt ở trận Chelsea thua thảm Brighton?
Sao thể thao
16:16:43 22/04/2026
Chưa đầy 3 tiếng Đà Nẵng xảy ra liên tiếp 4 trận động đất, người dân hoang mang!
Tin nổi bật
16:09:15 22/04/2026
Top 10 phim Hàn Quốc được quan tâm nhiều nhất tuần qua
Phim châu á
15:32:41 22/04/2026
Mason Nguyễn xin lỗi fan và đồng nghiệp nữ, không bị áp lực bởi nhãn hàng hay cư dân mạng
Nhạc việt
15:28:35 22/04/2026
Em gái Từ Hy Viên hối hận về sự ra đi của chị, tự trách bản thân không nghe lời
Sao châu á
15:25:22 22/04/2026
Cựu tiếp viên hàng không làm chồng tỷ phú si mê, lộ hôn nhân viên mãn, CĐM ước?
Netizen
15:24:36 22/04/2026
Chông gai tiếp theo của Trang Pháp ở show Trung: Mỹ nhân "all-rounder" visual gây thương nhớ, thực lực liên tục gây tranh cãi
Nhạc quốc tế
15:16:47 22/04/2026
Sắp xuất hiện ‘DeepSeek thứ 2′?
Ứng dụng AI trong cơ sở y tế để hợp nhất dữ liệu

Xiaomi bất ngờ ra mắt mô hình AI tự phát triển
Xu hướng đáng lo ngại: Dùng ChatGPT đoán địa điểm trong ảnh
Mô hình AI của OpenAI tự động nhận dạng giọng nói và dịch sang tiếng Anh
Microsoft vừa tạo ra siêu máy tính thuộc top 5 "mạnh mẽ nhất" hành tinh
Đưa ứng dụng AI vào quy trình thẩm định thuốc
OpenAI ra mắt phiên bản chat GPT-4.1, có bước tiến vượt bậc về hiệu suất
CEO Microsoft: DeepSeek-R1 là mô hình AI đầu tiên có thể cạnh tranh ngang ngửa với OpenAI
Cuộc đua AI làm video thu hút giới khởi nghiệp, còn các nghệ sĩ lo lắng
Apple chuẩn bị tung iPhone 'khác biệt nhất lịch sử'
Google triển khai loạt biện pháp chống lừa đảo bằng AI
Bỏ đào tiền điện tử, dân công nghệ 'săn' card đồ họa đào tạo AI
Áp lực đổi mới bủa vây các 'ông lớn' công nghệ toàn cầu
Dân công nghệ đổ xô 'săn' card đồ họa để đào tạo AI
OpenAI hỗ trợ các nước phát triển hạ tầng AI
Apple sẽ đưa tìm kiếm AI của ChatGPT và Perplexity lên Safari, Google có nguy cơ mất thế độc tôn
Khai thác sức mạnh AI tạo sinh: Hiểu đúng và ứng dụng hiệu quả
Nvidia lo lắng trước tốc độ làm chip của Huawei
Wikipedia ứng dụng AI tạo sinh hỗ trợ cộng đồng biên tập viên
Cách khắc phục hiệu quả khi ChatGPT bị lỗi dễ dàng nhất
Khi các nhà sản xuất ô tô toàn cầu phải chuyển sang công nghệ Trung Quốc
Cách AI được huấn luyện để 'làm luật'
Shipper vào nhà xin nằm ngả lưng giữa trưa, chủ nhà niềm nở nhưng trích xuất camera đăng lên mạng
Người dân TPHCM chen chân trải nghiệm quán buffet 'ăn tùy bụng trả tiền tùy tâm'
Cô dâu chú rể "đánh yêu" ngay trên sân khấu cưới hút 2,5 triệu view: Chú rể run, xin lỗi vợ liên tục
Wi-Fi 6 và Wi-Fi 6E: Khác biệt ở đâu, chọn thế nào cho đúng?
Microsoft chính thức vận hành trung tâm AI mạnh nhất thế giới
Google biến Chrome thành trợ lý AI ngay trên trình duyệt
Google hợp tác Marvell phát triển chip AI giải bài toán hiệu năng suy luận
Google mở rộng tính năng Notebooks miễn phí cho người dùng Gemini
Gemini AI chính thức có mặt trên máy Mac
Google Gemini tại Việt Nam chính thức kết nối Gmail và YouTube để cá nhân hóa trải nghiệm
Máy tính tự chạy AI không cần internet: Bước đi mới từ HP và Lenovo
Đỉnh miễn bàn: Bé gái 8 tuổi giành HCV cờ vua thế giới về cho Việt Nam
Tóm dính cặp đôi mới Vbiz: Công khai ôm eo sát rạt, còn ngồi chung một xe ra về
Nóng nhất hôm nay: Mỹ nam Thơ Ngây và bạn gái hot girl bị tuyên án 6 tháng tù giam
Hồng Loan tuyên bố 20 chữ sau tin mất chứng từ quan trọng, phiên tòa bị hoãn?
Lý do hoãn phúc thẩm tranh chấp di sản NSƯT Vũ Linh, chú Bảy bất ngờ ngất xỉu?
Ảnh nét căng: Văn Thanh mang trap xịn xò đến nhà vợ "trâm anh thế phiệt" dạm ngõ, trao ngay "thẻ lương" cực uy tín
Hồng Loan thất lạc giấy tờ gốc, Hồng Nhung tố gian lận, vụ Vũ Linh chưa hồi kết?
Nghệ An: Phát hiện thi thể nam thanh niên mắc kẹt trên cột điện 35kV
Cặp đôi "Cõng anh mà chạy" gây sốt, Byeon Woo Seok ngầm đánh dấu chủ quyền?
Mỹ nhân VTV thông báo nghỉ việc sau cú "đánh úp" bằng 1 đám cưới với thiếu gia, nhà chồng to như cung điện
Cặp đôi phim giả tình thật ngầm công khai hút 2 triệu like: Nhà trai đẹp vô đối đang khiến toàn cầu phát cuồng
Khó chịu vô cùng với mỹ nhân Việt 25 tập phim chỉ đi 1 đôi giày, ngay cả cái áo cũng sản xuất theo lô
Mẹ và vợ cố diễn viên Đức Tiến lại gặp nhau ở tòa, lộ diễn biến mới sốc MXH
Chú rể đánh yêu vợ giữa lúc làm lễ cưới gây sốt, liên tục xin lỗi, cái kết đắng?
Trung Quân Idol nhắn tin xin lỗi, chồng nữ bác sĩ bị hành hung tuyên bố "không chấp nhận"
Bức ảnh "combo cá biệt" của hai bạn trẻ trên phố gây xôn xao mạng xã hội: Chi tiết nào khiến phụ huynh nhìn mà khóc hết nước mắt?