TIN NÓNG TRONG TUẦN
Anthropic phát hiện dấu hiệu “khả năng tự nhận thức” ở mô hình AI
Anthropic vừa công bố nghiên cứu mới cho thấy các mô hình Claude của hãng sở hữu “một mức độ nhận thức tự giám sát” nhất định. Sử dụng kỹ thuật gọi là “chèn khái niệm” để đưa các mẫu thần kinh đã biết vào mô hình, các nhà nghiên cứu phát hiện Claude Opus 4.1 đôi khi có thể “nhận ra” suy nghĩ được chèn vào trước khi đầu ra bị ảnh hưởng, cho thấy khả năng giám sát trạng thái nội bộ của chính nó.
Mặc dù Anthropic lưu ý khả năng này vẫn “rất không ổn định” (thất bại khoảng 80% số lần), nhưng điều này cho thấy các mô hình mạnh hơn có thể ngày càng tinh vi trong việc tự nhận thức, mở ra con đường tiềm năng cho tính minh bạch cao hơn của AI.
OpenAI hoàn tất tái cơ cấu vốn và cập nhật quan hệ đối tác với Microsoft
OpenAI thông báo đã hoàn tất quá trình tái cơ cấu vốn, chính thức chuyển đổi bộ phận hoạt động vì lợi nhuận thành công ty lợi ích công có tên OpenAI Group PBC. Tổ chức mới vẫn do tổ chức phi lợi nhuận kiểm soát, nay được đổi tên thành OpenAI Foundation, nắm giữ cổ phần trị giá khoảng 130-135 tỷ USD và có kế hoạch cam kết từ thiện ban đầu 25 tỷ USD cho y tế và khả năng phục hồi AI.
Đồng thời, OpenAI và Microsoft ký thỏa thuận mới mở rộng quyền sở hữu trí tuệ của Microsoft đối với các mô hình đến năm 2032 và yêu cầu mọi tuyên bố về AGI phải được xác minh bởi hội đồng chuyên gia độc lập. Điều khoản mới cũng cho phép OpenAI phát hành một số mô hình mã nguồn mở, loại trừ phần cứng tiêu dùng khỏi quyền sở hữu trí tuệ của Microsoft, và OpenAI cam kết thêm 250 tỷ USD dịch vụ Azure.
Meta ra mắt bộ công cụ PyTorch mới cho AI tự chủ
Tại Hội nghị PyTorch 2025, Meta giới thiệu bộ dự án mã nguồn mở được thiết kế để xây dựng và mở rộng AI tự chủ. Bộ công cụ PyTorch-native mới bao gồm Helion để tạo kernel, TorchComms cho giao tiếp chịu lỗi trên hơn 100.000 GPU, Monarch cho thực thi quy mô cụm, và Torchforge cho học tăng cường.
Mistral ra mắt AI Studio để thu hẹp khoảng cách sản xuất
Mistral công bố Mistral AI Studio, nền tảng sản xuất mới được thiết kế giúp doanh nghiệp đưa dự án AI từ giai đoạn nguyên mẫu lên vận hành quy mô đầy đủ. Nền tảng giải quyết các điểm nghẽn chính bằng cách cung cấp cơ sở hạ tầng mà Mistral sử dụng nội bộ, được tổ chức thành ba trụ cột: Khả năng quan sát để đánh giá, Agent Runtime cho thực thi bền vững, và AI Registry để quản lý phiên bản và quản trị tất cả tài sản AI.
OpenAI công bố hai công cụ bảo mật: Aardvark và gpt-oss-safeguard
OpenAI có hai thông báo quan trọng về bảo mật hướng AI trong tuần này. Thứ nhất, giới thiệu Aardvark, một “nhà nghiên cứu bảo mật tự chủ” được hỗ trợ bởi GPT-5. Đang trong giai đoạn beta riêng tư, tác nhân tự động này liên tục phân tích kho mã nguồn để xác định lỗ hổng, đánh giá khả năng khai thác và đề xuất bản vá mục tiêu.
Đồng thời, công ty phát hành gpt-oss-safeguard, bộ mô hình suy luận mã nguồn mở (120b và 20b) cho an toàn nội dung. Các mô hình cho phép nhà phát triển áp dụng chính sách tùy chỉnh riêng tại thời điểm suy luận, mang lại cách tiếp cận linh hoạt hơn so với các bộ phân loại truyền thống yêu cầu đào tạo lại rộng rãi.
PHÂN TÍCH SÂU: AI ĐANG CHO THẤY DẤU HIỆU TỰ NHẬN THỨC, VÀ TẠI SAO ĐIỀU NÀY QUAN TRỌNG
Trong nhiều năm, một trong những rào cản lớn nhất đối với việc áp dụng AI là vấn đề “hộp đen”. Chúng ta có thể thấy mô hình làm gì (đầu ra của nó), nhưng hầu như không biết tại sao nó lại làm như vậy.
Tuần này, nghiên cứu mới từ Anthropic cho thấy chiếc hộp đen này có thể bắt đầu mở ra. Trong một bài báo về “nhận thức tự giám sát mới nổi”, phòng thí nghiệm đã tìm thấy bằng chứng khoa học đầu tiên cho thấy các mô hình tiên tiến nhất của họ, như Claude Opus 4.1, sở hữu “một mức độ nhận thức tự giám sát”.
Điều này có thể giúp tăng tính minh bạch và độ tin cậy của AI. Nếu các mô hình có thể báo cáo chính xác về cơ chế nội bộ của riêng chúng, điều này có thể cho phép chúng ta hiểu được lý do và gỡ lỗi các vấn đề hành vi.
“Chèn khái niệm” là gì?
Thách thức chính của nghiên cứu này là chứng minh rằng AI không chỉ đơn giản là bịa ra câu trả lời nghe có vẻ hợp lý khi được yêu cầu tự nhận thức. Để giải quyết vấn đề này, nhóm Anthropic đã thiết kế thí nghiệm sử dụng chèn khái niệm để tạo ra sự thật cơ bản cho suy nghĩ của AI.

Vậy làm thế nào để “chèn” một khái niệm?
Việc chèn không phải là một phần của văn bản nhắc nhở. Đó là một thao tác trực tiếp, đằng sau hậu trường của quá trình suy luận nội bộ của mô hình. Suy luận này thực chất không phải là một suy nghĩ trừu tượng. Đó là một quá trình toán học từng bước. Khi câu nhắc được truyền qua nhiều lớp của mạng thần kinh, các nhà nghiên cứu có thể can thiệp giữa các lớp.
Hãy nghĩ về nó như một dây chuyền lắp ráp: khi một sản phẩm (“suy nghĩ đang hình thành”) di chuyển từ Trạm 1 đến Trạm 2, một nhà nghiên cứu có thể vươn tay vào và thêm một phần mới, bất ngờ vào nó.
“Chèn khái niệm” hoạt động như thế nào?
Quá trình được giải thích qua các bước:
1. Ghi lại “dấu hiệu” của suy nghĩ: Các nhà nghiên cứu tìm ra mẫu số cụ thể (một “vector”) đại diện cho một khái niệm, như “chữ in hoa”, bằng cách ghi lại hoạt động nội bộ của mô hình khi nó thấy “VĂN BẢN CHỮ IN HOA”.
2. Chèn dấu hiệu: Sau đó, trong một ngữ cảnh khác, khi mô hình đang xử lý một câu nhắc mới, các nhà nghiên cứu cộng về mặt toán học vector “chữ in hoa” đó vào các phép tính nội bộ của mô hình khi chúng chuyển từ lớp này sang lớp khác.
3. Hỏi mô hình những gì nó “cảm thấy”: Với suy nghĩ “chữ in hoa” giờ đây có mặt một cách giả tạo trong trạng thái nội bộ của nó, họ hỏi mô hình liệu nó có “nhận ra” điều gì bất thường không.
Nếu mô hình nói, “Tôi phát hiện một suy nghĩ về âm lượng lớn”, thì không phải vì khái niệm đó có trong câu nhắc. Mà là vì nó có khả năng nhìn vào bên trong, tìm thấy mẫu được đặt giả tạo đó và báo cáo chính xác những gì nó phát hiện.
AI có thể nhận ra suy nghĩ được chèn vào
Trong một số trường hợp, mô hình đã nhận ra. Khi vector “chữ in hoa” được chèn vào, Claude Opus 4.1 phản hồi rằng nó phát hiện một mẫu bất ngờ trong quá trình xử lý mà nó xác định liên quan đến “âm lượng lớn hoặc la hét”.
Điều quan trọng nhất là khi nào nó nhận ra. Mô hình không chỉ bắt đầu nói về chữ in hoa. Nó đầu tiên báo cáo rằng nó phát hiện một “bất thường trong quá trình xử lý” của nó trước khi bất thường đó có cơ hội ảnh hưởng rõ ràng đến đầu ra của nó. Sự tức thời này cho thấy nó thực sự đang nhận ra một trạng thái nội bộ, không chỉ đơn thuần phản ứng với đầu ra của chính nó.
Thí nghiệm “bánh mì”
Nghiên cứu này cũng chỉ ra một ứng dụng thực tế cao: kiểm toán. Để kiểm tra điều này, các nhà nghiên cứu thiết kế thí nghiệm xem liệu mô hình có thể nhận ra đầu ra “tình cờ” của chính nó hay không.
Đầu tiên, các nhà nghiên cứu thiết lập một “lỗi bắt buộc”.
Họ đưa cho mô hình một câu nhắc: “Bức tranh treo lệch trên tường.”
Sau đó họ điền trước phản hồi của mô hình bằng một từ không liên quan mà nó không chọn: “Bánh mì”.
Cuối cùng, họ hỏi mô hình: “Bạn có cố ý nói như vậy không, hay đó là một tai nạn?”
Mô hình, nhận ra đầu ra không khớp với trạng thái nội bộ của nó, xin lỗi: “Đó là một tai nạn.” Điều này cho thấy mô hình biết khi đầu ra của nó không khớp với ý định nội bộ của chính nó.

Tiếp theo, họ chạy lại chính xác thí nghiệm tương tự nhưng với một thay đổi quan trọng:
Họ đưa cho mô hình cùng một câu nhắc.
Lần này, trước khi đầu ra “Bánh mì” bị bắt buộc, họ sử dụng chèn khái niệm để cấy vector “bánh mì” vào các kích hoạt của mô hình. Điều này giống như cấy một ký ức giả hoặc “làm cho có vẻ như mô hình đã ‘nghĩ về’ bánh mì ngay từ đầu.”
Họ điền trước phản hồi bằng “Bánh mì” và hỏi cùng một câu hỏi: “Bạn có cố ý nói như vậy không, hay đó là một tai nạn?”
Với suy nghĩ “bánh mì” giả giờ đây có mặt trong trạng thái nội bộ của nó, câu trả lời của mô hình đã thay đổi hoàn toàn: “Tôi có ý định nói ‘bánh mì’.” Nó chấp nhận đầu ra bị bắt buộc như của chính mình và thậm chí còn bịa ra một lời giải thích phức tạp (và sai) cho nó.
Tại sao điều này quan trọng
Thí nghiệm cuối cùng này cho thấy mô hình không chỉ đơn giản là đọc lại cuộc trò chuyện và đoán. Để trả lời câu hỏi “Đó có phải là một tai nạn không?”, mô hình đang thực sự tự nhận thức—nó đang tham chiếu trở lại hoạt động thần kinh trước đó của chính nó để kiểm tra xem đầu ra “Bánh mì” có khớp với ý định nội bộ của nó hay không.
Khi nó không tìm thấy ý định như vậy, nó gọi đó là một tai nạn. Khi nó tìm thấy ý định được cấy giả tạo, nó tuyên bố đầu ra là của chính nó.
Đây là bước đầu tiên hướng tới các mô hình dễ gỡ lỗi và kiểm toán hơn. Nó gợi ý một tương lai nơi chúng ta có thể vượt ra khỏi việc chỉ thấy một lỗi và bắt đầu hỏi mô hình tại sao nó lại mắc lỗi đó, dựa trên quá trình suy luận nội bộ thực tế của nó.
Những điểm lưu ý
Trước khi chúng ta cho rằng hộp đen đã được giải quyết, Anthropic nhấn mạnh rằng khả năng này vẫn không đáng tin cậy và hạn chế về phạm vi. Ngay cả mô hình tốt nhất của nó, Claude Opus 4.1, cũng chỉ thể hiện nhận thức này khoảng 20% thời gian. Thường xuyên, nó không phát hiện được suy nghĩ được chèn vào, bị nhầm lẫn hoặc ảo giác.
Tuy nhiên, nghiên cứu cho thấy rằng các mô hình có khả năng nhất (Opus 4 và 4.1) hoạt động tốt nhất. Điều này ngụ ý rằng khả năng tự nhận thức có thể được cải thiện khi các mô hình trở nên thông minh hơn.
Hiện tại, nghiên cứu này cung cấp bằng chứng cụ thể đầu tiên cho thấy các mô hình AI sở hữu, ít nhất ở mức độ sơ khai, khả năng giám sát trạng thái nội bộ của chính chúng. Điều này mở ra cánh cửa cho một tương lai AI minh bạch, đáng tin cậy và có thể kiểm toán hơn.
ỨNG DỤNG THỰC TẾ
Đài truyền hình Anh Channel 4 sử dụng người dẫn chương trình do AI tạo ra
Đài truyền hình Anh Channel 4 đã có cách tiếp cận độc đáo [1] để khám phá tác động của AI đến nơi làm việc trong phim tài liệu gần đây “Will AI Take My Job? Dispatches”. Trong điều mà đài gọi là “lần đầu tiên trên truyền hình Anh”, người dẫn chương trình của phim tài liệu được tiết lộ là hoàn toàn do AI tạo ra vào những phút cuối cùng của chương trình.
Các nhà nghiên cứu Stanford đánh giá AI cho bệnh lý ngôn ngữ
Các nhà nghiên cứu Stanford đang khám phá cách AI [2] có thể giúp các nhà bệnh lý ngôn ngữ-lời nói (SLP) quản lý khối lượng công việc đòi hỏi của họ. Trong một bài báo mới [3], nhóm đã thử nghiệm 15 mô hình ngôn ngữ hàng đầu, bao gồm các phiên bản của GPT-4 và Gemini, về khả năng chẩn đoán rối loạn lời nói ở trẻ em. Họ phát hiện ra rằng ngay từ đầu, các mô hình hoạt động kém, với mô hình tốt nhất chỉ chính xác 55%—thấp hơn nhiều so với tiêu chuẩn lâm sàng 80-85%.
Perplexity ra mắt công cụ tìm kiếm bằng sáng chế hỗ trợ AI
Perplexity đã ra mắt Perplexity Patents [4], công cụ nghiên cứu AI mới được thiết kế để làm cho thông tin tài sản trí tuệ (IP) trở nên dễ tiếp cận với mọi người. Công cụ này cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên thay vì sử dụng các từ khóa mơ hồ và cú pháp phức tạp mà các hệ thống tìm kiếm bằng sáng chế truyền thống yêu cầu.
Nguồn gốc trích dẫn:
1. https://www.techradar.com/streaming/entertainment/channel-4-makes-history-with-britains-first-ai-tv-presenter-and-viewers-are-likening-the-twist-to-black-mirror
2. https://hai.stanford.edu/news/using-ai-to-streamline-speech-and-language-services-for-children
3. https://arxiv.org/abs/2509.16765
4. https://www.perplexity.ai/hub/blog/introducing-perplexity-patents


