Với mức độ mong đợi hiện tại, có khả năng mô hình này sẽ làm nhiều người thất vọng. Thẳng thắn mà nói, việc nhận ra sự khác biệt đáng chú ý giữa các mô hình với các câu hỏi thông thường ngày càng khó khăn hơn. Nhiều người dùng thường chạy cùng một câu hỏi đồng thời trên cả Gemini và ChatGPT, và mặc dù vẫn hơi thiên về ChatGPT, nhưng đó không còn là sự ưu tiên mạnh mẽ như trước nữa. Không ngạc nhiên nếu điều đó vẫn còn đúng ngay cả sau khi Gemini 3.0 ra mắt.

Từ “stochastic parrots” đến khả năng suy luận thực sự?
Mặc dù sự khác biệt giữa các mô hình có thể vẫn là một câu hỏi mở, dường như cực kỳ có khả năng rằng năng lực của các mô hình gần như chắc chắn sẽ tiếp tục được cải thiện theo thời gian. Ngay cả khi nó có thể không hoàn toàn rõ ràng với hầu hết người dùng, gần đây một bài viết thú vị của Mark Humphries (Giáo sư Lịch sử tại Đại học Wilfrid Laurier) về khả năng được cho là của Gemini 3.0 đã giúp chúng ta hiểu tại sao những người gần gũi nhất với việc xây dựng các mô hình này dường như “nghiện” chuyện AGI. Tất nhiên, có góc nhìn hoài nghi rằng những người này có động lực để truyền bá niềm tin như vậy, nhưng cũng đáng để suy ngẫm rằng những niềm tin đó có thể thực sự có cơ sở.
Mark Humphries cho biết một mô hình Google chưa được phát hành mà ông truy cập qua Google AI Studio (xuất hiện dưới dạng A/B test với hai câu trả lời để chọn) gần như hoàn hảo trong việc nhận dạng văn bản viết tay (HTR – handwritten text recognition) trên các bản thảo lộn xộn từ thế kỷ 18 và cũng thể hiện khả năng suy luận biểu tượng từng bước một cách tự phát. Ông (và những người khác) suy đoán đây có thể là mô hình thời đại Gemini 3.
Humphries đã sử dụng công việc chuyên môn của mình – phân tích các sổ kế toán viết tay mơ hồ từ thế kỷ 18 – làm điểm chuẩn. Ông lưu ý rằng nhiệm vụ này đặc biệt khó khăn vì nó đòi hỏi nhiều hơn là chỉ nhận dạng hình ảnh của chữ viết lộn xộn; nó đòi hỏi sự tích hợp bối cảnh lịch sử, sắc thái ngôn ngữ và suy luận logic. Từ bài viết của ông:
“Hầu hết mọi người nghĩ rằng việc giải mã chữ viết tay lịch sử là nhiệm vụ chủ yếu đòi hỏi thị giác. Tôi đồng ý rằng điều này đúng, nhưng chỉ ở một mức độ nhất định. Khi bạn quay ngược thời gian, bạn bước vào một đất nước khác, như câu ngạn ngữ vẫn nói. Mọi người nói chuyện khác nhau, sử dụng những từ xa lạ hoặc những từ quen thuộc theo cách xa lạ. Mọi người trong quá khứ sử dụng các hệ thống đo lường và kế toán khác nhau, các cách diễn đạt, dấu câu, viết hoa và chính tả khác nhau. Ý nghĩa ngụ ý khác nhau cũng như các giả định về những gì người đọc sẽ biết.
Mặc dù có thể dễ dàng giải mã hầu hết các từ trong một văn bản lịch sử, nhưng không có kiến thức về bối cảnh chủ đề và giai đoạn thời gian, gần như không thể hiểu một tài liệu đủ tốt để phiên âm chính xác toàn bộ – chứ chưa nói đến việc sử dụng nó một cách hiệu quả. Điều trớ trêu là một số thông tin quan trọng nhất trong các bức thư lịch sử cũng là thông tin cụ thể nhất về thời kỳ và do đó khó giải mã nhất.”
Bước nhảy vọt về độ chính xác
Mô hình này thể hiện độ chính xác đáng kinh ngạc trong việc phiên âm. Humphries báo cáo rằng mô hình tiên tiến nhất trước đây (Gemini 2.5 Pro) đạt Tỷ lệ Lỗi Ký tự (CER) khoảng 4% trên các tài liệu phức tạp này – tương đương với một người phiên âm chuyên nghiệp. Mô hình mới đã giảm CER xuống chỉ còn 0,56% và Tỷ lệ Lỗi Từ (WER) xuống còn 1,22%:
“Hiệu suất của mô hình Gemini mới về HTR đáp ứng các tiêu chí cho hiệu suất chuyên gia cấp con người. Các kết quả này cũng tốt hơn 50-70% so với những kết quả đạt được bởi Gemini-2.5-Pro. Trong hai năm, chúng ta thực tế đã đi từ các bản phiên âm không khác gì văn vô nghĩa đến mức độ chính xác cấp chuyên gia con người. Và sự nhất quán trong bước nhảy vọt giữa mỗi thế hệ mô hình chính xác là những gì bạn sẽ mong đợi nếu các quy luật mở rộng (scaling laws) vẫn giữ nguyên: khi một mô hình trở nên lớn hơn và phức tạp hơn, bạn sẽ có thể dự đoán nó sẽ hoạt động tốt như thế nào trên các nhiệm vụ như thế này chỉ bằng cách biết kích thước của mô hình.”
Nhưng điều thực sự đáng chú ý không chỉ là khả năng nhận dạng. Mô hình này đã thể hiện điều mà Humphries gọi là “suy luận biểu tượng tự phát” – khả năng hiểu và áp dụng các quy tắc ngầm định của hệ thống đo lường thế kỷ 18:
“Khi tôi hỏi mô hình về một con số cụ thể trong sổ sách – ‘145’ – nó không chỉ đơn giản nhận dạng số đó. Nó suy luận rằng trong bối cảnh của các sổ sách thương mại thế kỷ 18, con số này có thể có nghĩa là ’14 pound 5 ounce’ (14 lb 5 oz), phản ánh một hệ thống đo lường phổ biến trong thời kỳ đó. Điều này không được hướng dẫn cụ thể trong prompt – mô hình tự phát hiện ra nó.”
Ý nghĩa sâu xa hơn là gì?
Ý nghĩa sâu sắc nhất là khả năng chuyển đổi của AI từ những “con vẹt ngẫu nhiên tinh vi” (stochastic parrots) sang các hệ thống có khả năng hiểu biết thực sự. Một lần nữa, từ bài viết của ông:
“Quan điểm an toàn hơn là giả định rằng Gemini không ‘biết’ rằng nó đang giải quyết một bài toán số học thế kỷ mười tám, nhưng các biểu diễn nội bộ của nó đủ phong phú để mô phỏng quá trình làm như vậy. Nhưng câu trả lời đó dường như bỏ qua những sự thật hiển nhiên: nó đã tuân theo một quy trình có chủ đích, phân tích qua nhiều lớp trừu tượng hóa biểu tượng, tất cả đều không được nhắc nhở. Điều này có vẻ mới mẻ và quan trọng.
Nếu hành vi này chứng tỏ là đáng tin cậy và có thể tái tạo, nó chỉ ra điều gì đó sâu sắc mà các phòng thí nghiệm cũng bắt đầu thừa nhận: rằng lý luận thực sự có thể không đòi hỏi các quy tắc rõ ràng hoặc cấu trúc biểu tượng để xuất hiện, mà thay vào đó có thể nảy sinh từ quy mô, đa phương thức và tiếp xúc với đủ độ phức tạp có cấu trúc.”
Trong một ý nghĩa hẹp, HTR gần như hoàn hảo kết hợp với sự hiểu biết về bối cảnh sẽ cho phép số hóa và phân tích nhanh chóng hàng thế kỷ kiến thức bị “giam cầm”, có khả năng viết lại sự hiểu biết của chúng ta về quá khứ:
“Đối với các nhà sử học, những ý nghĩa là tức thời và sâu sắc. Nếu những kết quả này giữ vững dưới thử nghiệm có hệ thống, chúng ta sẽ bước vào một kỷ nguyên trong đó các mô hình ngôn ngữ lớn không chỉ có thể phiên âm các tài liệu lịch sử ở mức độ chính xác cấp chuyên gia-con người, mà còn có thể lý luận về chúng theo những cách có ý nghĩa lịch sử. Nghĩa là, chúng không còn chỉ đơn giản nhìn thấy chữ cái và từ – và những từ đúng nữa – chúng đang bắt đầu diễn giải bối cảnh, logic và thực tế vật chất. Một mô hình có thể suy luận ý nghĩa của ‘145’ là ’14 lb 5 oz’ trong một sổ sách thương nhân thế kỷ 18 không chỉ thực hiện nhận dạng văn bản: nó đang thể hiện sự hiểu biết về các hệ thống kinh tế và văn hóa trong đó những hồ sơ đó được tạo ra… và sau đó sử dụng kiến thức đó để tái diễn giải quá khứ theo những cách dễ hiểu.”
Từ lịch sử đến mọi lĩnh vực
Một AI có khả năng suy luận có thể bắt đầu tự động hóa các nhiệm vụ nhận thức phức tạp trước đây được cho là l영vực độc quyền của các chuyên gia con người. Ý nghĩa của một hệ thống như vậy có thể còn sâu sắc hơn nhiều so với việc chỉ viết lại sự hiểu biết của chúng ta về quá khứ – bản thân điều đó đã không phải là thành tựu nhỏ!
Nếu một mô hình AI có thể:
- Hiểu bối cảnh lịch sử và văn hóa phức tạp
- Suy luận các quy tắc ngầm định trong hệ thống cũ
- Áp dụng logic đa lớp mà không cần hướng dẫn rõ ràng
…thì chúng ta đang nói về một bước ngoặt cơ bản trong cách AI xử lý thông tin. Đây không còn là câu chuyện về “mô hình lớn hơn = tốt hơn một chút”. Đây là câu chuyện về sự xuất hiện của các khả năng mới theo cách mà chúng ta chưa thấy trước đó.
Quan điểm phân tích
Càng dành nhiều thời gian để hiểu và theo dõi AI, thế giới quan của nhiều người càng gần với tweet của Ilya Sutskever vài năm trước: “Có thể chúng ta đang đánh giá thấp sâu sắc các mạng nơ-ron lớn.”

Điều mà Mark Humphries mô tả không chỉ là cải thiện gia tăng. Nếu mô hình thực sự có thể suy luận về bối cảnh lịch sử, văn hóa và logic mà không được dạy cụ thể, thì đây là bằng chứng cho thấy “emergence” (sự nảy sinh) – khả năng mới xuất hiện từ quy mô và phức tạp – không chỉ là lý thuyết mà là thực tế đang diễn ra.
Dù vậy, chúng ta cần giữ thái độ hoài nghi lành mạnh. Có thể mô hình chỉ đang “mô phỏng” sự hiểu biết thay vì thực sự “hiểu”. Nhưng ranh giới giữa hai điều này ngày càng mờ nhạt. Và nếu kết quả cuối cùng là như nhau – nếu mô hình có thể giải quyết các vấn đề phức tạp đòi hỏi suy luận đa tầng – thì liệu sự phân biệt đó có còn quan trọng không?
Có lẽ câu hỏi quan trọng hơn là: Nếu Gemini 3.0 thực sự có những khả năng này, liệu các ứng dụng thực tế sẽ theo kịp công nghệ đủ nhanh không? Vì như chúng ta đã thấy với nhiều đột phá AI khác, khoảng cách giữa “khả năng ấn tượng trong phòng lab” và “công cụ hữu ích trong đời sống hàng ngày” vẫn còn rất xa.
Dù sao đi nữa, tuần tới hứa hẹn sẽ rất thú vị.


