Chỉ vài giờ sau khi xAI tung ra Grok 4.1, Google đã có động thái “vượt mặt” với thông báo về Gemini 3. Mô hình Gemini mới nhất này được Google tự hào là “thông minh nhất từ trước đến nay”, và đã có mặt ngay lập tức trên ứng dụng Gemini, cũng như trong AI Studio và Vertex AI.
Gemini 3 sẽ ngay lập tức bắt đầu cung cấp sức mạnh cho AI Mode trong tìm kiếm, và Google cũng công bố thêm chế độ Gemini 3 Deep Think cùng Google Antigravity – một nền tảng phát triển agentic hoàn toàn mới.
Trong bài viết này, tôi sẽ phân tích toàn diện về những gì Google vừa công bố, ý nghĩa của nó đối với thị trường LLM (Large Language Model), và quan trọng hơn – tôi sẽ trực tiếp “thử sức” với Gemini 3 để xem nó thực sự có khả năng gì.
Gemini 3 Pro là gì?
Gemini 3 Pro là mô hình AI ngôn ngữ lớn mới nhất và tiên tiến nhất từ Google. Hiện đã có sẵn qua Gemini App, AI Studio và Vertex AI. Công ty tuyên bố đây là mô hình thông minh nhất của họ, với hiệu suất được cải thiện trong lập luận, lập trình và các tác vụ đa phương thức.

Mô hình mới này được xây dựng dựa trên thành công của bản phát hành Gemini 2.5 Pro – chỉ cách đây bảy tháng. Gemini 3 dẫn đầu bảng xếp hạng LMArena Leaderboard, thay thế Grok 4.1 chỉ sau vài giờ.
Khả năng lập luận ở mức tiến sĩ
Google khẳng định rằng Gemini 3 Pro có khả năng lập luận ở cấp độ tiến sĩ (PhD-level reasoning), và mô hình tự hào với các điểm số cao mới trên nhiều bảng xếp hạng benchmark AI khác nhau, bao gồm Humanity’s Last Exam, GPQA Diamond và MathArena Apex.
Bộ kết quả ấn tượng này có nghĩa là nó vượt trội hơn các mô hình như GPT-5.1 mới từ OpenAI và Claude Sonnet 4.5 từ Anthropic. Điều này không chỉ là tuyên bố marketing – đây là một bước tiến thực sự đáng kể trong cuộc đua AI.
Tính năng mới trong Gemini 3
Vậy Gemini 3 mang lại gì so với người tiền nhiệm và các mô hình mới khác? Bên cạnh bước nhảy vọt về hiệu suất, Google còn tuyên bố rằng bạn có thể “học, xây dựng và lên kế hoạch bất cứ thứ gì” với Gemini 3. Tuyên bố táo bạo thật. Hãy xem các tính năng mới để hiểu điều này có nghĩa gì:
1. Hiệu suất được cải thiện vượt bậc
Một trong những tính năng tiêu đề của mô hình Gemini 3 mới là hiệu suất dẫn đầu bảng xếp hạng. Ngay cả khi không có chế độ Deep Think, bản phát hành này vẫn là người dẫn đầu nổi bật trên bảng xếp hạng benchmark Humanity’s Last Exam, với điểm số 37.2% không sử dụng công cụ (41% với Deep Think) so với 26.5% của GPT-5.1.

Không chỉ văn bản, Gemini 3 còn xuất sắc với điểm số 23.4% trên benchmark MathArena Apex, là mô hình frontier có điểm cao nhất cho toán học. Tương tự, trên Video-MMMU – một benchmark video đa phương thức và đa lĩnh vực đánh giá khả năng tiếp thu kiến thức từ video giáo dục của các LMM – nó đạt 87.6%, một lần nữa đứng đầu bảng xếp hạng.
Tôi biết đôi khi dễ bị cuốn vào những con số benchmark, và có lẽ bài kiểm tra thực sự nên tập trung vào khả năng sử dụng thực tế. Nhưng rõ ràng Gemini 3 Pro là một bước tiến ấn tượng trong hiệu suất LLM.
2. Chế độ Deep Think – “Suy nghĩ sâu” hơn
Như chúng ta đã thấy trong Gemini 2.5 Pro, chế độ Deep Think sử dụng tư duy song song và học tăng cường để cải thiện đáng kể các phản hồi (nhưng với cái giá là phản hồi chậm hơn). Deep Think làm cho Gemini chi tiết hơn, sáng tạo hơn và “chu đáo” hơn.

Với Gemini 3 Deep Think, chúng ta có thể thấy cải thiện so với Gemini 3 Pro không có chế độ suy nghĩ trên các lĩnh vực như lập luận, kiến thức khoa học và các câu đố lập luận trực quan. Điều này có nghĩa là Deep Think có khả năng cải thiện trong việc giải quyết các thách thức mới, chưa quen thuộc.
Lưu ý quan trọng: Deep Think hiện đang ở chế độ đánh giá, có nghĩa là các tester đang đánh giá nó trước khi nó trở nên khả dụng cho các thuê bao Google AI Ultra “trong những tuần tới”.
3. Đa phương thức thực sự (True Multimodality)
Gemini 3 giới thiệu một kiến trúc đa phương thức mới xử lý văn bản, hình ảnh, âm thanh, video và code trong một transformer stack duy nhất thay vì thông qua các bộ mã hóa riêng biệt.
Sự thống nhất này cho phép lập luận cross-modal thực sự. Gemini 3 có thể diễn giải một bản phác thảo và tạo code hoạt động, hoặc phân tích video và giải thích các khái niệm khoa học trong đó. Kết quả benchmark trên Video-MMMU và MMMU-Pro xác nhận bước nhảy vọt lớn về hiểu biết không gian và thị giác. Giống như Gemini 2.5 Pro, nó cũng có cửa sổ ngữ cảnh một triệu token, vì vậy nó có thể kết nối các ý tưởng qua các đầu vào khổng lồ và khác nhau.
Tại sao điều này quan trọng? Với cửa sổ ngữ cảnh 1 triệu token, bạn có thể đưa vào toàn bộ sách, hàng trăm trang tài liệu, hoặc video dài giờ và mô hình vẫn “nhớ” và “hiểu” mọi thứ để đưa ra phản hồi nhất quán.
4. Sáng tạo Agentic (Agentic Creativity)
Gemini 3 chuyển từ tạo sinh thụ động sang sáng tạo agentic, được hỗ trợ bởi những tiến bộ mới trong việc sử dụng công cụ, lập kế hoạch và vibe coding. Kiến trúc của mô hình hỗ trợ các vòng lặp lập luận dài hạn cho phép nó lập kế hoạch, thực thi và xác thực các quy trình làm việc nhiều bước, như coding một trò chơi có thể chơi được hoặc xây dựng giao diện người dùng tương tác, tất cả từ một lời nhắc duy nhất.
Những khả năng này hiện cũng đang được triển khai thông qua Google Antigravity vừa được công bố – một nền tảng phát triển nơi các agent có quyền truy cập trực tiếp vào trình chỉnh sửa, terminal và trình duyệt. Đây là bản phát hành Gemini đầu tiên được xây dựng để hoạt động như một đồng phát triển (co-developer), sử dụng tự chủ có cấu trúc và tích hợp công cụ theo thời gian thực để biến ý tưởng sáng tạo thành hệ thống chức năng.
5. Học, xây dựng và lên kế hoạch mọi thứ?
Google đưa ra nhiều ví dụ về cách mô hình mới nhất có thể giúp bạn học, xây dựng và lên kế hoạch.
Có rất nhiều tập trung vào các cải tiến đa phương thức – khả năng hiểu và tạo thông tin qua các lĩnh vực như văn bản, hình ảnh, video, âm thanh và code.
Vibe coding đang là tâm điểm quan trọng cho nhiều người hiện nay, Gemini 3 sẽ làm cho việc các nhà phát triển biến ý tưởng thành hiện thực dễ dàng hơn. Google tuyên bố nó tuyệt vời trong việc tạo sinh một lần (one-shot generation), có nghĩa là bạn có thể tạo ra kết quả chất lượng cao từ một lời nhắc duy nhất. Nó cũng có thể xử lý các chỉ dẫn phức tạp, điều cần thiết nếu bạn muốn các dự án của mình thực sự sống động và phản hồi.
Gemini 3 khả dụng cho các nhà phát triển bắt đầu xây dựng các dự án agentic trong Google AI Studio, Vertex AI, Gemini CLI và Google Antigravity vừa được công bố.
Một tuyên bố khá ấn tượng cuối cùng ở đây là Gemini 3 Pro có thể duy trì việc sử dụng công cụ và ra quyết định một cách nhất quán trong một năm hoạt động mô phỏng. Đối với người dùng có đăng ký Google AI Ultra, bạn sẽ ngay lập tức có thể truy cập tính năng thử nghiệm Gemini Agent mới, có thể giúp bạn xây dựng các agent nhiều bước có khả năng sử dụng các tính năng này.
Benchmark điểm chuẩn Gemini 3
Google đã cung cấp dữ liệu benchmark mở rộng cho cả Gemini 3 Pro và Gemini Deep Think, và kết quả ấn tượng trên toàn bộ các mặt trận.
Benchmark của Gemini 3 Pro
Khi nói đến khả năng lập luận thuần túy, Gemini 3 Pro thể hiện những gì Google gọi là “lập luận cấp độ tiến sĩ”. Đây là những kết quả nổi bật:
Lập luận trực quan (Visual Reasoning)
Lập luận trực quan có một bước nhảy vọt lớn.
- ARC-AGI-2: Gemini 3 Pro đạt điểm 31.1%. Đây là một bước nhảy khổng lồ từ 4.9% của Gemini 2.5 Pro và vượt xa cả Claude Sonnet 4.5 và GPT-5.1.
- ScreenSpot-Pro (kiểm tra hiểu biết màn hình): Gemini 3 Pro đạt 72.7%, hoàn toàn áp đảo Claude Sonnet 4.5 (36.2%) và GPT-5.1 (3.5%).
Đây là những bước nhảy vọt lớn trong cách mô hình có thể hiểu và lập luận về thông tin trực quan.
Toán học
Với điểm số 23.4% trên MathArena Apex, Gemini 3 Pro nghiền nát đối thủ cạnh tranh. Để đặt vào viễn cảnh: Gemini 2.5 Pro đạt 0.5%, Claude Sonnet 4.5 đạt 1.6%, và GPT-5.1 chỉ đạt 1.0%. Điều này đại diện cho một tiêu chuẩn mới cho các mô hình frontier trong lập luận toán học.
Phân tích: Sự cải thiện gần 47 lần so với Gemini 2.5 Pro (từ 0.5% lên 23.4%) là một bước nhảy phi thường, cho thấy những thay đổi kiến trúc cơ bản.
Lập kế hoạch dài hạn (Long-Horizon Planning)
Để đo lường lập kế hoạch dài hạn, tồn tại một benchmark có tên Vending-Bench 2 mô phỏng việc điều hành một doanh nghiệp máy bán hàng tự động trong một năm đầy đủ. Mô hình phải đưa ra quyết định liên tục về hàng tồn kho, định giá và mọi thứ khác. Nó kiểm tra xem một AI có thể duy trì việc ra quyết định nhất quán, hợp lý qua hàng nghìn lựa chọn tuần tự mà không đánh mất mục tiêu hoặc đưa ra quyết định thất thường hay không.
Trên benchmark này:
- Gemini 3 Pro: Giá trị ròng trung bình $5,478.16
- Claude Sonnet 4.5: $3,838.74
- GPT-5.1: $1,473.43
Nó có thể nghe như một benchmark mơ hồ, nhưng đối với các AI agent trong thế giới thực có thể cần quản lý các nhiệm vụ trong nhiều ngày hoặc nhiều tuần, loại độ tin cậy này rất quan trọng.
Ý nghĩa thực tiễn: Khả năng này quan trọng cho các ứng dụng như quản lý dự án, lập kế hoạch tài chính dài hạn, hoặc điều hành chiến dịch marketing kéo dài nhiều tháng.
Các benchmark khác
Gemini 3 Pro cho thấy hiệu suất mạnh mẽ trên nhiều benchmark bổ sung. Nó dẫn đầu về hiểu biết đa phương thức (MMMU-Pro), hiểu video (Video-MMMU), lập luận biểu đồ (CharXiv), và coding cạnh tranh (LiveCodeBench Pro).

Một ngoại lệ đáng chú ý: Claude Sonnet 4.5 vượt qua Gemini 3 Pro một chút trên SWE-Bench Verified, đây là một benchmark kỹ thuật phần mềm.
Benchmark của Gemini Deep Think Mode
Bây giờ, hãy xem xét các benchmark cho Gemini Deep Think, chế độ lập luận nâng cao hiện đang được đánh giá với các tester an toàn trước khi trở nên khả dụng cho các thuê bao Google AI Ultra trong những tuần tới.
Bạn có thể tự hỏi: nếu Gemini 3 Pro đã dẫn đầu các bảng xếp hạng, tại sao chế độ Deep Think lại quan trọng? Câu trả lời là một số vấn đề sẽ hưởng lợi từ thời gian lập luận mở rộng. Deep Think sử dụng lập luận song song và kéo dài để dành nhiều nỗ lực tính toán hơn cho các nhiệm vụ đặc biệt thách thức. Nó được thiết kế để mất nhiều thời gian hơn, nhưng đối với các vấn đề lập luận khó nhất, thời gian xử lý thêm đó sẽ chuyển thành kết quả tốt hơn một cách có ý nghĩa, như được phản ánh trong các benchmark này:
Giải quyết vấn đề mới (Novel Problem Solving)
Kết quả ARC-AGI-2 là kết quả nổi bật đối với tôi. Gemini 3 với chế độ Deep Think đạt 45.1% trên ARC-AGI-2. (Đây là phiên bản được xác minh chính thức của benchmark liên quan đến cuộc thi ARC Prize.) Trong bài kiểm tra này, mô hình được phép viết và chạy code như một công cụ lập luận, về cơ bản sử dụng lập trình để giúp suy nghĩ qua các vấn đề.
Tại sao điều này quan trọng? ARC-AGI-2 cụ thể kiểm tra khả năng của mô hình để giải quyết các thách thức mới, chưa quen thuộc. Đây là những vấn đề nó chưa từng thấy trước đây và không thể chỉ đơn thuần khớp mẫu từ dữ liệu huấn luyện. Điều này trong lịch sử là một trong những điều khó nhất đối với các hệ thống AI, vì vậy một điểm số mạnh có nghĩa là chúng ta đang thấy khả năng lập luận thực sự chứ không chỉ là ghi nhớ.
Các câu hỏi cực kỳ khó
Chế độ Deep Think đạt 37.5% mà không sử dụng bất kỳ công cụ nào trên Humanity’s Last Exam. Và với chế độ Deep Think được bật, con số này nhảy lên 41.0%. Để tham khảo, GPT-5.1 đạt điểm 26.5%.
Benchmark này hấp dẫn vì nó được thiết kế để kiểm tra kiến thức và lập luận ở giới hạn của sự hiểu biết của con người. Hãy nghĩ về các vấn đề cực kỳ khó đòi hỏi chuyên môn sâu để giải quyết. Thực tế là Gemini 3, sử dụng Deep Think, có thể trả lời chính xác hơn một phần ba những câu hỏi này cho thấy nó không chỉ đơn thuần đọc lại thông tin, mà thực sự lập luận qua các vấn đề rất phức tạp và rất mơ hồ.
Khoa học cấp độ sau đại học
Chế độ Deep Think đạt điểm A – 91.9% – trên GPQA Diamond, đây là một benchmark câu hỏi khoa học cấp độ sau đại học. Deep Think đẩy điểm số cao hơn nữa lên 93.8%. Trong khi điểm 91.9% đã ấn tượng đủ rồi, điều thú vị hơn là điều này đại diện cho một baseline mà Deep Think có thể cải thiện hơn nữa.
Làm thế nào để có thể truy cập Gemini 3?
Gemini 3 Pro hiện đã có sẵn trên nhiều nền tảng. Bạn có thể sử dụng nó ngay lập tức trong ứng dụng Gemini. Nó cũng đang cung cấp sức mạnh cho AI Mode trong Search, vì vậy bạn có thể đang tương tác với Gemini 3 mà không hề biết.
Dành cho nhà phát triển
Nếu bạn là nhà phát triển, bạn có thể truy cập Gemini 3 Pro thông qua Gemini API trong Google AI Studio, Vertex AI và Gemini CLI. Nó cũng có sẵn trong nền tảng Google Antigravity vừa được công bố và một loạt công cụ bên thứ ba như Cursor, GitHub, JetBrains, Manus và Replit.
Dành cho người dùng cao cấp
Các thuê bao Google AI Ultra nhận quyền truy cập vào Gemini 3 Pro, cùng với tính năng thử nghiệm Gemini Agent để xây dựng các agent nhiều bước. Deep Think hiện đang được đánh giá với các tester an toàn và sẽ có sẵn cho các thuê bao Ultra trong những tuần tới, nhưng chỉ sau khi các đánh giá an toàn bổ sung được hoàn tất.
Dành cho sinh viên
Đối với sinh viên, Google đã giới thiệu một gói miễn phí một năm cung cấp quyền truy cập vào Gemini 3 Pro, cùng với tải lên hình ảnh không giới hạn, 2 TB lưu trữ và các công cụ bổ sung như NotebookLM.
Phân tích chính sách: Động thái này cho thấy Google đang đầu tư mạnh vào việc thu hút thế hệ developer trẻ – một chiến lược dài hạn thông minh trong cuộc đua AI.
Google đang sử dụng Gemini 3 như thế nào?
Gemini 3 Pro đã “được thả vào tự nhiên”, và Google đã đưa nó vào hoạt động trong hai tính năng chính:
1. Google Search AI Overviews
Google tin tưởng đến mức đang thực hiện bước đi bất thường là tích hợp nó trực tiếp vào Google Search. Trong khi AI Overviews đã được tung ra ngày càng nhiều trang kể từ tháng 4, Gemini 3 Pro giờ sẽ cung cấp sức mạnh cho những tổng quan này ngay từ ngày ra mắt.
Ý nghĩa chiến lược: Đây là một động thái táo bạo. Google đang đặt cược rằng Gemini 3 đủ tin cậy để xử lý hàng tỷ truy vấn tìm kiếm mỗi ngày. Nếu thành công, đây sẽ là lợi thế cạnh tranh khổng lồ so với các đối thủ như OpenAI và Anthropic không có công cụ tìm kiếm riêng.
2. Gemini 3 và Google Antigravity
Một phần thực sự thú vị khác của thông báo này là việc đưa vào một nền tảng phát triển agentic mới – Google Antigravity.
Công cụ mới này được hỗ trợ bởi khả năng lập luận, sử dụng công cụ và coding agentic của Gemini 3. Google hứa hẹn nó sẽ cảm thấy quen thuộc, giống như một AI IDE, nhưng các agent sẽ có thể truy cập trực tiếp vào editor, terminal và trình duyệt để giúp bạn lập kế hoạch, viết và kiểm tra các dự án phức tạp một cách tự động.
Hệ sinh thái tích hợp: Antigravity sẽ kết nối với:
- Gemini 3 Pro
- Mô hình Gemini 2.5 Computer Use để điều khiển trình duyệt
- Nano Banana (Gemini 2.5 Image) để chỉnh sửa hình ảnh
So sánh với đối thủ: Đây là câu trả lời trực tiếp của Google với Cursor, Windsurf và các AI IDE khác đang nổi lên. Nhưng với việc tích hợp sâu vào hệ sinh thái Google, Antigravity có tiềm năng trở thành tiêu chuẩn mới.
Nhận định cuối cùng: Cuộc chiến AI bước vào giai đoạn mới
Google rõ ràng đang tạo ra một tuyên bố với bản phát hành này: họ trở lại cuộc đua cho mô hình AI có khả năng nhất, và họ đang vận chuyển nó nhanh chóng ở quy mô trên toàn bộ hệ sinh thái sản phẩm của mình. Xét đến các thông số kỹ thuật, sẽ khó để không đồng ý với họ – Gemini 3 Pro có cảm giác như mô hình AI tốt nhất trên thế giới cho hiểu biết đa phương thức.
Những lợi thế cấu trúc của Google
Google, như mọi khi, được định vị tốt. Cơ sở hạ tầng đám mây, chip tùy chỉnh và ngăn xếp AI tích hợp theo chiều dọc của nó hiện đang củng cố lẫn nhau để mang lại hiệu suất mà ít đối thủ cạnh tranh có thể sánh kịp.
Bởi vì những cải tiến trải rộng trên mọi thứ từ lập luận, coding, hiểu biết đa phương thức và lập kế hoạch dài hạn, điều này mạnh mẽ gợi ý rằng Google đã thực hiện những cải tiến cơ bản cho kiến trúc cốt lõi của Gemini với Gemini 3 Pro.
Hướng đến doanh nghiệp
Hơn nữa, Google có vẻ như đang xây dựng với các trường hợp sử dụng kinh doanh cụ thể trong tâm trí, vì vậy các cách chúng ta sẽ sử dụng AI đang nhanh chóng trở nên đa dạng và thú vị hơn.
Các trường hợp sử dụng tiềm năng:
- Phát triển phần mềm: Với khả năng agentic và long-horizon planning, Gemini 3 có thể quản lý toàn bộ chu kỳ phát triển
- Phân tích dữ liệu: Cửa sổ ngữ cảnh 1 triệu token cho phép xử lý dataset khổng lồ
- Sáng tạo nội dung: Khả năng đa phương thức thực sự mở ra khả năng sản xuất nội dung từ văn bản, hình ảnh, video, audio
- Giáo dục: Với gói miễn phí cho sinh viên, Gemini 3 có thể trở thành công cụ học tập mạnh mẽ
Kết luận: Không chỉ là một bản nâng cấp, đây là một tuyên ngôn
Gemini 3 Pro không chỉ là một bản cập nhật tăng dần – đây là một bước nhảy vọt về kiến trúc cho thấy Google đã học được từ các đối thủ cạnh tranh và đang đẩy ranh giới của những gì có thể với LLM.
Với khả năng dẫn đầu trên hầu hết các benchmark quan trọng, tích hợp sâu vào hệ sinh thái Google, và khả năng đa phương thức thực sự, Gemini 3 Pro đặt ra một tiêu chuẩn mới mà OpenAI và Anthropic sẽ phải vượt qua.
Cuộc đua AI vừa trở nên thú vị hơn rất nhiều. Và điều tốt nhất? Chúng ta – người dùng cuối – là những người được hưởng lợi khi các gã khổng lồ công nghệ này cạnh tranh để tạo ra các công cụ AI tốt hơn, nhanh hơn và thông minh hơn.
Câu hỏi lớn nhất bây giờ: OpenAI và Anthropic sẽ phản ứng như thế nào? Và quan trọng hơn, Gemini 4 sẽ như thế nào nếu Gemini 3 đã ấn tượng đến vậy?
Tôi sẽ tiếp tục theo dõi và cập nhật khi có thông tin mới. Hẹn gặp lại trong các phân tích tiếp theo!



1 bình luận
Pingback: Google Gemini 3 ra mắt giúp Nvidia xoa dịu lo ngại về bong bóng AI | Infinity News