Ngay sau khi Google tung ra Gemini 3 với những con số benchmark ấn tượng, Anthropic đã nhanh chóng phản công bằng Claude Opus 4.5 – được họ tự hào gọi là “mô hình tốt nhất thế giới cho lập trình, agents và tương tác máy tính”. Và dù Gemini 3 có benchmark xuất sắc đến đâu, nó vẫn thua Claude Sonnet 4.5 trên SWE-bench – bài kiểm tra kỹ năng lập trình thực chiến. Giờ đây, với Claude Opus 4.5, Anthropic không chỉ phá vỡ kỷ lục của chính mình mà còn thiết lập chuẩn mực mới cho toàn ngành.
Claude Opus 4.5 là gì?
Claude Opus 4.5 là mô hình ngôn ngữ lớn (LLM) mới nhất từ Anthropic, kế thừa và vượt xa Opus 4 tiền nhiệm. Đây là mô hình tiên tiến nhất của hãng, được tối ưu hóa đặc biệt cho ba lĩnh vực: lập trình, suy luận logic và các tác vụ dài hạn.
Con số nói lên tất cả: 80.9% trên SWE-bench và 59.3% trên Terminal-bench – những bài kiểm tra yêu cầu mô hình phải thực sự “hiểu code” và “sửa bug” như một lập trình viên chuyên nghiệp.
Claude Opus 4.5 hiện đã có mặt trên ứng dụng của Anthropic, API và các nền tảng cloud lớn.
Có gì mới trong Claude Opus 4.5?
Từ thông báo chính thức, Infinity News rút ra những điểm nổi bật sau:
1. Lập trình Agentic
Opus 4.5 đạt ngôi đầu trên SWE-bench Verified, vượt qua cả Gemini 3 Pro của Google và GPT-5.1 của OpenAI. Nhưng điều ấn tượng hơn là: Anthropic đã thử nghiệm mô hình này với một bài kiểm tra tuyển dụng thực tế dành cho performance engineers – kết quả của Opus 4.5 cao hơn bất kỳ ứng viên con người nào từng làm bài này.
Đây không phải chuyện đùa. Một mô hình AI vượt qua những kỹ sư giỏi nhất trong một bài thi chuyên môn cao – đó là minh chứng cho khả năng lập trình thực chiến của nó.
2. Tương tác máy tính như con người
Anthropic khẳng định Opus 4.5 là “mô hình tốt nhất thế giới cho computer use” – khả năng tương tác với giao diện phần mềm như một người dùng thực sự: click chuột, điền form, điều hướng website, v.v.
Nói cách khác, đây không chỉ là một chatbot trả lời câu hỏi. Đây là một AI agent có thể thực hiện hành động thực tế trên máy tính của bạn.
3. Công việc hàng ngày
Theo Anthropic, mô hình này “tốt hơn đáng kể” trong việc xử lý spreadsheet, tạo slides và nghiên cứu chuyên sâu.
Các tính năng sản phẩm mới
Cùng với mô hình, Anthropic cũng công bố một loạt cập nhật sản phẩm:
- Claude for Chrome: Extension trình duyệt cho phép Claude thao tác trên nhiều tab
- Claude for Excel: Tự động hóa công việc với spreadsheet
Thử nghiệm Claude Opus 4.5 trong thực tế
Infinity News đã tiến hành một số bài kiểm tra để đánh giá khả năng thực sự của mô hình này.
Test 1: Bài toán tối ưu kinh tế
Infinity News đưa ra một bài toán tối ưu hóa kinh tế cổ điển – mô hình cầu log-linear dự đoán số lượng bán được từ giá cả. Đây là dạng bài phổ biến trong khóa học kinh tế lượng, nhưng cũng rất hữu ích trong thực tế.
Let’s say I have a linear model that predicts quantity sold from price. Here are my linear model coefficients: # Model coefficients b0 <- 4.596 # Intercept b1 <- -4.974e-05 # Slope for price Can you find the price that maximizes revenue if revenue = quantity * e^(b0 + b1 * price)

Kết quả: Opus 4.5 đưa ra đáp án chính xác ngay lập tức, không cần suy nghĩ lâu.
Điều ấn tượng là: mô hình không chỉ đưa ra con số, mà còn trình bày chi tiết quy trình giải: đạo hàm, phân tích, đại số. Nếu có sai sót, người dùng có thể dễ dàng phát hiện ở đâu.
Đây là điều quan trọng vì hầu hết công ty đều có dữ liệu về số lượng bán và giá cả, nhưng không phải công ty nào cũng có nguồn lực để giải quyết các bài toán tối ưu hóa cơ bản. Với một prompt được thiết kế tốt, bạn có thể có câu trả lời ngay lập tức.
Test 2: Câu hỏi thống kê
Infinity News muốn thử nghiệm Opus 4.5 trên một câu hỏi thống kê. Tôi đã tạo một tập dữ liệu trong đó yieldlà một hàm của temperaturevới nhiễu được thêm vào.

Sau đó tôi đưa cho Claude lời nhắc này.
“Can you create R code for me. Find the distribution of possible slopes. I expect the data has unequal variance. X is part of the experimental design.”
Claude trả lại cho chúng tôi thông tin sau, tôi đã dùng thông tin này để tạo biểu đồ ở bên dưới.

Chúng tôi phải nói rằng tôi thích kết quả này. Opus 4.5 đã tìm ra khoảng tin cậy cho độ dốc, đây chính là điều chúng tôi thực sự mong muốn.
Phương pháp này sử dụng phương pháp bootstrap , một kỹ thuật tốt để tìm khoảng tin cậy khi có hiện tượng phương sai không đồng nhất . Cụ thể hơn, phương pháp này sử dụng bootstrap trên phần dư, thay vì một phương pháp bootstrap khác lấy mẫu lại cặp (X, Y), vốn giả định có sai số trong phần tử X.
Tất cả những điều này là một điểm tinh tế hơn nhưng có lẽ quan trọng đối với những người làm công việc này: Một bootstrap dư thừa sẽ tốt hơn khi X được cố định theo thiết kế, như tôi đã nêu trong lời nhắc của mình, và khi bạn muốn suy luận có điều kiện dựa trên các giá trị X chính xác đó, chẳng hạn như trong một nghiên cứu khoa học. Điều tôi muốn nói là Opus 4.5 đã lắng nghe những điểm tinh tế trong lời nhắc.
Test 3: câu hỏi toán học mẹo
Infinity News cố tình đưa ra một câu hỏi có vấn đề logic – định nghĩa X bằng Y và ngược lại, tạo ra một vòng tròn luận chứng.

Kết quả: Mô hình nhận ra ngay lập tức rằng câu hỏi này là circular (vòng tròn) và giải thích tại sao không thể tính toán được hệ số hồi quy có ý nghĩa.
Opus 4.5 đã vượt qua “bẫy” này một cách dễ dàng.
Test 4: Tối ưu hóa sql
Infinity News đưa cho mô hình một SQL query hoạt động được nhưng cực kỳ kém hiệu quả – với nhiều subquery lồng nhau, EXISTS không cần thiết, và ORDER BY tính toán động.

Yêu cầu: “Làm query này tốt hơn”.

Kết quả: Trong khoảng 1 giây, Opus 4.5 trả về phiên bản được tối ưu hoàn toàn:
- Thay thế correlated subquery tính AVG bằng CTE (Common Table Expression) – giảm đáng kể số lần tính toán
- Loại bỏ mệnh đề IN (SELECT DISTINCT …) thừa thãi
- Chuyển EXISTS subquery thành JOIN – hiệu quả hơn nhiều
Query mới không chỉ ngắn gọn mà còn chạy nhanh hơn đáng kể.
Claude Opus 4.5 Agents và khả năng Agentic
Tính năng nền tảng Developer
Anthropic đã bổ sung nhiều “building blocks” mới cho developers. Đáng chú ý nhất là effort parameter – cho phép kiểm soát mức độ “suy nghĩ” của mô hình trước khi trả lời.
- Effort thấp: Cho các tác vụ nhanh, đơn giản
- Effort cao: Khi cần mô hình phân tích kỹ lưỡng
Con số thú vị: Ở mức effort trung bình, Opus 4.5 đạt điểm SWE-bench ngang Sonnet 4.5 nhưng chỉ dùng 76% số token output. Ở mức effort cao, nó vượt Sonnet hơn 4% trong khi vẫn dùng gần như một nửa số token.
Ngoài ra còn có:
- Context management và memory cải thiện: Tự động tóm tắt context cũ để agents không “đụng trần” giữa chừng
- Context compaction: Giúp agents chạy lâu hơn với ít can thiệp hơn
- Multi-agent orchestration: Opus 4.5 có thể quản lý một “đội” các subagents
Claude Opus 4.5 Deep Research
Hiệu suất nghiên cứu chuyên sâu tăng khoảng 15%.
Infinity News đã thử nghiệm bằng cách yêu cầu một báo cáo về từ ngữ tiếng Anh cổ (Old English) còn tồn tại đến ngày nay nhưng ít được sử dụng, và cách chúng biến đổi theo thời gian.
Kết quả: Báo cáo hoàn thành trong 7 phút.
Chất lượng báo cáo thực sự ấn tượng:
- Nội dung thú vị, không quá khô khan
- Viết tốt, có tổ chức logic
- Nghiên cứu cực kỳ kỹ lưỡng với nhiều nguồn trích dẫn chính xác
Và quan trọng hơn: Infinity News học được một từ mới tuyệt vời – apricity: sự ấm áp của ánh nắng mặt trời vào mùa đông.
Claude Code
Hai nâng cấp lớn:
- Plan Mode: Xây dựng kế hoạch chi tiết trước khi thực thi. Claude sẽ đặt câu hỏi làm rõ, sau đó tạo file plan.md để bạn xem và chỉnh sửa trước khi bắt đầu làm việc.
- Desktop app integration: Chạy nhiều phiên làm việc local và remote song song. Ví dụ: một agent sửa bug, agent khác nghiên cứu GitHub issues, agent thứ ba cập nhật docs – tất cả cùng lúc.
Consumer App Agents
- Claude for Chrome: Xử lý tasks trên nhiều tab trình duyệt, có sẵn cho tất cả Max users
- Claude for Excel: Tự động hóa spreadsheet, đã mở rộng beta cho tất cả Max, Team và Enterprise users
- Long conversation handling: Tự động tóm tắt phần đầu cuộc hội thoại dài để không bị giới hạn context
Kết quả benchmark Claude Opus 4.5
Opus 4.5 đứng đầu hoặc gần đầu trong hầu hết các benchmark quan trọng:

Điểm nổi bật:
- SWE-bench Verified: 80.9% (cao nhất)
- Terminal-bench: 59.3%
- τ2-bench (Tool use): Dẫn đầu
- MCP Atlas: Dẫn đầu
- OSWorld (Computer use): Dẫn đầu với khoảng cách lớn
Đặc biệt ấn tượng: Scaled tool use gap – 62.3% so với 43.8% của đối thủ gần nhất (cũng là Claude model cũ hơn). Khoảng cách này cho thấy Anthropic đang đầu tư rất mạnh vào khả năng agentic.
Về các benchmark tri thức (GPQA Diamond, MMMLU), Gemini 3 Pro vẫn có phần dẫn trước – điều này có thể do Google có nhiều tài nguyên training data hơn.
Tiến bộ về an toàn và Alignment
Anthropic không chỉ tập trung vào hiệu suất mà còn nhấn mạnh an toàn, gọi đây là mô hình “safest and most robustly aligned” họ từng phát hành.
Điều này được chứng minh bởi:
- Concerning behavior score thấp hơn các mô hình 4.5 khác, cũng như GPT-5.1 và Gemini 3 Pro
- Kháng prompt injection attacks tốt hơn – loại tấn công có thể lừa mô hình thực hiện hành vi có hại
Giá và khả năng tiếp cận
Claude Opus 4.5 đã có sẵn hôm nay trên toàn bộ hệ sinh thái của Anthropic: ứng dụng Claude, API và cả ba nền tảng cloud lớn. Developers có thể truy cập trực tiếp qua model ID: claude-opus-4-5-20251101.
Giá Cả Hấp Dẫn:
- $5/triệu input tokens
- $25/triệu output tokens
Đây là mức giá giảm đáng kể so với trước, giúp khả năng hàng đầu của Anthropic trở nên dễ tiếp cận hơn nhiều.
Đối với doanh nghiệp, sự thay đổi giá này có ý nghĩa đặc biệt quan trọng. Kết hợp chi phí thấp hơn, API mở rộng và khả năng triển khai trên nhiều nền tảng cloud – Opus 4.5 trở thành lựa chọn cạnh tranh thực sự.
Kết luận
Claude Opus 4.5 là tuyên bố rõ ràng nhất của Anthropic về định hướng trong cuộc đua AI. Trong khi Google tập trung vào hiểu biết đa phương thức (multimodal) và mô hình on-device, Anthropic đặt cược mạnh vào hành động: agentic coding, tool use và tương tác máy tính.
Kết quả benchmark nói lên tất cả: Opus 4.5 đạt điểm cao nhất từng được ghi nhận trên các benchmark về software engineering và xử lý debugging đa hệ thống mà không cần nhiều hướng dẫn.
Các bài test của Infinity News xác nhận những gì benchmark gợi ý: Opus 4.5 rất giỏi trong công việc đa bước. Dù là chạy bootstrap simulations hay tổng hợp nghiên cứu từ nhiều papers, mô hình tiếp cận vấn đề như một nhà tư duy: linh hoạt và với lý luận rõ ràng.
Nếu bạn đang tìm cách nâng cấp quy trình làm việc của mình, đây chính là điều quan trọng nhất.
Câu hỏi thường gặp
1. Claude Opus 4.5 khác gì so với Sonnet 4.5 và Haiku 4.5?
Opus 4.5 là mô hình mạnh nhất, được xây dựng cho suy luận phức tạp, lập trình và các tác vụ dài hạn. Sonnet 4.5 cân bằng giữa hiệu suất và chi phí, trong khi Haiku 4.5 được tối ưu cho tốc độ và hiệu quả.
2. Tôi có thể truy cập Claude Opus 4.5 ở đâu?
Trên ứng dụng web và mobile của Claude, Claude API, và tất cả các nền tảng cloud lớn.
3. Anthropic có tăng khả năng context hay memory của Claude không?
Có. Opus 4.5 giới thiệu quản lý context mạnh hơn, xử lý cuộc hội thoại dài hơn và khả năng tóm tắt cải thiện để hỗ trợ suy luận mở rộng và tác vụ đa bước.
4. Opus 4.5 tuân theo tiêu chuẩn an toàn nào?
Mức an toàn cao nhất của Anthropic, với nâng cấp lớn về alignment, điểm “concerning behavior” giảm và kháng prompt injection attacks tốt hơn.
5. Loại use case nào hưởng lợi nhiều nhất từ Opus 4.5?
Suy luận phức tạp, đa bước như debugging, nghiên cứu và multi-agent orchestration. Với tác vụ đơn giản hơn hoặc nhanh hơn, Sonnet hoặc Haiku có thể hiệu quả về chi phí hơn.


