Tóm tắt nhanh
Ba báo cáo lớn vừa được công bố cùng tuần cuối năm 2025 vẽ nên bức tranh toàn cảnh về AI: Stanford HAI cho thấy độ minh bạch của các công ty AI đang giảm đáng lo ngại, Perplexity và Harvard phát hiện 57% hoạt động AI agent tập trung vào công việc nhận thức phức tạp thay vì việc vặt, còn OpenAI tiết lộ doanh nghiệp đang chuyển từ thử nghiệm sang tích hợp sâu với mức tiêu thụ reasoning token tăng 320 lần. Infinity News tổng hợp những phát hiện quan trọng nhất từ cả ba báo cáo.
Những điểm chính trong nội dung
- Điểm minh bạch trung bình của 13 công ty AI lớn chỉ đạt 40/100 — IBM dẫn đầu với 95 điểm, xAI và Midjourney đội sổ với 14 điểm
- 10/13 công ty không công bố bất kỳ thông tin nào về mức tiêu thụ năng lượng và nước của mô hình AI
- 57% hoạt động AI agent dành cho công việc nhận thức phức tạp, không phải việc vặt hành chính
- Người dùng “frontier” (top 5%) gửi gấp 6 lần tin nhắn so với người dùng trung bình
- 75% nhân viên cho biết họ có thể hoàn thành những công việc trước đây không thể làm được nhờ AI
- Tin nhắn liên quan đến coding từ vai trò không phải kỹ sư tăng 36% trong 6 tháng
Bối cảnh tuần AI sôi động: Tại sao đây là tuần quan trọng nhất năm 2025?
Trước khi đi vào ba báo cáo nghiên cứu, chúng ta cần hiểu bối cảnh: tuần này không chỉ có báo cáo — mà là một loạt sự kiện lớn xảy ra đồng thời, vẽ nên bức tranh AI đang chuyển động với tốc độ chóng mặt.
OpenAI ra mắt GPT-5.2: Nhắm vào workflow chuyên nghiệp
OpenAI vừa phát hành GPT-5.2 — dòng mô hình tiên tiến nhất dành cho công việc chuyên nghiệp và AI agent hoạt động dài hạn. Bản cập nhật bao gồm ba phiên bản: Instant, Thinking, và Pro — hiện đã có sẵn cho người dùng ChatGPT trả phí và developer.
OpenAI cho biết các mô hình mới thể hiện cải tiến đáng kể về coding, hiểu ngữ cảnh dài (long-context understanding), và sử dụng công cụ cho workflow phức tạp. Theo testing nội bộ, GPT-5.2 Thinking vượt trội hơn chuyên gia ngành trên khoảng 71% các tác vụ knowledge work.
Bản cập nhật này ra đời sau các báo cáo về memo nội bộ “code red” liên quan đến áp lực cạnh tranh từ Gemini 3 của Google.
Mistral tung Devstral 2 và Vibe CLI open-source
Mistral AI phát hành Devstral 2 — gia đình mô hình coding open-source mới được thiết kế để vận hành autonomous agent. Bản phát hành có hai kích thước: Devstral 2 với 123B parameter đạt 72.2% trên SWE-bench Verified, và Devstral Small 2 nhỏ hơn với 24B parameter có thể chạy local trên phần cứng consumer.
Cùng với các mô hình, Mistral ra mắt Mistral Vibe — một CLI agent open-source tích hợp trực tiếp vào terminal và IDE như Zed để tự động hóa các tác vụ software engineering từ đầu đến cuối. Devstral 2 hiện miễn phí qua API (trong thời gian giới hạn) và được quảng bá là tiết kiệm chi phí gấp 7 lần so với đối thủ như Claude Sonnet cho các tác vụ thực tế.
Runway ra mắt GWM-1 — World Model đầu tiên
Runway chính thức tham gia cuộc đua World Model với GWM-1 — hệ thống AI được thiết kế để mô phỏng môi trường thực tế theo thời gian thực, thay vì chỉ đơn thuần tạo video.
Bản phát hành có ba biến thể riêng biệt: GWM Worlds để tạo môi trường vô hạn, có thể khám phá với vật lý nhất quán; GWM Robotics để tạo dữ liệu tổng hợp huấn luyện autonomous agent; và GWM Avatars cho nhân vật tương tác chân thực. Được xây dựng trên Gen-4.5 mới cập nhật (giờ đã thêm native audio và multi-shot capabilities), Runway định vị GWM-1 là bước tiến tới general-purpose simulation — cho phép AI “trải nghiệm” thế giới.
Disney hợp tác với OpenAI và gửi cease-and-desist cho Google cùng ngày
Disney công bố partnership mang tính bước ngoặt với OpenAI để tích hợp thư viện IP khổng lồ (bao gồm Marvel, Pixar, và Star Wars) vào Sora. Trong thỏa thuận ba năm này, Disney sẽ đầu tư 1 tỷ USD vào OpenAI và trở thành khách hàng enterprise lớn, sử dụng API của OpenAI để xây dựng công cụ và trải nghiệm mới cho Disney+.
Thỏa thuận này cho thấy các công ty media lớn đang ngày càng cởi mở với hợp tác thay vì chỉ kiện tụng phòng thủ. Tuy nhiên, cùng ngày công bố partnership, Disney gửi thư cease-and-desist cho Google — lặp lại đơn kiện mà Disney và Universal đã nộp chống Midjourney hồi ngày 11 tháng 6.
Ba báo cáo lớn về AI từ OpenAI, Perplexity và Stanford
Tuần này chứng kiến sự phát hành của ba báo cáo toàn diện vẽ bản đồ tình trạng hiện tại của bối cảnh AI.
Phân tích của OpenAI về adoption trong doanh nghiệp cho thấy sự chuyển dịch từ thử nghiệm sang tích hợp sâu, với những người dùng heavy-user đạt được mức tăng năng suất đáng kể. Trong khi đó, nghiên cứu của Perplexity và Harvard về AI agent thách thức narrative “digital butler”, cho thấy người dùng chủ yếu triển khai agent cho công việc nhận thức phức tạp thay vì các tác vụ đơn giản. Cuối cùng, Transparency Index mới nhất của Stanford HAI nêu bật xu hướng đáng lo ngại: khi các mô hình ngày càng trở nên trung tâm của nền kinh tế, các công ty xây dựng chúng lại đang trở nên kém minh bạch hơn.
Infinity sẽ phân tích chi tiết phát hiện từ cả ba báo cáo trong phần tiếp theo.
1. Bối cảnh: Tuần lễ báo cáo AI lớn nhất năm
Tại sao ba báo cáo này quan trọng?
Cuối năm 2025 chứng kiến sự trùng hợp hiếm có: ba tổ chức uy tín — Stanford HAI, Perplexity kết hợp Harvard, và OpenAI — cùng công bố nghiên cứu quy mô lớn về tình trạng AI.
Mỗi báo cáo nhìn vào một góc khác nhau:
- Stanford HAI: Các công ty AI có minh bạch không? (Góc nhìn quản trị)
- Perplexity + Harvard: Người dùng thực sự làm gì với AI agent? (Góc nhìn hành vi)
- OpenAI: Doanh nghiệp đang triển khai AI như thế nào? (Góc nhìn ứng dụng)
Kết hợp lại, chúng ta có bức tranh toàn cảnh: AI đang được tích hợp sâu hơn vào công việc, nhưng những công ty xây dựng nó lại ngày càng kín tiếng hơn.
2. Báo cáo Stanford HAI: “Suy thoái minh bạch” trong ngành AI
Foundation Model Transparency Index là gì?
Đây là chỉ số đánh giá thường niên do Stanford HAI thực hiện, chấm điểm các công ty AI lớn trên thang 100 điểm. Các tiêu chí bao gồm: thành phần dữ liệu huấn luyện, chiến lược giảm thiểu rủi ro, và tác động kinh tế downstream.

Mục tiêu: đo lường mức độ công khai của các tổ chức này và xác định những điểm ngành công nghiệp đang thiếu sót.
Kết quả 2025: Điểm trung bình chỉ 40/100
| Công ty | Điểm số | Ghi chú |
|---|---|---|
| IBM | 95 | Cao nhất lịch sử — cho phép nghiên cứu độc lập replicate dữ liệu và audit hệ thống |
| Anthropic | Tăng hạng | Di chuyển lên nửa trên bảng xếp hạng |
| Meta | Giảm hạng | Rơi xuống nửa dưới dù có mô hình open-weight |
| OpenAI | Giảm hạng | Rơi xuống nửa dưới bảng xếp hạng |
| xAI | 14 | Gần như không công bố thông tin |
| Midjourney | 14 | Gần như không công bố thông tin |
Ba xu hướng đáng lo ngại

Xu hướng 1: Điểm minh bạch giảm so với 2024
Dù Stanford đã cập nhật tiêu chí để phản ánh hệ sinh thái trưởng thành hơn, xu hướng chung vẫn là giảm. Các “cựu vương” như Meta và OpenAI rơi xuống nửa dưới bảng xếp hạng.
Xu hướng 2: Open-weight không đồng nghĩa với minh bạch
Đây là phát hiện quan trọng: việc phát hành mô hình open-weight (cho phép download và sử dụng) không tự động nghĩa là công ty minh bạch về quy trình phát triển. Nhiều mô hình “mở” vẫn nhận điểm kém về công bố dữ liệu và an toàn.
Xu hướng 3: Tác động môi trường là “điểm mù” lớn nhất
10/13 công ty không công bố bất kỳ thông tin nào về mức tiêu thụ năng lượng hoặc nước của các mô hình cụ thể. Trong bối cảnh biến đổi khí hậu và ESG ngày càng được chú trọng, đây là khoảng trống đáng kể.
Điều này có ý nghĩa gì?
Khi các mô hình AI ngày càng được tích hợp vào hạ tầng quan trọng (y tế, tài chính, giáo dục), việc các công ty xây dựng chúng trở nên kín tiếng hơn đặt ra câu hỏi về quản trị và trách nhiệm giải trình.
3. Báo cáo Perplexity + Harvard: Người dùng thực sự làm gì với AI Agent?
Bối cảnh nghiên cứu
Perplexity và Harvard thực hiện nghiên cứu thực địa quy mô lớn, phân tích hàng trăm triệu tương tác ẩn danh với Comet — trình duyệt AI của Perplexity — để trả lời ba câu hỏi cốt lõi về AI agent.
Câu hỏi 1: Ai đang sử dụng AI agent?
Theo địa lý và nhân khẩu học:
- Người dùng ở các quốc gia có GDP đầu người cao hơn và trình độ học vấn cao hơn có xu hướng sử dụng nhiều hơn
- Điều này phản ánh “khoảng cách số” (digital divide) vẫn tồn tại
Theo ngành nghề:
- Tập trung trong các lĩnh vực knowledge-intensive: công nghệ số, học thuật, tài chính, marketing, và khởi nghiệp
- Sử dụng cá nhân chiếm hơn một nửa tổng số query, sau đó là ứng dụng chuyên môn và giáo dục
Câu hỏi 2: Họ sử dụng chuyên sâu đến mức nào?
Phát hiện thú vị về “stickiness” (độ gắn bó):
Dù chuyên gia công nghệ số tạo ra khối lượng query cao nhất, các ngành khác lại thể hiện cường độ tương đối cao hơn. Cụ thể, những người trong lĩnh vực marketing, sales, quản lý, và khởi nghiệp cho thấy: một khi đã adopt, cường độ sử dụng của họ vượt xa tỷ lệ adoption.
Hành trình tiến hóa của người dùng:
Nghiên cứu theo dõi được pattern rõ ràng:
- Giai đoạn 1: Bắt đầu với query “low-stakes” như lên kế hoạch du lịch
- Giai đoạn 2: Dần chuyển sang các tác vụ productivity phức tạp hơn
- Kết quả: Khi đã chuyển đổi, tỷ lệ retention tăng đáng kể
Câu hỏi 3: Họ giao việc gì cho AI agent?
Phá vỡ giả định “trợ lý số làm việc vặt”:
Một giả định phổ biến là AI agent sẽ chủ yếu đóng vai trò “người giúp việc số” cho các công việc hành chính đơn giản. Nhưng dữ liệu cho thấy điều ngược lại:
57% hoạt động AI agent tập trung vào công việc nhận thức phức tạp, không phải logistics đơn giản.
Phân bổ theo loại công việc:
| Loại công việc | Tỷ lệ |
|---|---|
| Productivity và workflow | 36% |
| Học tập và nghiên cứu | 21% |
| Các loại khác | 43% |
Top 3 tác vụ cụ thể phổ biến nhất:
- Hỗ trợ bài tập/exercises
- Tóm tắt thông tin nghiên cứu
- Chỉnh sửa tài liệu
Insight quan trọng
Người dùng đang đối xử với AI agent như đối tác tư duy (thinking partners) để mở rộng năng lực nhận thức, chứ không phải như trợ lý để giảm tải công việc hành chính.
Đây là sự khác biệt quan trọng: thay vì “làm thay việc nhàm chán”, AI đang “giúp làm việc khó hơn”.
4. Báo cáo OpenAI: Doanh nghiệp chuyển từ “thử nghiệm” sang “tích hợp sâu”
Nguồn dữ liệu
OpenAI phân tích dữ liệu từ hơn một triệu khách hàng doanh nghiệp để theo dõi cách các tổ chức triển khai AI. Phát hiện chính: giai đoạn thử nghiệm ban đầu đang nhường chỗ cho các pattern sử dụng tích hợp sâu hơn, bắt đầu định hình lại hoạt động kinh doanh cốt lõi.
Xu hướng 1: Chuyển dịch sang “Deep Work”
Không chỉ tăng về lượng, mà tăng về chất:
- Tổng số tin nhắn từ người dùng doanh nghiệp tăng 8 lần trong năm qua
- Nhưng độ phức tạp của tương tác tăng còn nhiều hơn
Chỉ báo quan trọng — Reasoning Token:
Reasoning token là đơn vị đo lường khi mô hình được sử dụng cho giải quyết vấn đề phức tạp (thay vì query đơn giản). Mức tiêu thụ reasoning token tăng khoảng 320 lần.
Structured workflow cũng bùng nổ:
- Sử dụng Custom GPTs và Projects tăng 19 lần
- Các công cụ này hiện chiếm khoảng 20% tổng tin nhắn doanh nghiệp
Xu hướng 2: “Frontier Gap” — Khoảng cách giữa người dùng tiên phong và số đông
Dữ liệu phân hóa rõ ràng:
Người dùng “frontier” (top 5% về mức độ adoption) gửi gấp 6 lần tin nhắn so với người dùng trung vị.
Khoảng cách sử dụng tương quan trực tiếp với giá trị nhận được:
| Số loại tác vụ sử dụng | Thời gian tiết kiệm |
|---|---|
| ~4 loại | Mức cơ bản |
| ~7 loại | Gấp 5 lần mức cơ bản |
Insight: Lợi ích của AI scale không tuyến tính — nó tăng theo cấp số nhân với độ sâu tích hợp vào workflow hàng ngày.

Xu hướng 3: AI đang “nâng cấp kỹ năng” cho lực lượng lao động
Con số ấn tượng:
75% nhân viên được khảo sát cho biết họ có thể hoàn thành những công việc trước đây không thể làm được.
Xu hướng “dân chủ hóa kỹ năng kỹ thuật”:
- Tin nhắn liên quan đến coding từ vai trò không phải kỹ sư tăng 36% trong 6 tháng qua
- Nhân viên marketing, tài chính đang sử dụng AI để xử lý phân tích dữ liệu và coding — những công việc trước đây thuộc về vai trò chuyên môn
Đây là xu hướng “democratization of technical skills” — kỹ năng kỹ thuật không còn là độc quyền của developer.
5. Tổng hợp: Ba góc nhìn, một bức tranh
Ma trận so sánh ba báo cáo
| Khía cạnh | Stanford HAI | Perplexity + Harvard | OpenAI |
|---|---|---|---|
| Góc nhìn | Quản trị & Minh bạch | Hành vi người dùng | Ứng dụng doanh nghiệp |
| Phát hiện chính | Minh bạch đang giảm | AI agent cho “deep work”, không phải việc vặt | Tích hợp sâu, không còn thử nghiệm |
| Xu hướng đáng lo | 10/13 công ty không công bố tác động môi trường | Khoảng cách số vẫn tồn tại | “Frontier gap” ngày càng rộng |
| Cơ hội | Yêu cầu minh bạch từ vendors | AI như “đối tác tư duy” | Upskilling workforce |
Bức tranh tổng thể
Điều đang xảy ra:
- AI không còn là “đồ chơi thử nghiệm” — nó đang trở thành hạ tầng
- Người dùng đang dùng AI cho việc khó, không phải việc dễ
- Khoảng cách giữa người dùng tiên phong và số đông đang nới rộng
Điều đáng lo:
- Các công ty xây dựng AI ngày càng kín tiếng
- Tác động môi trường gần như không được công bố
- “Digital divide” có thể trở thành “AI divide”
6. Điều này có ý nghĩa gì với bạn?
Nếu bạn là doanh nghiệp
Đừng dừng ở thử nghiệm: Dữ liệu OpenAI cho thấy giá trị AI scale theo độ sâu tích hợp. Nếu đội ngũ chỉ dùng ChatGPT để viết email, bạn đang bỏ lỡ phần lớn giá trị.
Đo lường “frontier gap” nội bộ: Tìm hiểu ai trong tổ chức đang dùng AI hiệu quả nhất và học hỏi từ họ.
Yêu cầu minh bạch từ vendors: Khi đánh giá công cụ AI, hỏi về nguồn dữ liệu huấn luyện, biện pháp an toàn, và tác động môi trường.
Nếu bạn là người làm marketing/content
AI agent là “đối tác tư duy”, không phải “người viết thay”: Nghiên cứu Perplexity cho thấy người dùng dùng AI cho công việc nhận thức phức tạp. Hãy tận dụng AI để nghiên cứu sâu hơn, phân tích kỹ hơn — không chỉ để generate content.
Kỹ năng kỹ thuật đang được “dân chủ hóa”: Với AI, bạn có thể học và thực hiện phân tích dữ liệu, automation cơ bản mà không cần background kỹ thuật.
Nếu bạn quan tâm đến AI ethics
Theo dõi Foundation Model Transparency Index: Đây là nguồn tham khảo độc lập để đánh giá mức độ công khai của các công ty AI.
Hỏi về tác động môi trường: Với 10/13 công ty không công bố thông tin, đây là điểm mù cần được chú ý.
Góc nhìn chuyên gia
Jimmy Wales, Founder của Wikipedia:
“Có cơ hội lớn cho các công cụ AI hỗ trợ cộng đồng, nhưng chúng tôi thực sự khá kiên quyết về human-in-the-loop. Dù LLMs tuyệt vời, chúng chưa đủ tốt để viết một bài bách khoa toàn thư.”
Kết luận: Ít minh bạch hơn, nhiều ứng dụng hơn, workflow sâu hơn
Ba báo cáo từ Stanford, OpenAI và Perplexity vẽ nên bức tranh AI cuối năm 2025 với ba nét chính:
Nét 1 — Transparency Recession: Các công ty AI đang trở nên kín tiếng hơn đúng lúc sản phẩm của họ được tích hợp sâu hơn vào cuộc sống.
Nét 2 — Deep Work Dominance: AI agent không phải để làm việc vặt — 57% hoạt động tập trung vào công việc nhận thức phức tạp.
Nét 3 — From Breadth to Depth: Doanh nghiệp đã vượt qua giai đoạn thử nghiệm, reasoning token tăng 320 lần cho thấy AI đang được dùng cho những việc thực sự khó.
Câu hỏi không còn là “AI có hữu ích không?” mà là “Bạn đang tích hợp AI sâu đến đâu?” — và “Bạn có đang yêu cầu đủ minh bạch từ những người xây dựng nó?”
FAQ: Câu hỏi thường gặp
Foundation Model Transparency Index là gì? Chỉ số đánh giá thường niên của Stanford HAI, chấm điểm các công ty AI (thang 100) về mức độ công khai thông tin liên quan đến mô hình, dữ liệu, rủi ro và tác động.
Reasoning token là gì? Đơn vị đo lường khi mô hình AI được sử dụng cho giải quyết vấn đề phức tạp, đòi hỏi “suy nghĩ” nhiều bước — khác với query đơn giản chỉ cần tra cứu thông tin.
“Frontier gap” nghĩa là gì? Khoảng cách về mức độ sử dụng và giá trị nhận được giữa nhóm người dùng tiên phong (top 5%) và người dùng trung bình. Nhóm frontier gửi gấp 6 lần tin nhắn và tiết kiệm gấp 5 lần thời gian.
Tại sao open-weight không đồng nghĩa với minh bạch? Open-weight nghĩa là bạn có thể download và sử dụng mô hình. Nhưng công ty vẫn có thể không công bố dữ liệu huấn luyện đến từ đâu, rủi ro đã được đánh giá như thế nào, hay tác động môi trường ra sao.
Stanford HAI Foundation Model Transparency Index 2025, Perplexity + Harvard AI Agent Study, OpenAI State of Enterprise AI Report. Infinity News tổng hợp và phân tích.
Nguồn trích dẫn
- Stanford HAI Foundation Model Transparency Index 2025, Perplexity + Harvard AI Agent Study, OpenAI State of Enterprise AI Report. Infinity News tổng hợp và phân tích.


