Tuần này cũng chứng kiến OpenAI tung GPT Image 1.5 với khả năng chỉnh sửa chính xác, Google ra mắt Gemini 3 Flash tốc độ cao, Meta phát hành SAM Audio đột phá trong tách âm thanh, NVIDIA giới thiệu dòng Nemotron 3, và startup Thụy Điển Lovable được định giá 6.6 tỷ USD.
Tuần này trong 60 giây
OpenAI ra mắt GPT Image 1.5 cho chỉnh sửa chính xác
OpenAI vừa chính thức phát hành GPT Image 1.5, một bản nâng cấp lớn cho khả năng tạo hình ảnh trong ChatGPT và API của họ. Mô hình mới này tạo ra hình ảnh nhanh hơn tới 4 lần so với các phiên bản trước đó. Điểm đột phá nằm ở tính năng chỉnh sửa chính xác, cho phép người dùng thêm vào, bớt đi, hoặc pha trộn các yếu tố trong khi vẫn duy trì ánh sáng, bố cục và ngoại hình của đối tượng nhất quán qua các lần chỉnh sửa tiếp theo.
Ngoài ra, mô hình này cải thiện đáng kể khả năng render văn bản, xử lý văn bản dày đặc hơn và nhỏ hơn với độ chính xác cao hơn nhiều. Việc phát hành GPT Image 1.5 được hỗ trợ bởi một workspace “Images” chuyên dụng mới trong thanh bên ChatGPT. Đối với các developers, chi phí cho input và output hình ảnh giờ đây rẻ hơn 20% so với mô hình trước.
Google giới thiệu Gemini 3 Flash cho suy luận nhanh
Google đã mở rộng dòng mô hình mới nhất của mình với việc phát hành Gemini 3 Flash, được thiết kế để cung cấp trí thông minh ở mức tiên tiến với độ trễ và chi phí thấp hơn đáng kể. Gemini 3 Flash kết hợp khả năng suy luận tiên tiến của Gemini 3 Pro với hiệu suất tốc độ cao, biến nó thành mô hình mạnh nhất của Google cho các quy trình làm việc agentic và ứng dụng tương tác có phản hồi nhanh.
Mô hình này mang lại hiệu suất nổi bật trên các benchmark phức tạp, sánh ngang với các mô hình lớn hơn về khả năng suy luận cấp độ tiến sĩ trong khi vượt trội hơn các phiên bản trước như Gemini 2.5 Pro. Gemini 3 Flash hiện là mô hình mặc định trong ứng dụng Gemini và đang được triển khai toàn cầu cho AI Mode trong Search, Google AI Studio và Vertex AI.
Meta phát hành mô hình đầu tiên cho tách âm thanh đa phương thức
Meta vừa phát hành SAM Audio, một mô hình đầu tiên trên thế giới giúp việc tách riêng các âm thanh cụ thể từ các bản mix âm thanh phức tạp trở nên dễ dàng như việc click vào một đối tượng hoặc gõ một mô tả. Không giống như các công cụ truyền thống được thiết kế cho các tác vụ đơn mục đích, mô hình thống nhất này sử dụng các prompts đa phương thức để nhận diện và trích xuất âm thanh.
Ví dụ, người dùng có thể tách riêng một cây đàn guitar đơn lẻ từ một màn trình diễn ban nhạc đầy đủ chỉ bằng cách click vào nhạc cụ trong video, hoặc lọc bỏ tiếng ồn giao thông lớn khỏi một bản ghi âm ngoài trời bằng cách gõ text prompt. Mô hình này cũng giới thiệu span prompting, một tính năng đầu tiên trong ngành cho phép các creators sửa các lỗi âm thanh (như tiếng chó sủa) trên toàn bộ bản ghi âm podcast chỉ bằng cách đánh dấu các phân đoạn thời gian liên quan. SAM Audio hiện có sẵn để khám phá tại Segment Anything Playground.
NVIDIA ra mắt dòng mô hình mở Nemotron 3
NVIDIA vừa giới thiệu Nemotron 3, một dòng mô hình mở mới. Dòng sản phẩm này sử dụng kiến trúc mixture-of-experts (MoE) lai và bao gồm ba kích cỡ: Nano (30B parameters/3B active), Super (100B/10B active), và Ultra (500B/50B active). Mô hình Nano hiện đã có sẵn và mang lại throughput token cao gấp 4 lần so với thế hệ trước, trong khi cửa sổ ngữ cảnh 1 triệu token của nó cho phép các agents duy trì tính mạch lạc qua các tác vụ phức tạp, nhiều tài liệu.
Cùng với các weights, NVIDIA đã mở nguồn ba nghìn tỷ tokens dữ liệu đào tạo và các thư viện reinforcement learning NeMo Gym của họ.
Startup Thụy Điển Lovable gọi được 330 triệu USD với định giá 6.6 tỷ USD
Lovable có trụ sở tại Stockholm vừa huy động được 330 triệu USD trong vòng Series B do CapitalG và Menlo Ventures dẫn đầu, đưa công ty lên mức định giá 6.6 tỷ USD. Lovable cung cấp một công cụ vibe coding giúp người dùng phi kỹ thuật tạo ra các ứng dụng chức năng bằng ngôn ngữ tự nhiên, giúp công ty vượt qua mốc 200 triệu USD ARR trong năm đầu tiên.
Với hơn 100,000 dự án mới được tạo ra hàng ngày cho các khách hàng như Uber và Zendesk, nguồn vốn mới sẽ được sử dụng để tài trợ cho các tích hợp sâu hơn với các công cụ như Notion và Jira, cùng với việc tăng cường quản trị doanh nghiệp và cơ sở hạ tầng hosting cấp production.
Nhìn sâu hơn vào tin tức tuần này
Điểm lại năm 2025: 5 Khoảnh Khắc Then Chốt Định Hình Lại AI trong năm 2025
Khi chúng ta kết thúc năm 2025, Infinity News nhìn lại năm khoảnh khắc có tác động lớn đã tái tổ chức nền kinh tế toàn cầu và ảnh hưởng cơ bản đến quỹ đạo phát triển của ngành AI.
1. DeepSeek và cú sốc về hiệu quả
Chuyện gì đã xảy ra
Vào tháng 1 năm 2025, phòng nghiên cứu Trung Quốc DeepSeek đã phát hành DeepSeek-R1, một mô hình ngôn ngữ lớn mã nguồn mở có trọng số công khai đã thách thức đáng kể các giả định hiện có về chi phí đào tạo AI.
Trong nhiều năm qua, ngành công nghiệp hoạt động dựa trên niềm tin rằng khả năng suy luận cấp tiên tiến đòi hỏi đầu tư vốn khổng lồ và phần cứng tiên tiến nhất. Tuy nhiên, DeepSeek-R1 đã chứng minh khả năng suy luận sánh ngang với o1 của OpenAI và series GPT-4 với chi phí được báo cáo dưới 6 triệu USD – một phần nhỏ so với ước tính 100 triệu USD cần thiết cho các đối thủ cùng cấp.
Tác động
Việc phát hành R1 đã dẫn đến một đánh giá lại đáng chú ý về giáo lý “quy mô là tất cả những gì bạn cần” trong lĩnh vực AI. Nhận thức đột ngột rằng trí thông minh cấp cao có thể đạt được với sức mạnh tính toán ít hơn đáng kể đã góp phần vào “cú sụp đổ DeepSeek” vào ngày 27 tháng 1 năm 2025. Trong phiên giao dịch duy nhất đó, Nvidia đã mất gần 600 tỷ USD vốn hóa thị trường khi các nhà đầu tư đánh giá lại nhu cầu dự kiến cho phần cứng thế hệ tiếp theo.
Về mặt địa chính trị, sự kiện này đã làm nổi bật những hạn chế của kiểm soát xuất khẩu, cho thấy rằng hiệu quả thuật toán có thể giúp các nhà phát triển vượt qua những điểm nghẽn về phần cứng. DeepSeek-R1 đạt được hiệu suất của mình bằng cách sử dụng các chip Nvidia H800 cũ hơn, tuân thủ xuất khẩu thông qua các đổi mới kiến trúc như Mixture-of-Experts (MoE) và một pipeline reinforcement learning tập trung vào chain-of-thought distillation.
Nhìn về phía trước
Bằng cách phát hành R1 theo giấy phép MIT mã nguồn mở, DeepSeek đã chuyển ngành công nghiệp hướng tới việc hàng hóa hóa các trọng số suy luận. Động thái này đã buộc các nhà cung cấp mã nguồn đóng phải đối mặt với thực tế, khuyến khích một sự chuyển hướng từ việc mở rộng phần cứng bằng sức mạnh thô sang tối ưu hóa phần mềm và hiệu quả kiến trúc.
Khi nhìn về năm 2026, trọng tâm đã chuyển từ việc đơn thuần xây dựng các mô hình lớn hơn sang việc cung cấp trí thông minh hiệu quả về phần cứng và dễ tiếp cận hơn cho các tác vụ chuyên biệt, thực tế.
2. Sự trỗi dậy của các Agents tự động
Chuyện gì đã xảy ra
Trong khi chatbots định nghĩa hai năm trước đó, năm 2025 là năm của AI agents – các hệ thống sử dụng mô hình ngôn ngữ để đạt được các mục tiêu do người dùng xác định thông qua việc suy luận, lập kế hoạch và thực hiện các hành động thông qua các công cụ bên ngoài.

Ngành công nghiệp đã chứng kiến sự xuất hiện của một số loại agent riêng biệt, bao gồm one-prompt agents cho các tác vụ đơn giản, coding agents cho phát triển phần mềm, workflow-based agents cho các quy trình kinh doanh, và các framework agentic phức tạp.
Sự tăng trưởng này được hỗ trợ bởi việc áp dụng các giao thức tiêu chuẩn hóa, chẳng hạn như Model Context Protocol (MCP) của Anthropic, chuẩn hóa cách agents truy cập dữ liệu bên ngoài, và giao thức Agent2Agent (A2A) của Google, cho phép các agents khác nhau giao tiếp và cộng tác trong các tác vụ phức tạp.
Tác động
Bởi vì agents có khả năng độc đáo trong việc xử lý các tác vụ mà đường đi đến giải pháp không phải là một đường thẳng, chúng đã định hình lại các quy trình tự động hóa trên nhiều lĩnh vực.
Một nghiên cứu thực địa quy mô lớn được phát hành bởi Perplexity và Đại học Harvard trong năm nay đã làm nổi bật một số tác động chính của sự chuyển dịch này:
Áp dụng có mục tiêu: Việc áp dụng hiện nay cao nhất trong các lĩnh vực tri thức chuyên sâu như công nghệ số, học thuật, tài chính, marketing và khởi nghiệp.
Độ bám dính theo ngành: Trong khi các chuyên gia công nghệ tạo ra khối lượng lớn nhất, những người trong marketing, bán hàng và quản lý cho thấy “độ bám dính” cao nhất, nghĩa là cường độ sử dụng của họ tăng nhanh chóng khi họ áp dụng agent.
Sự tiến hóa của người dùng: Nghiên cứu theo dõi một sự tiến hóa rõ ràng trong hành vi người dùng, nơi các cá nhân thường bắt đầu với các truy vấn rủi ro thấp, như lập kế hoạch du lịch, trước khi chuyển sang các tác vụ năng suất phức tạp, nhiều bước cải thiện đáng kể tỷ lệ giữ chân.
Tiện ích cá nhân: Thú vị là, việc sử dụng cá nhân vẫn chiếm hơn một nửa tất cả các truy vấn agent, ngay cả khi các ứng dụng chuyên nghiệp và giáo dục tiếp tục mở rộng quy mô.
Nhìn về phía trước
Khi bước vào năm 2026, Infinity News kỳ vọng sẽ thấy sự xuất hiện của các hành vi agentic phức tạp hơn nữa, vượt ra ngoài các tác vụ kỹ thuật số để đi sâu vào các ứng dụng khoa học và công nghiệp sâu hơn.
Chúng tôi cũng dự đoán sự phát triển mạnh mẽ của nền kinh tế agent, một khái niệm mà Infinity News đã khám phá trong một số trước, nơi các cửa hàng agent và thương mại máy-với-máy trở thành tiêu chuẩn. Khi ma sát cho tương tác agent-với-agent biến mất, nền kinh tế toàn cầu có khả năng sẽ chuyển sang một mô hình thương mại tự động, nơi các agents tự động đàm phán và thực hiện các giao dịch thay mặt cho người dùng của chúng.
3. Sự trưởng thành của phương tiện tạo sinh
Chuyện gì đã xảy ra
Sự chuyển đổi của phương tiện tạo sinh từ một công cụ sáng tạo mới lạ sang một công cụ cấp sản xuất đã được đẩy nhanh vào ngày 20 tháng 5, với việc giới thiệu Google Veo 3, đánh dấu lần đầu tiên các clip video AI có thể có âm thanh gốc, được đồng bộ hóa. Xu hướng này được theo sau bởi Sora 2 của OpenAI và Kling 2.6, cả hai đều giới thiệu khả năng âm thanh gốc riêng của họ.
Trong không gian tạo hình ảnh, lĩnh vực này ban đầu bị chấn động bởi GPT-Image-1, trở nên viral vì thẩm mỹ phong cách Ghibli của nó. Tuy nhiên, việc phát hành Nano Banana của Google sau đó trong năm đã chuyển trọng tâm sang chỉnh sửa chính xác dựa trên prompt.
Đến cuối năm 2025, sự xuất hiện của Nano Banana Pro và GPT-Image-1.5 dường như đã giải quyết hoàn toàn thách thức render văn bản lâu đời của ngành, cho phép các mô hình tạo ra văn bản dày đặc, nhỏ với độ chính xác cao.
Tác động
Sự trưởng thành công nghệ này đã cho phép các doanh nghiệp nhỏ sản xuất quảng cáo ngắn một cách độc lập, trong khi các gã khổng lồ ngành như Coca-Cola và McDonald’s cũng đã áp dụng các công cụ này cho các chiến dịch cao cấp.
Tạo hình ảnh chất lượng cao cũng đã định hình lại các quy trình làm việc marketing, trở thành một công cụ tiêu chuẩn cho nội dung mạng xã hội, các chiến dịch quy mô lớn và content marketing.
Như Infinity News đã lưu ý trong bài đưa tin về một báo cáo MIT trước đó trong năm, trong khi câu chuyện về sự gián đoạn công nghiệp rộng rãi vẫn chủ yếu là một huyền thoại, các lĩnh vực công nghệ và truyền thông đang chứng minh là những ngoại lệ đáng chú ý, trải qua những thay đổi đáng kể trong cách nội dung được sản xuất và mở rộng quy mô.
Nhìn về phía trước
Khi bước vào năm 2026, ngành công nghiệp đang xoay hướng từ việc tạo thuần túy sang các chuyển đổi video-to-video. Việc phát hành Kling O1 vào tháng 12, mô hình video đa phương thức thống nhất đầu tiên, cho phép các creators thiết kế lại cảnh quay hiện có bằng text prompts trong khi vẫn duy trì cấu trúc chuyển động ban đầu.
Trong năm tới, Infinity News kỳ vọng sẽ thấy sự chân thực hơn nữa, độ dài clip dài hơn và thời gian tạo ngắn hơn. Khi các công cụ này trở nên nhanh hơn và hiệu quả về chi phí hơn, chúng tôi dự đoán nhiều doanh nghiệp hơn sẽ tích hợp phương tiện AI trực tiếp vào các pipeline sáng tạo của họ.
4. Đạo luật AI của EU
Chuyện gì đã xảy ra
Vào ngày 2 tháng 2 năm 2025, bối cảnh pháp lý cho trí tuệ nhân tạo đã thay đổi khi chương “Các Điều Cấm” của Đạo luật AI EU chính thức có hiệu lực. Cột mốc này đã chuyển Đạo luật từ giai đoạn hướng dẫn sang thực thi pháp luật tích cực, đặc biệt nhắm vào các thực hành AI được coi là mang “rủi ro không thể chấp nhận” đối với các quyền cơ bản.
Các quy định này đã giới thiệu các lệnh cấm nghiêm ngặt đối với các hệ thống chấm điểm xã hội, nhận dạng sinh trắc học từ xa theo thời gian thực ở các không gian công cộng bởi cơ quan thực thi pháp luật, và việc sử dụng AI để thao túng tiềm thức hoặc việc thu thập không mục tiêu các hình ảnh khuôn mặt từ internet.
Tác động
Việc thực thi các quy tắc này đòi hỏi một điều chỉnh đáng kể cho các nhà cung cấp công nghệ toàn cầu, dẫn đến cái mà nhiều người gọi là “Splinternet” của các trải nghiệm AI. Thuật ngữ này mô tả một sự phân mảnh trong trải nghiệm kỹ thuật số toàn cầu nơi các tính năng của một nền tảng AI duy nhất khác nhau tùy thuộc vào khu vực của người dùng và luật pháp địa phương.
Ví dụ, một nền tảng tuyển dụng được hỗ trợ bởi AI hoạt động bên ngoài EU có thể phân tích video phỏng vấn của ứng viên để suy ra “sự tự tin” hoặc “nhiệt tình” từ biểu cảm khuôn mặt và giọng nói của họ. Tuy nhiên, ở EU, việc sử dụng cụ thể nhận dạng cảm xúc dựa trên sinh trắc học này bị cấm trong bối cảnh tuyển dụng để bảo vệ ứng viên khỏi các suy luận chưa được chứng minh hoặc xâm phạm.
Mặc dù điều này tạo ra một môi trường tuân thủ phức tạp cho các nhà phát triển, nó cũng đã thiết lập châu Âu như một nhà lãnh đạo toàn cầu về AI có đạo đức. Các nỗ lực của EU đã đang phục vụ như một mẫu cho các quốc gia khác, chẳng hạn như Nhật Bản và Canada, đang tìm cách cân bằng động lực cho đổi mới với bảo vệ tốt hơn cho công dân của họ.
Nhìn về phía trước
Khi nhìn về năm 2026, Infinity News kỳ vọng sẽ thấy một trọng tâm lớn hơn nữa trên toàn ngành về sự cân bằng tinh tế giữa việc thúc đẩy đổi mới tốc độ cao và thực hiện các hạn chế cần thiết để bảo vệ công chúng.
Thách thức đang diễn ra đối với các nhà hoạch định chính sách và lãnh đạo công nghệ là đảm bảo rằng các mô hình an toàn trước tiên không kìm hãm sự sáng tạo, mà thay vào đó cung cấp một môi trường ổn định nơi niềm tin có thể thúc đẩy việc áp dụng lâu dài.
5. Dự án Stargate
Chuyện gì đã xảy ra
Được công bố vào ngày 21 tháng 1 năm 2025, Dự án Stargate là một liên doanh chung chưa từng có trị giá 500 tỷ USD nhằm thiết lập một mạng lưới cơ sở hạ tầng AI khổng lồ trong nước Mỹ. Sáng kiến này được dẫn dắt bởi một tập đoàn bao gồm OpenAI, SoftBank, Oracle và MGX được hỗ trợ bởi UAE.
Dự án tập trung vào việc xây dựng một mạng lưới siêu máy tính phân tán, bao gồm một khu phức hợp trung tâm dữ liệu 5 gigawatt – một cơ sở được thiết kế để tiêu thụ nhiều điện hơn cả thành phố Seattle.
Tác động
Dự án đã báo hiệu một sự chuyển dịch trong chiến lược AI từ doanh nghiệp tư nhân sang chính sách công nghiệp được nhà nước hỗ trợ, thực sự chỉ định sức mạnh tính toán như một nguồn tài nguyên chiến lược quốc gia. Dự án cũng phản ánh một xu hướng rộng lớn hơn của Chủ nghĩa Dân tộc AI, nơi cơ sở hạ tầng được xem như một sân khấu của xung đột địa chính trị và thiết yếu cho quyền bá chủ toàn cầu.
Như Infinity News đã giải thích trong một số trước của bản tin, việc neo giữ năng lực tính toán trong lãnh thổ Mỹ cho phép quốc gia đạt được khả năng phục hồi cả về vị trí và nguồn cung.
Bằng cách địa phương hóa các tài sản này, Mỹ giảm thiểu sự phơi bày chiến lược của mình đối với Đài Loan, nơi phần lớn các chip tiên tiến của Nvidia được sản xuất, mang lại khả năng phục hồi về vị trí.
Tuy nhiên, thành công lâu dài của dự án cũng phụ thuộc vào việc đa dạng hóa thị trường phần cứng để đạt được khả năng phục hồi nguồn cung. Hiện tại, hệ sinh thái vẫn phụ thuộc áp đảo vào một nhà cung cấp duy nhất; nếu Nvidia vấp ngã (dù thông qua gián đoạn chuỗi cung ứng hoặc các vấn đề sản xuất), toàn bộ cơ sở hạ tầng Mỹ cảm nhận điều đó ngay lập tức.
Nhìn về phía trước
Khi tiến vào năm 2026, trọng tâm là việc thực hiện vật lý của kế hoạch cơ sở hạ tầng nhiều năm này và tích hợp của nó với lưới điện quốc gia. Trong khi ngành công nghiệp tiếp tục đổi mới về hiệu quả phần mềm, cơ sở hạ tầng Stargate được dự định cung cấp khối lượng sức mạnh thô cần thiết cho thế hệ tiếp theo của các mô hình tiên tiến.
Các trường hợp sử dụng trong ngành
Adtech được hỗ trợ bởi AI sẽ đóng vai trò lớn trong World Cup 2026
Sportradar đã phát triển adtech được hỗ trợ bởi AI để đóng vai trò quan trọng trong World Cup 2026. Trong khi các giải đấu lớn trong lịch sử là lĩnh vực độc quyền của các đối tác hàng đầu với ngân sách khổng lồ, các thương hiệu thách thức thường gặp khó khăn trong việc tạo ra tác động nổi bật. Nền tảng mới này giải quyết khoảng trống bằng cách sử dụng dữ liệu thể thao theo thời gian thực và tối ưu hóa sáng tạo động để tự động điều chỉnh quảng cáo theo tỷ số trực tiếp và các mốc quan trọng trên sân.
Bằng cách cung cấp các thông điệp liên quan theo ngữ cảnh trên tất cả các kênh kỹ thuật số trong vòng 48 giờ sau các sự kiện chính, hệ thống cho phép các thương hiệu nhỏ hơn kết nối với người hâm mộ vào những thời điểm quan trọng.
Quản lý đội tàu được hỗ trợ bởi AI bảo vệ cơ sở hạ tầng dưới nước
Skana Robotics đã phát triển một bước đột phá cho phần mềm SeaSphere của mình, cho phép các nhóm tàu không người lái giao tiếp dưới nước bằng AI. Các tàu ngầm không người lái trong lịch sử đã gặp khó khăn trong việc giao tiếp trên khoảng cách lớn mà không nổi lên mặt nước, một động thái tạo ra rủi ro phơi bày đáng kể.
Phần mềm quản lý đội tàu mới giải quyết vấn đề này bằng cách sử dụng AI để tạo điều kiện chia sẻ dữ liệu khoảng cách xa trong khi các tàu vẫn ở dưới nước. Bằng cách xử lý dữ liệu ngang hàng, các đơn vị có thể tự động điều chỉnh các động tác của chúng để đáp ứng một nhiệm vụ tập thể mà không cần nổi lên bề mặt. Sự phối hợp này hiện đang được áp dụng để bảo vệ cơ sở hạ tầng dưới nước quan trọng và chuỗi cung ứng toàn cầu.
Robot Bartender ADAM Phục vụ người hâm mộ thể thao Vegas
Người hâm mộ tại T-Mobile Arena của Las Vegas hiện đang được phục vụ bởi ADAM, một robot bartender được đào tạo trong các mô phỏng độ chính xác cao để xử lý ánh sáng hỗn loạn và phản chiếu của một sân vận động đông đúc. Sử dụng xử lý edge theo thời gian thực, ADAM có thể phát hiện các cốc đặt sai vị trí và đo mức chất lỏng với độ trễ dưới 40 mili giây.
Điều này cho phép nó điều chỉnh việc rót giữa chừng, đảm bảo việc phân phối vẫn chính xác trong thời gian cao điểm của trận đấu. Việc triển khai này phản ánh một sự chuyển dịch rộng lớn hơn hướng tới sự khéo léo công nghiệp, nơi các hệ thống tự động di chuyển từ sàn nhà máy vào các không gian công cộng động.
Tokens of Wisdom
“Trong vòng ba đến năm năm, các mô hình thế giới sẽ là kiến trúc mô hình thống trị cho AI, và không ai trong tâm trí đúng đắn của họ sẽ sử dụng các LLM thuộc loại mà chúng ta có ngày hôm nay.”
— Yann LeCun, Nhà Nghiên Cứu AI
Lưu ý quan trọng: Bản tin của Infinity News sẽ nghỉ hai tuần. Chúng tôi sẽ quay lại vào thứ Sáu, ngày 9 tháng 1.


