TÓM LẠI
Stability AI đã phát hành sản phẩm mới nhất của mình, SDXL 1.0, một công cụ tạo văn bản thành hình ảnh với chất lượng hình ảnh được cải thiện và giao diện thân thiện với người dùng.
Với 3,5 tỷ thông số, nó có thể tạo ra hình ảnh 1 megapixel ở các tỷ lệ khung hình khác nhau.
Mô hình này được thiết kế để hợp lý hóa quá trình tạo văn bản thành hình ảnh và bao gồm các tính năng tinh chỉnh, chẳng hạn như ControlNet, bắt nguồn từ nghiên cứu của Đại học Stanford.
SDXL 1.0 được tối ưu hóa cho GPU tiêu dùng có dung lượng VRAM 8GB và có hiệu quả tương đương trên các phiên bản đám mây có giá hợp lý.
Phần mềm cung cấp khả năng tinh chỉnh nâng cao, cho phép tạo LoRA tùy chỉnh hoặc các điểm kiểm tra với chi phí dữ liệu giảm.
Cộng đồng AI có thể mong đợi các bản cập nhật trong tương lai gần và SDXL 1.0 có thể tạo ra các khái niệm nâng cao, chẳng hạn như các chi tiết phức tạp hoặc bố cục không gian phức tạp.
Công cụ này là nguồn mở có thể truy cập được trên GitHub, thúc đẩy tính minh bạch và cộng tác trong cộng đồng.
Stable Diffusion XL 1.0 (SDXL 1.0), sản phẩm mới nhất của Stability AI, cuối cùng đã được phát hành. Công cụ này, được coi là sự phát triển gần đây nhất trong việc tạo văn bản thành hình ảnh, nổi bật nhờ chất lượng hình ảnh được cải thiện và giao diện thân thiện với người dùng.
Trong khi nhiều người trong ngành AI tiếp tục cải thiện nền tảng của họ, thì bản phát hành SDXL 1.0 gần đây của Stability AI cho thấy một tiến bộ đầy hứa hẹn. 3,5 tỷ thông số ấn tượng của model này cho phép nó nhanh chóng tạo ra hình ảnh 1 megapixel ở các tỷ lệ khung hình khác nhau. Joe Penna, giám đốc máy học ứng dụng tại Stability AI, đã nhấn mạnh khả năng của mô hình này trong cuộc trò chuyện với TechCrunch. Ông nhấn mạnh cách nó có thể được tùy chỉnh cũng như cách bạn có thể điều chỉnh các khái niệm và phong cách hình ảnh bằng cách sử dụng các tín hiệu xử lý ngôn ngữ tự nhiên cơ bản. Với sự trợ giúp của các tính năng này, công việc của người dùng có thể được thực hiện dễ dàng hơn trong khi vẫn tuân theo các hướng dẫn rõ ràng để tạo ra các thiết kế phức tạp.
AI ổn định dường như đã giải quyết được những thách thức phổ biến trong lĩnh vực AI, đặc biệt là liên quan đến việc tạo văn bản. Đáng chú ý, nhiều mô hình chuyển văn bản thành hình ảnh tiên tiến thường gặp khó khăn khi được giao nhiệm vụ tạo văn bản dễ đọc, đặc biệt là trong các phong cách phức tạp như thư pháp. Tuy nhiên, SDXL 1.0 đã thể hiện sự thành thạo trong việc tạo văn bản nâng cao.
Điều khác biệt hơn nữa của SDXL 1.0 là vị thế cạnh tranh của nó so với các đối thủ lớn khác như dịch vụ Midjourney và Adobe's Firefly. Mẫu máy mới nhấn mạnh các quy trình tinh chỉnh hình ảnh được cải tiến, mang lại màu sắc phong phú hơn, ánh sáng vượt trội và độ tương phản nâng cao. Ngoài ra, việc bao gồm tính năng tinh chỉnh sẽ tạo điều kiện thuận lợi cho việc tạo ra các hình ảnh được thiết kế riêng.
Sự phát triển của SDXL 1.0 đã thúc đẩy phương pháp đào tạo hợp lý, tận dụng cơ sở tham số lớn, định vị nó là nền tảng lý tưởng cho nhiều công cụ và khả năng khác nhau. Xây dựng các tính năng của nó, Emad Mostaque, Giám đốc điều hành của Stability AI, cho biết SDXL 1.0 được chế tạo tỉ mỉ để hợp lý hóa quá trình tạo văn bản thành hình ảnh. Điều này đã được cải tiến hơn nữa với ControlNet, bắt nguồn từ nghiên cứu của Đại học Stanford, tạo điều kiện nâng cao khả năng tinh chỉnh và bố cục.
Một đặc điểm đáng chú ý của mẫu SDXL 1.0 là thiết kế lấy người dùng làm trung tâm. Trái ngược với việc yêu cầu những lời nhắc dài dòng để mang lại kết quả mong muốn, mô hình cho phép người dùng đưa ra các chỉ thị phức tạp gồm nhiều phần, nắm bắt ngắn gọn ý định với ít từ hơn các mô hình trước đó. Tính đến thời điểm hiện tại, mô hình cải tiến này có thể truy cập được thông qua nhiều nền tảng, bao gồm các dịch vụ Amazon Bedrock và Amazon SageMaker Jumpstart.
Hiệu suất nâng cao trên GPU tiêu dùng và các tính năng tinh chỉnh nâng cao

Được thiết kế chú trọng đến khả năng tương thích, SDXL 1.0 được tối ưu hóa cho GPU tiêu dùng có dung lượng VRAM 8GB và có hiệu quả tương đương trên các phiên bản đám mây có mức giá hợp lý.
Tính năng và khả năng tương thích:
Sự ra mắt của SDXL 1.0 thể hiện cam kết của Stability trong việc đảm bảo các giải pháp AI hiệu quả và dễ tiếp cận cho người dùng. Một trong những điểm đáng chú ý của thông báo này là khả năng hoạt động liền mạch của phần mềm trên GPU tiêu dùng tiêu chuẩn. Đối với người dùng, điều này có nghĩa là tiềm năng đạt được hiệu suất tối ưu mà không cần phần cứng cao cấp hoặc chuyên dụng.
Những cải tiến trong Tinh chỉnh:
Tính ổn định đã kết hợp các tính năng trong SDXL 1.0 giúp đơn giản hóa quá trình đào tạo lại mô hình cho các bộ dữ liệu duy nhất. Mô hình hiện tại cho phép tạo LoRA tùy chỉnh hoặc các điểm kiểm tra với chi phí dữ liệu giảm bớt, mở đường cho việc điều chỉnh mô hình hiệu quả hơn và nhanh hơn cho các nhu cầu cụ thể. Hơn nữa, có một gợi ý về tương lai khi nhóm AI ổn định đang trong quá trình phát triển các điều khiển nâng cao cho các cấu trúc, kiểu dáng và bố cục dành riêng cho nhiệm vụ. Cụ thể là T2I/ControlNet, chuyên dùng cho SDXL, sắp ra mắt. Mặc dù những tiến bộ này vẫn đang ở giai đoạn tiền beta nhưng cộng đồng AI và người dùng có thể mong đợi các bản cập nhật trong tương lai gần.
Hiển thị các khái niệm nâng cao:
SDXL 1.0 thể hiện khả năng tạo ra các khái niệm mà trước đây từng là thách thức đối với các mô hình hình ảnh. Điều này bao gồm hiển thị các chi tiết phức tạp như bàn tay và văn bản hoặc thậm chí các bố cục không gian phức tạp hơn, chẳng hạn như cảnh mô tả một người phụ nữ ở hậu cảnh đang đuổi theo một con chó ở tiền cảnh. Tính năng này đặc biệt quan trọng vì nó cho thấy bước nhảy vọt về khả năng diễn giải và hiển thị các kịch bản đa sắc thái và nhiều mặt của phần mềm.
Khả năng truy cập nguồn mở:
Đối với các nhà phát triển và những người đam mê muốn tìm hiểu sâu hơn, Stability đã cung cấp trọng số và mã cho SDXL 1.0 trên GitHub. Động thái này không chỉ thúc đẩy tính minh bạch mà còn khuyến khích sự hợp tác phát triển và đổi mới trong cộng đồng.
Hãy dùng thử:
Đối với những người muốn thử nghiệm khả năng của SDXL 1.0, Stability đã tích hợp nó vào các nền tảng như DreamStudio và ClipDrop. Ngoài ra, các phiên tương tác và các bản trình diễn tiềm năng có sẵn thông qua Discord, cho phép người dùng trải nghiệm trực tiếp các tính năng của công cụ.
