Báo cáo Sự cố Hoạt động

2020-02-17

Tuần vừa rồi là một quãng thời gian khó khăn. Nó là một tuần tốt đối với thị trường và các doanh nghiệp tiền mã hóa. Giá Bitcoin tăng, khối lượng giao dịch cũng vậy. Nhưng đối với một số người dùng và đội ngũ lập trình viên của chúng tôi, nó lại là một tuần vất vả. Chúng tôi đã gặp một số vấn đề về hoạt động, làm ảnh hưởng đến khả năng truy cập vào nền tảng của chúng tôi. Như thường lệ, chúng tôi vẫn đảm bảo minh bạch thông tin trong những thời điểm như vậy, và sẽ công khai những sự cố chúng tôi đã gặp phải.

Sự khác biệt giữa thời điểm BTC đạt mức giá $10,000 ở hiện tại so với những lần trước đó chính là việc số lượng người dùng đã tăng thêm rất nhiều. Tuy đây là tín hiệu cho thấy thị trường tiền mã hóa đã phục hồi mạnh mẽ, thế nhưng nó cũng đồng nghĩa với gia tăng sức ép lên nền tảng của chúng tôi.

Trong những ngày vừa qua, chúng tôi đã gặp phải hai sự cố:

1. Lỗi gián đoạn UI (giao diện người dùng) gồm “Quá nhiều yêu cầu”, “Lỗi hệ thống 5xx” và lỗi hết hạn phiên tải API. Điều này là do lớp dịch vụ trung gian của chúng tôi đã bị quá tải một cách nhanh chóng. Mỗi người dùng bị ảnh hưởng chắc chắn sẽ cố thử truy cập lại, qua đó càng trầm trọng hóa mọi chuyện. Vấn đề đã được giải quyết trong ngắn hạn bằng cách gia tăng lượng tài nguyên của hệ thống. Tuy nhiên, cách tiếp cận này có một số hạn chế. Vì bản chất phức tạp của hệ thống, nó không thể tự động mở rộng quy mô cho mình lên. Một thay đổi mới cần đến vài phút để có thể đồng bộ hóa với dữ liệu hệ thống trước đó để có thể xử lý giao dịch bình thường. Chúng tôi đã và đang nỗ lực để khắc phục điều đấy nhưng chưa kịp hoàn tất vào lúc số lượng người dùng tăng vọt cách đây mấy ngày. Song, nó đã được nâng lên làm ưu tiên hàng đầu và giải pháp sẽ được triển khai trong vòng ít ngày tới. Chúng tôi cũng sẽ tối ưu một số tính năng bên phía người dùng để cải thiện công tác thông báo lỗi và tránh càng làm quá tải hệ thống.

2. Dữ liệu thị trường/lệnh/sổ lệnh bị cập nhật trễ. Chúng tôi còn gặp phải vấn đề với các module trung gian chuyển thông tin. Một trong những bộ phận của các trung gian này, vốn thường chuyển được đến hơn 2,5 GB dữ liệu mỗi giây, đột nhiên giảm công suất đến 100 lần, làm thông tin bị gián đoạn và dẫn đến việc sổ lệnh cùng số dư tài khoản người dùng không được cập nhật tức thì. Chưa hết, có lúc một cụm kafka đã bị sập, khiến nhiều node khác bị ngừng hoạt động giữa lúc số lượt truy cập đạt đỉnh. Vấn đề đã được giải quyết một cách ổn thỏa bằng cách tái khởi động lại các bộ phận gặp lỗi. Giải pháp trong trung hạn đang được chúng tôi thực hiện sẽ là tách chúng thành các nhóm riêng biệt, quản lý bằng nhiều cụm kafka khác nhau. Nó được ước tính sẽ giúp chúng tôi tăng khả năng tải của bộ phận này lên gấp 10 lần và sẽ được cập nhật ngay trong tuần này. Chúng tôi cũng đang bắt tay xây dựng các giải pháp dài hạn để tăng khả năng xử lý lên thêm.

Nhìn một cách tổng thể, chúng tôi đã tung ra nhiều tính năng mới trong thị trường giá giảm vừa rồi, và kể cả khi chúng tôi đã thực hiện rất nhiều bài kiểm tra áp lực lên chúng trong quá trình thử nghiệm, thế nhưng vẫn không có thể nào có thể phản ánh được môi trường ngoài đời thực, nơi chúng tôi có đến hàng chục triệu người dùng từ khắp nơi trên thế giới. Bên cạnh đó, một số mảng còn bị “hụt hiệu năng”, ví dụ như khi chúng tôi tăng thêm mức sử dụng/áp lực lên một trung gian chuyển thông tin, nhẩm rằng mình vẫn còn dành đủ chỗ trong trường hợp số lượng sử dụng tăng 10-100x, song con số thực tế chỉ còn là 3-5x. Và khi thị trường xuất hiện biến động lớn, sai sót này sẽ không chỉ làm hệ thống quá tải từ 3-5x mà có khi là tận 10-100x hoặc hơn thế nữa.

Ở phương diện tích cực, chúng tôi có thể giải quyết được tất cả những vấn đề này. Cơ sở hạ tầng của chúng tôi rất vững chắc, chưa kể chúng tôi còn có một trong những đội ngũ kỹ thuật tài năng nhất ngành. Chúng tôi sẽ sớm khắc phục những vấn đề trên thông qua những cập nhật trong cả ngắn hạn, trung hạn lẫn dài hạn. Tôi vẫn chưa thể đảm bảo mọi thứ sẽ hoạt động trơn tru kể từ giờ. Chúng tôi chắc chắn còn sẽ phải chạm trán với nhiều vấn đề khác trong tương lai, nhưng tự tin là sẽ có thể xử lý chúng một cách nhanh chóng.

Trong lịch sử của mình, Binance đã nhiều lần đối mặt với các thách thức, và chúng tôi đã đều có thể giải quyết chúng. Binance đã không trở thành nền tảng hàng đầu thị trường bằng việc đi theo con đường dễ dàng, chúng tôi tự hào vì mình khi đã có thể tìm được giải pháp cho những vấn đề dù là khó nhằn, đồng thời vẫn bảo vệ được người dùng.

Nếu bạn cảm thấy mình đã bị ảnh hưởng một cách không chính đáng bởi những sự cố mới xảy ra gần đây trên Binance.com, hãy gửi yêu cầu hỗ trợ đến đây và trình bày chi tiết nhất có thể để đội ngũ chúng tôi có thể đánh giá ngay lập tức.

Chúng tôi tin rằng tính minh bạch chính là nền móng của một thế giới dựng xây từ blockchain. Chúng tôi không ngại những khó khăn và thử thách; quan trọng hơn, chúng tôi có đủ can đảm và khả năng để đứng ra nhận trách nhiệm. Bảo vệ người dùng là giá trị cốt lõi của chúng tôi. Cùng với việc nỗ lực để tối ưu hơn nữa hệ thống, chúng tôi sẽ tiếp tục cung cấp thông tin đến người dùng một cách minh bạch.

Tôi xin lỗi về bất kỳ sự bất tiện nào đã gây ra, và hãy biết rằng chúng tôi cực kỳ biết ơn sự hỗ trợ từ các bạn. Như mọi khi, tôi vẫn sẽ thường xuyên hoạt động trên Twitter nếu các bạn cần liên lạc.

- CZ, CEO Binance