— cloud, tech, devops, news, feature — 2 min read
Khoảng 15:30 UTC (tức 22:30 VNT) facebook và một số dịch vụ thuộc sở hữu của Mark Zuckerberg đã không thể truy cập và sự cố này kéo dài trong khoảng 5 giờ đồng hồ. Không dừng lại ở facebook.com, mà whatapps, instagram cũng không thể truy cập trong cùng khoảng thời gian đó. Lí do chính là vì chúng cùng chung 1 chủ sở hữu: Facebook, Inc.
Nguyên nhân được đưa ra là đã có sự cố về DNS & BGP. Mình sẽ không đi sâu về việc DNS & BGP là gì và nó hoạt động ra sao. Cái chúng ta cần nắm bắt đó là toàn bộ hệ thống tên miền & server của facebook nói riêng và tất cả các ứng dụng nói chung đều cần phải có máy chủ DNS và lơn hơn là BGP để có thể nhận biết ai là ai & gửi những request đến đúng nơi chúng cần đến.
Theo bài đăng của Cloudflare, vào khoảng 15:40UTC, các máy chủ của facebook bắt đầu gửi đi rất nhiều update liên quan đến BGP và phần lớn trong số chúng là route withdrawal. Điều này có nghĩa là Facebook đã tự chặn đường đến server & tự ngắt mình khỏi internet trên toàn thế giơi một cách triệt để 🙃 ("Facebook and its sites had effectively disconnected themselves from the Internet")
Facebook tạch thì liên quan gì đến internet đâu nhỉ?
Thật ra là có, khi facebook.com không thể truy cập thì người dùng bắt đầu tìm kiếm những ứng dụng thay thế để có thể liên tục cập nhật thông tin. Ví dụ như twitter, signal, telegram, ... đều nhận được lượng truy cập tăng bất thường trong khoảng thời gian sự cố này.
Bỗng nhiên hàng tỷ người dùng facebook đồng loạt ồ ạt đổ sang các ứng dụng khác sẽ gây ra sự tăng vọt về lượng truy cập, lượng tương tác và cũng chính là đem lại lợi ích cho các công ty nhỏ hơn so với facebook. Tuy nhiên, cũng hãy tưởng tượng một chiếc đập thủy điện có sức chứa hàng tỷ khối nước một ngày nào đó bị sự cố, lượng nước đó sẽ càn quét tất cả cơ sở hạ tầng, nhà cửa, công trình trên đường nó quét qua. Điều tương tự đã có thể xảy ra với các nền tảng mạng xã hội khác trong vòng 5 tiếng trên nếu họ không có một kiến trúc đủ mạnh với khả năng kháng chịu cao (resilient) và khả năng mở rộng (scalability).
Cloudflare là một công ty công nghệ cũng đã bị ảnh hưởng bởi sự cố trên và có một report rất chi tiết để phân tích nguyên nhân và hậu quả của nó đối với lượng truy cập của người dùng của họ trên toàn thế giới.
Reference: