Kịch Bản Ứng Cứu

Kịch Bản Ứng Cứu

Hệ thống playbook dựng trước cho các sự kiện trọng yếu


 

Phút thứ 12 của một phiên họp Hội đồng Quản trị thường niên. Micro của chủ tọa đột ngột tắt. Người chủ tọa đang ở giữa câu phát biểu về kết quả kinh doanh quý vừa qua. Cả phòng họp 80 người yên lặng. Người vận hành kỹ thuật ở phòng điều khiển nhìn vào hệ thống meter.

Trong khoảnh khắc đó, có một cửa sổ thời gian rất ngắn, thường được tính bằng giây, giữa hai trạng thái rất khác nhau.


Trạng thái A: micro được khôi phục trong 9 đến 12 giây. Người chủ tọa tiếp tục phát biểu. Một số người tham dự thậm chí không nhận ra đã có sự cố. Phiên họp diễn ra theo lịch.


Trạng thái B: micro vẫn không hoạt động sau 30 giây. Người chủ tọa lúng túng. Người tham dự bắt đầu xì xào. Thư ký phải tạm ngừng phiên. Sau đó là cuộc gọi cho IT, gọi cho vendor, đợi engineer đến site, đợi chẩn đoán, đợi sửa. Phiên họp bị dời 45 phút. Một số thành viên rời cuộc họp. Biên bản phiên họp ghi nhận sự cố. Trong báo cáo nội bộ, sự cố được phân loại là "vấn đề kỹ thuật". Nhưng với chánh văn phòng và ban tổ chức, đây là một sự kiện uy tín không thể quên.


Khoảng cách giữa trạng thái A và trạng thái B không nằm ở thiết bị. Hai phòng họp có thể có cùng thiết bị, cùng thương hiệu, cùng cấu hình. Khoảng cách nằm ở việc đã có một kịch bản ứng cứu được dựng trước cho đúng tình huống này hay chưa.


Bài này dành cho COO, risk manager, chánh văn phòng, và ban tổ chức các sự kiện trọng yếu. Tài liệu giải thích Kịch Bản Ứng Cứu của Bá Hùng là gì cụ thể, vì sao đây là sản phẩm vận hành riêng có cấu trúc khác với hợp đồng bảo trì thông thường, và cách đánh giá năng lực ứng cứu của nhà cung cấp.

Hai mô hình ứng phó với sự cố

Có hai mô hình ứng phó sự cố trong Pro AV. Hai mô hình này tạo ra hai kết quả vận hành rất khác nhau khi sự kiện trọng yếu đang diễn ra.


Mô hình ứng phó phản ứng (reactive response): khi sự cố xảy ra, gọi nhà cung cấp. Nhà cung cấp gửi engineer đến site. Engineer chẩn đoán nguyên nhân. Sau khi xác định được nguyên nhân, engineer thực hiện sửa chữa. Tổng thời gian từ sự cố đến khi hệ thống vận hành lại thường tính bằng giờ, đôi khi ngày.

Mô hình này phù hợp cho các tình huống không trọng yếu: hệ thống AV của một phòng họp nội bộ thường ngày, một phòng học, một showroom. Hỏng hôm nay, sửa ngày mai, không sao.

Mô hình này tê liệt khi đặt vào tình huống trọng yếu. Một phiên họp HĐQT không thể dời sang ngày mai. Một đại hội cổ đông không thể chờ engineer đến site. Một phiên họp Tỉnh uỷ có lịch cứng đã được lên hàng tháng trước. Trong các tình huống này, mô hình phản ứng dẫn đến hậu quả không thể đo bằng chi phí kỹ thuật.


Mô hình ứng phó dựng trước (prepared response): trước khi sự kiện diễn ra, đã có một bộ kịch bản cho các tình huống tới hạn có thể xảy ra. Mỗi kịch bản có quy trình cụ thể, người phụ trách cụ thể, thời gian phản hồi mục tiêu. Đội vận hành đã được tập huấn theo kịch bản trong môi trường mô phỏng. Khi sự cố thực xảy ra, người vận hành không phải nghĩ "phải làm gì", mà thực hiện đúng kịch bản đã luyện.

Sự khác biệt giữa hai mô hình không nằm ở năng lực kỹ thuật của engineer. Engineer trong cả hai mô hình có thể giỏi như nhau. Sự khác biệt nằm ở thời điểm tư duy đã được làm xong. Trong mô hình phản ứng, tư duy diễn ra khi sự cố đang xảy ra, dưới áp lực, có khả năng sai sót cao. Trong mô hình dựng trước, tư duy đã được làm xong từ trước, dưới điều kiện bình tĩnh, có khả năng tối ưu.

Chi phí thực của sự cố trong sự kiện trọng yếu

Đối với COO và risk manager, hữu ích định nghĩa lại chi phí sự cố trong các sự kiện trọng yếu.

Chi phí kỹ thuật của sự cố thường nhỏ. Một micro hỏng có thể thay với chi phí vài triệu đồng. Một switch network treo có thể restart trong vài phút. Một thiết bị decoder lỗi firmware có thể flash lại. Đây là chi phí có thể đo và lập kế hoạch.


Chi phí phi kỹ thuật của sự cố trong sự kiện trọng yếu thường lớn gấp hàng chục đến hàng trăm lần chi phí kỹ thuật. Các thành phần chi phí thực tế:


Chi phí uy tín tổ chức. Một sự cố tại đại hội cổ đông được ghi vào biên bản, được nhắc lại trong các báo cáo nội bộ và đối ngoại, đôi khi được truyền thông đưa tin. Uy tín bị giảm trong nhận thức của cổ đông, đối tác, cơ quan quản lý. Chi phí phục hồi uy tín lớn và kéo dài.


Chi phí gián đoạn quy trình ra quyết định. Phiên họp HĐQT bị gián đoạn 45 phút có thể không kết luận được các vấn đề trong agenda. Quyết định bị dời sang phiên sau, có khi sang quý sau. Chi phí cơ hội của các quyết định bị trì hoãn lớn hơn nhiều chi phí kỹ thuật.


Chi phí pháp lý và tuân thủ. Một số phiên họp có yêu cầu pháp lý nghiêm ngặt: đại hội cổ đông phải ghi nhận biểu quyết với trình tự đúng, phiên HĐND có yêu cầu lưu trữ phục vụ kiểm tra, một số phiên họp được ghi hình theo quy định. Sự cố làm gián đoạn các yêu cầu này có thể tạo rủi ro pháp lý.


Chi phí lòng tin nội bộ. Sau một sự cố vận hành lớn, đội ngũ tổ chức sự kiện mất tự tin. Chánh văn phòng, ban tổ chức, đội kỹ thuật nội bộ chuyển sang trạng thái lo lắng cho mọi sự kiện sau đó. Năng suất và chất lượng tổ chức giảm.


Chi phí cơ hội nhân sự cấp cao. Thời gian của lãnh đạo cấp cao tham dự sự kiện là nguồn lực đắt nhất của tổ chức. Một sự cố tốn 30 phút trong một phiên họp 90 phút có nghĩa 33 phần trăm thời gian của 10-20 lãnh đạo bị lãng phí.


Khi tính tổng các thành phần này, chi phí thực của một sự cố vận hành lớn trong sự kiện trọng yếu có thể đến hàng trăm triệu hoặc hàng tỷ đồng, vượt xa chi phí kỹ thuật để phòng ngừa nó.


Đây là toán mà COO và risk manager hiểu rõ. Nhưng nó hiếm khi được trình bày khi đánh giá nhà cung cấp Pro AV. Vendor lắp đặt tập trung báo giá CAPEX. Vendor có cam kết lifecycle tập trung TCO. Hiếm vendor nào trình bày Cost of Operational Failure (COF), dù đây mới là chỉ số quan trọng nhất với loại khách hàng này.

Kịch Bản Ứng Cứu là gì, cụ thể

Kịch Bản Ứng Cứu không phải hợp đồng bảo trì. Không phải dịch vụ sửa chữa khẩn cấp. Không phải hotline. Đây là một sản phẩm vận hành riêng có cấu trúc khác.


Bốn thành phần chính của một kịch bản ứng cứu:

Pre-identified failure modes. Trước khi sự kiện diễn ra, đã có danh sách các tình huống sự cố có thể xảy ra trong loại sự kiện này, kèm xác suất tương đối và mức độ nghiêm trọng. Danh sách này được rút từ kinh nghiệm hàng trăm sự kiện trong lịch sử.


Pre-defined response procedures. Với mỗi tình huống, đã có quy trình ứng phó cụ thể. Ai phát hiện. Ai quyết định. Ai thực hiện. Bằng cách nào. Trong bao lâu. Quy trình này được viết ra, không phụ thuộc trí nhớ cá nhân.


Pre-trained personnel. Đội vận hành đã được tập huấn theo các quy trình. Tập huấn không chỉ là đọc tài liệu. Tập huấn gồm tabletop exercise (chạy quy trình trên giấy), live simulation (chạy quy trình trong môi trường mô phỏng có sự cố giả), và post-event review (rút kinh nghiệm sau sự kiện thực).


Pre-positioned resources. Trước sự kiện, các tài nguyên ứng cứu được đặt sẵn ở đúng vị trí. Linh kiện thay thế được lưu tại site, không phải trong kho ở đầu kia thành phố. Engineer dự phòng có mặt tại site trong các sự kiện trọng yếu, không phải standby ở văn phòng. Đường dây liên lạc khẩn được test trước sự kiện, không phải kiểm tra khi cần.


Bốn thành phần này phải hiện diện cùng lúc. Thiếu một, kịch bản ứng cứu trở thành lý thuyết.

Tập huấn không phải đọc tài liệu

Có một sai lầm phổ biến trong các tổ chức triển khai kịch bản ứng cứu: viết kịch bản ra giấy, phát cho đội vận hành, coi là xong. Sau 6 tháng, đội đã quên hơn nửa nội dung. Khi sự cố thực xảy ra, kịch bản không được kích hoạt đúng.

Tập huấn thực sự gồm ba lớp.
Tabletop exercise là chạy kịch bản trên giấy. Người chỉ huy đọc một tình huống giả định. Đội vận hành lần lượt nói mình sẽ làm gì. Người chỉ huy đặt các tình huống biến đổi ("nhưng nếu cùng lúc kịch bản 1 và kịch bản 3 xảy ra thì sao?"). Tabletop tốt rèn cho đội tư duy hệ thống, không bị panic.

Tiếp theo, live simulation chạy kịch bản trong môi trường thật của site, có sự cố giả được dựng (ví dụ rút plug nguồn của một thiết bị mà không thông báo trước cho đội). Đội vận hành phải kích hoạt kịch bản trong thời gian thật. Các sai sót xuất hiện trong simulation là cơ hội cải tiến trước khi gặp sự kiện thật.

Lớp cuối cùng, post-event review, được thực hiện sau mỗi sự kiện thực. Đội ngồi lại đánh giá. Kịch bản nào đã chạy. Có chạy đúng thời gian không. Có pattern bất thường không. Cần cập nhật kịch bản không. Đây là vòng cải tiến liên tục.

Bá Hùng tổ chức tập huấn theo ba lớp này cho đội vận hành nội bộ của khách hàng (nếu khách có), và cho đội Bá Hùng phụ trách dự án. Tập huấn được thực hiện định kỳ, không một lần.

Cấu trúc thương mại của dịch vụ Kịch Bản Ứng Cứu

Kịch Bản Ứng Cứu là một dịch vụ vận hành có thu phí, thuộc khung dịch vụ bảo trì lifecycle của Bá Hùng. Mức dịch vụ cụ thể được thoả thuận theo nhu cầu của khách hàng và mức độ trọng yếu của các sự kiện. Các phương án phổ biến gồm bốn cấp độ.

Cấp một là tài liệu hoá kịch bản. Bá Hùng viết bộ kịch bản cho các tình huống thường gặp tại site của khách hàng, bàn giao tài liệu, đội vận hành nội bộ của khách tự thực hiện. Phù hợp cho các tổ chức có đội kỹ thuật mạnh muốn tự chủ.

Cấp hai là tài liệu hoá cộng tập huấn. Bá Hùng bổ sung tabletop exercise và live simulation định kỳ cho đội vận hành nội bộ của khách. Phù hợp cho các tổ chức có đội kỹ thuật cần nâng năng lực ứng cứu.

Cấp ba là on-call trong giờ sự kiện. Engineer Bá Hùng standby qua đường dây khẩn trong các sự kiện trọng yếu, có thể đến site trong thời gian cam kết. Phù hợp cho các sự kiện trọng yếu định kỳ với mức rủi ro trung bình.

Cấp bốn là on-site trong các sự kiện trọng yếu nhất. Engineer Bá Hùng có mặt trực tiếp tại phòng điều khiển trong giờ sự kiện, sẵn sàng kích hoạt kịch bản nếu cần. Phù hợp cho các sự kiện không cho phép một giây gián đoạn (đại hội cổ đông trực tuyến, phiên họp ngoại giao cấp quốc gia, lễ ký kết quan trọng).

Phí dịch vụ phụ thuộc cấp độ chọn, quy mô hệ thống, tần suất sự kiện trọng yếu, và mức SLA cam kết. Hợp đồng có thể là dạng định kỳ hằng năm hoặc theo từng sự kiện. Bá Hùng đề xuất cấp độ phù hợp dựa trên đánh giá Cost of Operational Failure của khách hàng, không bán cấp cao nhất cho mọi khách hàng.

Vì sao kịch bản ứng cứu không thể tách khỏi tư duy kiến trúc

Có thể đặt câu hỏi: vì sao không phải mọi nhà tích hợp đều có kịch bản ứng cứu cho khách hàng?

Câu trả lời: vì kịch bản ứng cứu đòi hỏi điều kiện tiên quyết về kiến trúc.
Một micro chính không thể chuyển sang dự phòng trong 9 giây nếu kiến trúc không có dự phòng nóng (hot standby). Hệ thống không có dự phòng nóng phải lắp thêm thiết bị, đấu lại cable, cấu hình lại routing. Quá trình này tính bằng phút, không phải giây.

Một livestream không thể bypass sang đường dự phòng nếu kiến trúc mạng không có hai đường truyền độc lập đến từ hai ISP khác nhau. Kiến trúc một đường truyền phải chấp nhận downtime khi đường đó hỏng.

Một hệ biểu quyết không thể chuyển sang manual nếu cấu trúc phòng và quy trình điều hành không cho phép. Kiến trúc bàn họp phải có không gian cho biểu quyết bằng tay được nhìn thấy đủ rõ. Quy trình thư ký phiên họp phải có procedure cho biểu quyết manual sẵn sàng kích hoạt.

Tất cả các yếu tố này được quyết định ở giai đoạn kiến trúc, không phải giai đoạn lắp đặt. Khi kiến trúc đã không có dự phòng nóng, kịch bản ứng cứu cho mất tín hiệu micro chính trở nên bất khả thi dù viết kịch bản hay đến đâu.

Đây là lý do Vai trò 5 (ứng cứu nhanh) trong khung 5 vai trò Bá Hùng không thể tách rời Vai trò 1 (tư vấn kiến trúc giải pháp). Tách hai vai trò ra, vai trò 5 trở thành lời hứa không thực hiện được.

Tham chiếu chéo: chi tiết về tư duy kiến trúc giải pháp trong Tư Duy Kiến Trúc Giải Pháp, về cấu trúc cung ứng linh kiện cho ứng cứu nhanh trong Đối Tác Trực Tiếp G7/EU.

Ba câu hỏi để đánh giá năng lực ứng cứu của nhà cung cấp

Khi đánh giá nhà cung cấp Pro AV cho sự kiện hoặc dự án trọng yếu, COO và risk manager có thể dùng ba câu hỏi sau.


Câu đầu tiên về tài liệu kịch bản: "Cho dự án này, ông có thể cung cấp danh sách các kịch bản ứng cứu đã viết, bao gồm trigger conditions, action sequence, và recovery time targets không?" Vendor có kịch bản dựng sẵn cung cấp được tài liệu cụ thể. Vendor không có kịch bản trả lời chung chung "chúng tôi sẵn sàng phản ứng nhanh khi có sự cố".


Câu thứ hai về tập huấn: "Đội vận hành của ông được tập huấn theo các kịch bản này thông qua tabletop và live simulation định kỳ thế nào? Lần tập huấn gần nhất là khi nào và kết quả ra sao?" Mô hình ứng cứu dựng trước có lịch tập huấn cụ thể và bằng chứng. Mô hình phản ứng không có khái niệm tập huấn theo kịch bản.


Câu cuối, khó nhất, về kiến trúc tiền đề: "Đối với sự kiện này, kịch bản ứng cứu cho [tình huống X] yêu cầu kiến trúc tiền đề nào, và liệu kiến trúc đề xuất của ông có đáp ứng không?" Câu này không phải bẫy. Đây là câu phơi bày sự không thống nhất giữa lời hứa ứng cứu nhanh và kiến trúc thực tế. Vendor có tư duy kiến trúc giải pháp trả lời được cụ thể. Vendor lắp đặt thường lúng túng vì kịch bản ứng cứu chưa từng được nghĩ từ giai đoạn thiết kế kiến trúc.

Ai đứng ở cánh cửa đó.

Trong các sự kiện trọng yếu, có một quy luật mà những người tổ chức sự kiện dày dạn đều biết: không có sự kiện hoàn hảo, chỉ có sự kiện được chuẩn bị tốt và sự kiện không được chuẩn bị tốt.

Sự cố sẽ xảy ra. Câu hỏi không phải có hay không, mà là khi nào và nghiêm trọng đến mức nào. Một tổ chức có kịch bản ứng cứu dựng trước không tránh được mọi sự cố, nhưng đảm bảo các sự cố không leo thang thành khủng hoảng.

Một tổ chức không có kịch bản dựng trước có thể vận hành nhiều sự kiện thành công liên tiếp. Đến khi sự cố nghiêm trọng xảy ra, mới phát hiện không có cấu trúc để xử lý. Khi đó, hậu quả thường vượt xa chi phí phòng ngừa.

Vai trò 5 trong khung 5 vai trò Bá Hùng (ứng cứu nhanh với kịch bản dựng sẵn) là vai trò khó copy nhất. Không phải vì kỹ thuật, mà vì nó đòi hỏi sự kết hợp giữa tư duy kiến trúc (vai trò 1), cấu trúc cung ứng (vai trò 2), tích hợp đúng (vai trò 3), bảo trì có cấu trúc (vai trò 4), và cuối cùng là văn hoá tổ chức coi vận hành rủi ro là sản phẩm chính của nghề.

Phòng họp HĐQT vào phút thứ 12. Micro chính tắt. Cánh cửa giữa trạng thái A và trạng thái B mở ra trong 9 giây.

Ai đứng ở cánh cửa đó.

Quay lại Methodology   |   Liên quan: Tư Duy Kiến Trúc Giải Pháp   |   Đối Tác Trực Tiếp G7/EU   |   Vòng Đời 10 Năm

Bá Hùng Technology 
· Nhà Kiến Trúc Giải Pháp Công Nghệ 
· Thành lập 2003