Sre là gì

SRE là gì ? Vai trò của kỹ sư Site Reliability Engineer là gì ?obatambeienwasirherbal.com | Trong thời điểm này, với DevOps, định nghĩa Site Reliability Engineer (SRE), tạm dịch là Kỹ sư cai quản độ tin cẩn của hệ thống hoặc Kỹ sư định hình khối hệ thống, ngày dần được biết đến nhiều hơn thế nữa.

Bạn đang xem: Sre là gì

*

Nhiệm vụ của SRE là vận dụng các kỹ càng và kỹ năng của công nghệ ứng dụng vào vận hành (Operation) nhằm mục đích kim chỉ nam tạo ra những khối hệ thống phần mềm/hình thức có tác dụng không ngừng mở rộng và tin yêu cao. Bài viết này vẫn đối chiếu chi tiết mục đích của SRE và các kiến thức quan trọng để đảm nhận rất tốt phương châm này.


Contents


1. Công vấn đề của SRE

*
Công việc của SRE

Theo Ben Treynor, nhà sáng lập nhóm SRE của Google, thì SRE là “đa số kỹ sư phần mềm làm các quá trình tương quan mang đến vận hành”. Họ chịu đựng trách nhiệm bảo đảm độ chuẩn bị cùng công suất của website/dịch vụ/phần mềm, đôi khi giám sát và đo lường cùng ứng phó sự cầm cố xẩy ra bằng các gốc rễ và hình thức dịch vụ nhưng mà đơn vị hỗ trợ hoặc sử dụng.


Hiệu suất của đội hình SRE được giám sát bởi thời gian khắc chế lỗi mức độ vừa phải (mean time to lớn recover – MTTR) với thời gian Chịu lỗi mức độ vừa phải (mean time lớn failure – MTTF). Nói phương pháp khác, bọn họ buộc phải tìm kiếm cách tạo cho hình thức của bản thân mình hoạt động quay trở về nkhô giòn nhất lúc chạm mặt sự vắt với lần mắc lỗi tiếp theo sau (giả dụ có) cách càng xa càng xuất sắc.

2. Runbook là gì? Vai trò của Runbook cùng với SRE

*
Runbook là gì?

Nói một giải pháp đơn giản dễ dàng, Runbook là 1 trong tập hợp những hướng dẫn phần nhiều vấn đề cần tiến hành hoặc đánh giá khi tất cả sự cầm xảy ra với ngẫu nhiên hình thức, ứng dụng hoặc nền tảng nào đó. Runbook nên được viết sẵn trước lúc ứng dụng được tiến hành và đi vào sử dụng.

Nội dung của Runbooks hướng đến rất nhiều chủ đề nhỏng khắc phục và hạn chế sự cố kỉnh hạ tầng, khối hệ thống lưu trữ hoặc bất kỳ các dịch vụ với căn cơ không giống đang rất được thực hiện. Nếu ai đang thao tác cho một đội nhóm chức chưa tồn tại Runbook, thì hãy trường đoản cú bản thân đánh dấu nó vào quy trình hạn chế và khắc phục sự nuốm.

Runbook đặc trưng có lợi cho những SRE new đang có ít kinh nghiệm cách xử trí sự vậy xẩy ra với phần đông phần mềm new hoặc các gốc rễ không quen.

Xem thêm: Phần Mềm Arduino Ide Là Gì, Giới Thiệu Và Hướng Dẫn Sử Dụng Arduino Ide

3. Báo cáo ứng phó sự cố

*
Báo cáo ứng phó sự cố

Sau lúc giải quyết sự cố, nhằm tránh xẩy ra ngôi trường thích hợp tựa như, chúng ta nên khắc ghi vừa đủ, đúng mực các gì sẽ xẩy ra, các bước triển khai cũng tương tự toàn bộ các câu lệnh mà lại các bạn vẫn cần sử dụng, mặc dù chúng có hữu dụng hay là không. Đây chính là làm việc đánh dấu report ứng phó sự gắng.

Ai vẫn thông tin về vấn đề hình thức dịch vụ dứt hoạt động?Ai đã giúp sức khắc phục vấn đề?Ai sẽ bị ảnh hưởng vì chưng sự cầm đó? Sự cố gắng cực kỳ nghiêm trọng đến hơn cả nào, với hình thức dịch vụ đang hoàn thành vận động trong bao lâu?

Những lên tiếng bên trên giao hàng cho việc đào bới tìm kiếm ra ngulặng nhân nền tảng của việc thay. Lúc xác minh được nguyên ổn nhân, bạn cũng có thể sửa chữa hoặc đổi khác một số cụ thể quan trọng nhằm tăng mức độ tin cậy của căn nguyên. Như vậy sẽ giúp đỡ rút ngắn thời hạn phục hồi lúc xảy ra sự ráng một lần tiếp nữa.

4. Báo cáo sau sự cố

*
Báo cáo sau sự cố

Đối với SRE, giải quyết và xử lý sự cầm cố chỉ là một nửa công việc. Nhóm cần đảm bảo sự cụ kia ko xẩy ra nữa bằng cách phân tích nguim nhân căn nguyên của sự ráng.

Từ report đối phó sự chũm đã ghi nhận tự trước, SRE đề nghị tạo ra báo cáo sau sự chũm, bao hàm các bước cách xử lý sự cầm cố tại thời điểm đó, nguim nhân của sự việc núm, phương án hạn chế và khắc phục với chống đề phòng sự nắm, chiến thuật khôi phục hoạt động bình thường của dịch vụ.

5. Gigiết hại và chình họa báo

*
Gisát hại cùng chình ảnh báo

Giám sát và chú ý là nhì trọng trách thiết yếu nhưng mà SRE phải triển khai. Họ nên theo dõi các số liệu rất có thể có vào nền tảng gốc rễ của mình để đọc đúng đắn về triệu chứng của hệ thống đa số lúc. Đồng thời, chiến lược tính toán nên được tạo nên cùng với kiến tạo khối hệ thống hoặc với từng hình thức nhưng công ty cung cấp.

Trong thực tiễn, SRE sẽ theo dõi những số liệu ví dụ, đặt ngưỡng và kích hoạt chú ý dựa trên các ngưỡng đó. Tuy nhiên về sau, SRE đề xuất nghiên cứu cải tiến và phát triển những khối hệ thống giám sát cùng cách xử trí auto các sự cầm cố, chỉ gửi chú ý mang đến kỹ sư trong số ngôi trường vừa lòng quan trọng.

Xem thêm: Cài Đặt Phím Trong Liên Minh Huyền Thoại, Các Phím Tắt Chơi Game Liên Minh Huyền Thoại

6. Txuất xắc đổi phương pháp quản lý

*
Ttuyệt đổi biện pháp quản lý

Các SRE tiếp tục gặp mặt nên trường vừa lòng nền tảng gốc rễ bị biến đổi mà không theo ngẫu nhiên trả lời cấu hình thiết lập cùng xúc tiến làm sao. Thậm chí bọn họ cũng không được phổ biến kiến thức và kỹ năng về hồ hết thay đổi đó. Đây chính là nguyên do tại sao quan trọng lập các bước thống trị những thay đổi của căn nguyên, và phần lớn công ty cải tiến và phát triển rất cần được tuân thủ tiến trình này.

SRE là phần tử quan trọng đặc biệt đóng góp thêm phần tùy chỉnh cấu hình các quy tắc đó cùng tạo ra những công cụ cần thiết nhằm tự động hóa tổng thể tiến trình. Đồng thời sản xuất điều kiện xúc tiến và phục sinh các các dịch vụ bắt đầu, hoặc thay đổi những dịch vụ hiện tất cả. Quy trình cai quản này thường xuyên bao hàm các nhân tố chủ yếu sau:

Sơ đồCác mặt liên quanKế hoạch giám sátRunbookDanh sách công ty slàm việc hữuChiến lược sẵn sàngQuá trình thực thi cùng rollbackLưu giữ lại dữ liệuTài liệuSLA

Kết luận

Việc thành lập những nhóm kỹ sư SRE vào công ty là 1 trong bước tiến mập, góp gốc rễ ngày 1 hoàn thành hơn rộng. Để đảm nhận tốt quá trình, mọi SRE nên học tập phương pháp tự động hóa hóa quá trình có thể, và ghi chép lại đa số bước cần thiết tự động hóa hóa được. Cũng nhờ vào có sứ mệnh của SRE, mọi sự vậy xảy ra cùng với hệ thống sẽ bớt tgọi đáng kể!


Chuyên mục: Hỏi Đáp