Sự gia tăng dữ liệu trên đám mây làm cho việc sao lưu và khôi phục dữ liệu trở nên phức tạp hơn đối với các tổ chức. Các tổ chức đang phải đối mặt với áp lực để sao lưu và khôi phục dữ liệu nhanh chóng, chính xác và phù hợp với ngân sách.
Việc sao lưu toàn bộ dữ liệu là một thách thức, vì lượng dữ liệu cần phải lưu giữ và quản lý ngày càng tăng. Điều này ảnh hưởng đến:
- Số lượng lưu trữ mà bạn sử dụng
- Chi phí lưu trữ tăng lên
- Thời gian sao lưu và khôi phục ngày càng dài
- Và cuối cùng, mức độ chuẩn bị của tổ chức để khôi phục nếu xảy ra sự cố hoặc tấn công mạng.
Kết quả là, nhiều tổ chức đang phải đối mặt với những vấn đề như chậm lại các phương pháp sao lưu và khôi phục dữ liệu, tăng chi phí lưu trữ trên đám mây, và thiếu sự sẵn sàng để khôi phục sau một sự cố thảm khốc.
Do đó, giải pháp để giải quyết tình trạng tăng trưởng dữ liệu, đó là tối ưu hóa dữ liệu bằng ba kỹ thuật cụ thể, và sẽ giải thích khi nào thì nên sử dụng chúng được chia sẻ trong bài viết dưới đây.
03 chiến lược tối ưu hóa dữ liệu
Ba chiến lược tối ưu hóa dữ liệu
Ba chiến lược tối ưu hóa dữ liệu để giúp tổ chức/doanh nghiệp bạn đạt được hiệu quả tối đa trong việc sao lưu dữ liệu:
Data deduplication: Đây là quá trình loại bỏ các bản sao dữ liệu trùng lặp trong các tệp sao lưu. Các bản sao này được thay thế bằng các tham chiếu đến bản gốc của dữ liệu. Điều này giúp giảm thiểu lượng dữ liệu cần sao lưu và giảm thiểu thời gian và chi phí sao lưu.
Data compression: Đây là quá trình nén dữ liệu để giảm thiểu kích thước tệp sao lưu và giảm thiểu lượng dữ liệu cần phải lưu trữ. Điều này có thể giúp giảm chi phí lưu trữ và thời gian sao lưu và khôi phục.
Storage tiering: Đây là quá trình phân loại dữ liệu thành các tầng khác nhau dựa trên mức độ quan trọng của dữ liệu và tần suất truy cập. Dữ liệu quan trọng và được truy cập thường xuyên được lưu trữ trên các tầng cao hơn, trong khi các dữ liệu ít quan trọng và được truy cập ít thường xuyên được lưu trữ trên các tầng thấp hơn. Điều này giúp giảm chi phí lưu trữ và tối ưu hóa hiệu suất truy cập dữ liệu.
Hãy tìm hiểu sâu hơn về yêu cầu của mỗi phương pháp và khi nào thì nên áp dụng chúng trong quy trình sao lưu của tổ chức bạn.
Chống trùng lặp dữ liệu (Data deduplication)
Là quá trình tìm và loại bỏ các khối dữ liệu bị trùng lặp. Điều này bao gồm việc xem xét dữ liệu trong các tệp và chỉ lưu trữ các khối đã thay đổi kể từ lần sao lưu trước đó. Bằng cách sử dụng chỉ mục (index), giảm trùng dữ liệu theo dõi các khối hoặc tệp duy nhất đang được giảm trùng.
Khi tìm thấy khối hoặc tệp trùng lặp, chúng được thay thế bằng cách sử dụng băm (hash) (đối với khối) hoặc một đối tượng tham chiếu tệp (đối với tệp) để giảm kích thước tổng thể của dữ liệu sao lưu được lưu trữ. Giảm trùng dữ liệu có thể đạt được mức tiết kiệm không gian lên đến hơn 90% tùy thuộc vào cách thực hiện.
Giảm trùng cấp khối giả định một kích thước khối nhất định (ví dụ: 4K, 8K, 16K, 32K). Hãy lưu ý rằng loại dữ liệu sao lưu được giảm trùng có thể phù hợp hơn với kích thước khối lớn hơn hoặc nhỏ hơn để tìm nhiều sự khớp nhau hơn và đạt được giảm kích thước lớn nhất. Có cả giảm trùng cấp khối biến thiên, xác định các mẫu trong dữ liệu, điều chỉnh kích thước khối được sử dụng và thậm chí có thể căn chỉnh điểm bắt đầu và kết thúc khối để đạt được tiết kiệm không gian nhiều hơn.
Giảm trùng dữ liệu có thể yêu cầu xử lý nhiều, vì vậy có một số yếu tố cần suy nghĩ trong cách tiếp cận:
Source hay Destination: Liệu quá trình giảm trùng có xảy ra trước khi dữ liệu được sao lưu lên đám mây (Source) hay sau khi nó đã được lưu trữ trên đám mây (Destination)?
Job level vs. global: Đây là khái niệm so sánh việc áp dụng giảm trùng lặp dữ liệu chỉ trong một nhiệm vụ sao lưu cụ thể – job level (ví dụ như một vài máy ảo VMs) hay trên toàn bộ hệ thống backup của doanh nghiệp- global (ví dụ như toàn bộ doanh nghiệp của bạn). Nếu chống trùng lặp dữ liệu được thực hiện ở mức toàn doanh nghiệp thì nó sẽ được áp dụng cho toàn bộ các nhiệm vụ sao lưu trong doanh nghiệp, giúp giảm thiểu tối đa lượng dữ liệu lặp lại.
Deduping SaaS data: Đây là khái niệm nói về việc áp dụng chống trùng lặp cho các dữ liệu được lưu trữ trong các ứng dụng đám mây (SaaS), ví dụ như Microsoft 365 hay Salesforce. Việc thực hiện chống trùng lặp trên các dữ liệu này cũng giúp giảm thiểu lượng dữ liệu lặp lại và tiết kiệm tài nguyên lưu trữ.
Software-defined vs. appliance-based: là hai kiểu giải pháp cho việc giảm bớt dữ liệu trùng lặp trong sao lưu. Nhìn chung, các giải pháp sao lưu đều có chức năng giảm bớt dữ liệu trùng lặp, nhưng một số tổ chức muốn có một giải pháp đặc biệt dành riêng cho việc giảm bớt dữ liệu trùng lặp. Một số tổ chức sử dụng các ứng dụng (appliance), nhưng điều này có nghĩa là họ phải lo lắng về các vấn đề phần cứng, vấn đề cập nhật, vv.
Tìm hiểu thêm: Top 3 phần mềm sao lưu và khôi phục dữ liệu cho doanh nghiệp
Nén dữ liệu (Data compression)
Nén dữ liệu là nén tất cả dữ liệu trước khi sao lưu lên đám mây. Nén dữ liệu giúp giảm dung lượng dữ liệu phải di chuyển giữa các máy chủ và bản sao lưu trên đám mây. Tuy nhiên, kỹ thuật nén này yêu cầu nhiều tài nguyên xử lý, dẫn đến thời gian chờ (latency) được tạo ra. Do đó, cần cân bằng tỷ lệ nén dữ liệu mong muốn với thời gian chờ khi thực hiện quá trình sao lưu và khôi phục. Tỷ lệ nén dữ liệu tốt là dưới 1:10 (kích thước sau khi nén so với kích thước dữ liệu gốc). Mặc dù các loại dữ liệu có tỷ lệ nén khác nhau, tỷ lệ 1:12 được coi là tỷ lệ nén tuyệt vời.
Tuy nhiên, việc nén dữ liệu yêu cầu tài nguyên xử lý nhiều, vì vậy đôi khi cần đặt câu hỏi liệu có nên nén hay không. Câu trả lời ngắn gọn là có, nhưng cần cân nhắc giữa lợi ích của việc nén và thời gian chờ khi thực hiện quá trình sao lưu và khôi phục.
Tầng lưu trữ (Storage tiering)
Một phương pháp giúp giảm chi phí lưu trữ trên đám mây gọi là “storage tiering”. Data deduplication và data compression là những phương pháp tốt để giảm kích thước dữ liệu, nhưng storage tiering là một phương pháp khác, mà các nhà cung cấp dịch vụ lưu trữ đám mây cung cấp để giảm chi phí. Phương pháp này cho phép chia dữ liệu thành nhiều tầng khác nhau, mỗi tầng có mức độ truy cập và hiệu suất khác nhau. Tầng “colder” có chi phí thấp hơn, nhưng tốc độ truy cập lại chậm hơn nhiều so với tầng cao hơn.
Để tối ưu chi phí sao lưu trên đám mây, tốt nhất là sử dụng phương pháp tiếp cận tự động và dựa trên chính sách để di chuyển các bản sao lưu được giữ lại sang các tầng lưu trữ “colder” theo thời gian, từ đó giảm chi phí lưu trữ.
Ngoài ra, trong quá trình khôi phục dữ liệu, hiệu suất cũng là một yếu tố quan trọng. Nên ví dụ nếu bạn sử dụng tầng lưu trữ “colder” trên AWS, thời gian chờ đợi để bắt đầu khôi phục dữ liệu có thể lên đến vài giờ do độ trễ “first-byte latency” (thời gian chờ đợi trước khi nhận được byte đầu tiên của bản sao lưu để khôi phục) – điều này có nghĩa là bạn có thể không thấy được khôi phục bắt đầu trong một khoảng thời gian dài như vậy!
Đọc thêm: Khắc phục 5 lỗ hổng hàng đầu bảo vệ dữ liệu Office 365
Chi phí và tốc độ trong lưu trữ dữ liệu backup: Làm sao để cân bằng?
Triển khai lưu trữ phân tầng (Implementing tiered storage)
Triển khai lưu trữ phân tầng (tiered storage) để tối ưu hóa việc lưu trữ dữ liệu sao lưu. Đầu tiên, doanh nghiệp bạn nên xác định các yêu cầu lưu trữ dữ liệu backup của mình và chọn tầng lưu trữ phù hợp với chi phí và yêu cầu thời gian truy cập của từng tầng. Bên cạnh đó, có thể tìm hiểu xem có bao nhiêu tầng lưu trữ mà nhà cung cấp dịch vụ cloud cung cấp, chi phí khác nhau như thế nào và thời gian chậm nhất để truy cập byte đầu tiên là bao nhiêu. Sau đó, ánh xạ các yêu cầu lưu trữ dữ liệu back up của bạn với các tầng lưu trữ khác nhau dựa trên khối lượng công việc và dữ liệu vận hành của bộ dữ liệu sao lưu của bạn.
Để tối đa hóa lợi ích của lưu trữ phân tầng, dữ liệu nên được di chuyển giữa các tầng dựa trên một chính sách đã được xác định trước. Ví dụ, các bản sao lưu cũ hơn 6 tháng không cần phải ở lại trong tầng lưu trữ đắt hơn. Nhà cung cấp dịch vụ đám mây của bạn có thể cung cấp quản lý lưu trữ và một số giải pháp sao lưu doanh nghiệp bao gồm khả năng quản lý lưu trữ phân tầng. Bạn cũng có thể triển khai lưu trữ phân tầng cho các bản sao lưu tại chỗ và bản sao lưu đám mây. Các bản sao lưu mới nhất của bạn sẽ được lưu tại chỗ để khôi phục nhanh nhất (trong trường hợp nói về khối lượng công việc tại chỗ), các bản sao lưu cũ hơn sẽ được “phân tầng” (tức di chuyển) sang lưu trữ đám mây.
Sử dụng tính năng giảm trùng lặp dữ liệu
Việc sử dụng tính năng deduplication (trùng lặp dữ liệu) để giảm dung lượng lưu trữ khi sao lưu dữ liệu. Deduplication được sử dụng để tìm kiếm các phần dữ liệu giống nhau và chỉ lưu trữ một bản sao của chúng, thay vì lưu trữ nhiều bản sao tương tự.
Tuy nhiên, các giải pháp sao lưu có tính năng chống trùng lặp hoặc cung cấp tính năng này như một tiện ích bổ sung, nhưng chúng có thể đi kèm với những hạn chế. Ví dụ, nếu sao lưu của bạn đang thực hiện giảm trùng lặp ở mức độ của máy ảo (VM level), điều kiện tốt nhất là nếu bạn xây dựng tất cả 100 máy chủ của mình từ cùng một hình ảnh cơ sở, sẽ có một cơ hội lớn để loại bỏ tất cả những điểm tương đồng giữa chúng. Nhưng điều đó không phải là trường hợp thường xuyên, vì vậy bạn nên đọc tài liệu để hiểu rõ hơn về cách thức tính năng chống trùng lặp tích hợp hoạt động ở mức độ nào – và chúng sẽ thực sự mang lại lợi ích gì cho bạn.
Cuối cùng, bạn nên tận dụng bất kỳ chức năng deduplication nào có sẵn, miễn là chúng không ảnh hưởng tiêu cực đến hiệu suất sao lưu và phục hồi.
Chức năng nén dữ liệu trong giải pháp sao lưu và khôi phục dữ liệu.
Một điều cần lưu ý khi sử dụng chức năng nén là nó có thể tốn nhiều tài nguyên CPU. Và mặc dù nén dữ liệu có thể giúp giảm kích thước của dữ liệu, nhưng kết quả không phải lúc nào cũng là tối ưu nhất. Một số giải pháp sao lưu có thể tăng sử dụng CPU lên đến 10 lần chỉ để đạt được 10% nén dữ liệu thêm. Mặc dù việc sử dụng chức năng nén vẫn rất quan trọng, nhưng bạn cần nhận thức rằng bạn sẽ không nhận được tất cả các lợi ích có thể đạt được với chức năng nén dựa trên giải pháp sao lưu vào thời điểm hiện tại.
Sử dụng cùng lúc ba chiến lược tối ưu hóa dữ liệu để đạt được kết quả tốt nhất
Nếu bạn muốn giảm đáng kể chi phí lưu trữ, tăng tốc khôi phục và sao lưu, triển khai đồng thời cả ba phương pháp tối ưu hóa dữ liệu là lựa chọn tốt nhất. Bí quyết là tìm kiếm một chiến lược mà hoạt động mượt mà với giải pháp sao lưu hiện tại của bạn để xử lý nén dữ liệu, deduplication và quản lý lưu trữ. Tiếp cận này sẽ đảm bảo các nỗ lực sao lưu và khôi phục của bạn được thực hiện một cách hiệu quả và chính xác nhất có thể. Đầu tư vào một chiến lược của bên thứ ba sẽ giúp bạn tránh phải thêm chi phí cho giải pháp sao lưu của mình và nó sẽ nhanh chóng trả lại giá trị, khi bạn theo dõi chi phí lưu trữ giảm đi. Chiến lược đúng sẽ không chỉ giúp tối ưu hóa dữ liệu, mà còn cung cấp sao lưu không thể thay đổi để giúp bảo vệ chống lại ransomware.
Hướng đi để tối ưu hoá dữ liệu
Với sự gia tăng của dữ liệu trong tương lai, việc sao lưu và phục hồi sẽ ngày càng trở nên tốn kém hơn. Tuy nhiên, vì các tổ chức không bao giờ có nguồn kinh phí vô hạn cho lưu trữ đám mây, do đó, IT cần đầu tư vào các phương pháp tối ưu dữ liệu để tăng tốc độ sao lưu và phục hồi đồng thời giảm chi phí lưu trữ và duy trì dữ liệu sao lưu kết quả trên đám mây. Bằng cách tối ưu hóa sao lưu bằng các phương pháp như giảm trùng dữ liệu, nén dữ liệu và lưu trữ phân tầng, bạn sẽ đảm bảo làm mọi thứ có thể để giữ chi phí lưu trữ thấp và tốc độ sao lưu và phục hồi cao.
Phía trên là ba chiến lược giúp tối ưu hóa dữ liệu đến từ hãng bảo mật Quest Sofware, Mi2 tin rằng những chiến lược và cách thức này sẽ giúp cho doanh nghiệp/tổ chức bạn trang bị và sẵn sàng cho việc tối ưu hóa dữ liệu khi back up và phục hồi.
Quest Software (còn được gọi là Quest) là công ty phần mềm có trụ sở tại California, Mỹ với 53 văn phòng tại 24 quốc gia. Được thành lập vào năm 1987, từ đó đến nay, Quest đã trở thành nhà cung cấp giải pháp CNTT toàn cầu cho 130.000 công ty trên 100 quốc gia, bao gồm 95% trong danh sách Fortune 500 và 90% Global 1000. Giải pháp của Quest giúp doanh nghiệp quản lý và bảo vệ dữ liệu của mình, kiểm soát môi trường hybrid, theo dõi tất cả các thiết bị kết nối mạng, tuân thủ và quản trị mọi danh tính trên toàn doanh nghiệp.