

Kiến trúc lưu dữ liệu

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Kiến trúc lưu trữ dữ liệu

Xét trên khía cạnh công nghệ thông tin (CNTT), điều cốt

lõi trong hoạt động của doanh nghiệp là các quá trình lưu

trữ, xử lý và trao đổi dữ liệu. Liên quan đến các quá trình

này là hệ thống lưu trữ – một trong những thành phần quan

trọng nhất của cơ sở hạ tầng CNTT.

Vì thế, các giám đốc CNTT (CIO) luôn tìm mọi cách để

đơn giản hóa hệ thống lưu trữ của công ty nhằm tiết giảm

tối đa chi phí điều hành và xử lý dữ liệu có hiệu quả hơn.

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Khi Marty Garrison đảm nhận chức vụ giám đốc công nghệ

của ChoicePoint Inc. – một công ty chuyên về tích hợp dữ

liệu có trụ sở ở Alpharetta, bang Georgia (Mỹ) – cách nay

ba năm, việc lưu trữ dữ liệu ở đây khá hỗn độn. Công ty

phải quản lý hơn hai triệu gigabyte dữ liệu của 16 tỷ bản

ghi.

Garrison nhớ lại: “Việc lưu trữ lúc bấy giờ gia tăng theo

từng dự án, và nó không được quản lý về mặt chi phí.

Chúng tôi có 8-10 mạng lưu trữ (Storage Area Network –

SAN) hoạt động độc lập với nhau. Vì thế, chúng tôi không

thể chia sẻ không gian lưu trữ giữa các mạng này cũng như

phân cấp dữ liệu.”

Để quản lý một cách thống nhất và giảm số lượng nhân

viên điều hành, Garrison đã thiết lập một kiến trúc lưu trữ

tập trung, kết hợp các SAN hiện hữu thành một SAN duy

nhất. Việc phân cấp dữ liệu cho phép ông sử dụng những ổ

đĩa rẻ tiền hơn cho những dữ liệu không đòi hỏi tốc độ truy

cập cao. Ông cũng chỉ ký hợp đồng với hai nhà cung cấp

thiết bị. Nhờ vậy ông đã giảm được 40 % chi phí lưu trữ ở

cả khâu mua sắm thiết bị lẫn công tác quản lý.

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Các chuyên gia trong ngành cho biết doanh nhgiệp phải

hướng đến một kiến trúc lưu trữ đơn giản để giảm tổng chi

phí sở hữu (Total Cost of Ownership – TCO). Theo

Steward Buchanan, chuyên viên phân tích của hãng nghiên

cứu thị trường Gartner, cho dù chi phí lưu trữ thông tin mới

giảm đến 34 % mỗi năm, chi phí để đáp ứng các yêu cầu về

mức độ dịch vụ và mở rộng khả năng lưu trữ có thể vượt

quá 60 %. Ông nói: “Các doanh nghiệp cần có nhiều quy

định hơn về việc quản lý thiết bị lưu trữ.”

Kiến trúc phân cấp dữ liệu

So với cách nay vài năm thì các CIO hiện có nhiều chọn

lựa hơn về mặt công nghệ lưu trữ. Một trong những công

nghệ phổ biến là dùng đĩa thay cho băng từ để lưu dự

phòng những dữ liệu quan trọng.

Tuy nhiên, theo Buchanan, kiến trúc phân cấp (tiered

architecture) mang lại nhiều lợi ích. Nó không chỉ cho phép

bạn gia tăng mức độ sử dụng các loại thiết bị lưu trữ rẻ tiền

dành cho những dữ liệu ít quan trọng hay ít được truy xuất

mà còn buộc bạn phải hiểu cấp độ dịch vụ của tất cả các dữ

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

liệu, quản lý lưu trữ theo vòng đời dữ liệu (Information

Lifecycle Management – ILM). Nhờ vậy, bạn có thể giảm

chi phí bằng cách xóa hoặc không lưu dự phòng những dữ

liệu không cần thiết. Bạn cũng có thể chuyển những dữ liệu

ít sử dụng sang khu vực lưu trữ ngoại tuyến (offline

storage) để kiểm soát luồng lưu thông của dữ liệu trên

mạng. Ông nói: “Tiering cho phép bạn nhìn thấy được tổng

chi phí sở hữu của mạng lưu

trữ.” Hệ thống lưu trữ là gì?

Hệ thống lưu trữ là tập hợp

tất cả tài nguyên trong một tổ

chức, sử dụng cho mục đích

lưu trữ dữ liệu của hệ thống.

Nó bao gồm:

• Các thiết bị lưu trữ, như

băng từ, đĩa CD, các ổ đĩa

cứng trong các máy chủ và

các tủ đĩa ngoài.

• Các phần mềm quản lý,

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Tiered architecture là sự điều khiển hay cung cấp

phân bổ các loại dữ liệu vào những tính năng phụ trợ như

những thiết bị lưu trữ khác sao chép (copy), sao lưu dự

nhau. Việc phân loại dữ liệu phòng (backup)… cho các

có thể dựa trên mức độ bảo thiết bị lưu trữ.

vệ dữ liệu, các yêu cầu về • Các giao thức và thiết bị hỗ

hiệu suất truy cập, tần suất trợ việc kết nối và trao đổi

sử dụng hoặc các yêu cầu dữ liệu giữa các thiết bị lưu

khác. Số tầng càng cao thì trữ.

thiết bị sử dụng càng đỡ tốn

kém. Vì công việc phân loại có thể phức tạp và đòi hỏi phải

thực hiện liên tục, nhiều nhà cung cấp đã đưa ra những

phần mềm tự động phân loại dựa trên những tiêu chí do

doanh nghiệp đưa ra.

Một trong những kiến trúc thường được sử dụng là kiến

trúc ba tầng (three-tier architecture); trong đó tầng 1 dùng

để lưu trữ những dữ liệu quan trọng, thường được truy cập.

Tầng này sử dụng những thiết bị đắt tiền, có chất lượng và

độ bảo mật cao như hệ thống đĩa dự phòng RAID cấp 6

(Double Parity Redundant Array of Independent Drives).

Tầng 2 dành cho những dữ liệu liên quan đến tài chính, các

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

tập tin đã được phân loại hoặc ít truy cập. Thiết bị cho tầng

này là những loại ổ đĩa rẻ tiền hơn dùng trong mạng SAN.

Tầng 3 dành cho những tập tin chưa được phân loại hay ít

truy cập, lưu trong đĩa CD hoặc băng từ.

Sự ra đời của các công nghệ ổ đĩa mới như ổ đĩa quang (có

tốc độ đọc, viết nhanh), ổ đĩa SCSI, SATA (Serial ATA),

FATA (Fibre Channel ATA)… đã giúp cho việc triển khai

kiểu kiến trúc lưu trữ ba tầng trở nên khả thi hơn.

Theo Nik Simpson, chuyên viên phân tích của Burton

Group, một công ty nghiên cứu và tư vấn về lĩnh vực bảo

mật và mạng ở Midvale, bang Utah (Mỹ), một doanh

nghiệp có thể lưu trữ khoảng 30 % dữ liệu của mình ở tầng

1, phần còn lại ở các tầng 2, 3...

Chuyên viên Buchanan của hãng Gartner nói: “Việc xác

định các yêu cầu về dữ liệu không thuộc về nhiệm vụ của

các nhân viên lưu trữ. Nó thuộc về cấp điều hành doanh

nghiệp.” Các CIO phải thiết lập một nền tảng quản lý tài

sản có hiệu quả, phù hợp với quy mô của công ty.

iSCSI

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Trong những công nghệ mới giúp giảm chi phí lưu trữ,

đáng chú ý nhất là iSCSI (Internet Small Computer System

Interface). Đây là một chuẩn lưu trữ dựa trên địa chỉ IP do

Ủy ban chuyên trách về Internet (Internet Engineering Task

Force – IETF) đưa ra. Nó cho phép kết nối các ổ đĩa với

nhau và với các máy chủ (server) thông qua giao thức

SCSI.

Vì các mạng IP có mặt ở khắp mọi nơi, iSCSI có thể được

dùng để truyền tải dữ liệu trên mạng cục bộ (intranet),

LAN, WAN hay Internet và quản lý việc lưu trữ từ xa. Các

doanh nghiệp có quy mô từ nhỏ đến lớn đều có thể xây

dựng mạng SAN dựa trên công nghệ này. Trước iSCSI,

SAN thường được triển khai với mạng cáp quang (fibre

channel), nhưng mạng cáp quang không thích hợp khi triển

khai ở bên ngoài các doanh nghiệp lớn vì nó phức tạp và có

chi phí quản lý cao.

Theo công ty nghiên cứu thị trường IDC, sự đơn giản và

phù hợp của iSCSI đối với các doanh nghiệp có quy mô lớn

khiến công nghệ này phát triển nhanh. IDC dự báo đến năm

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

2011 sẽ có 25 % hệ thống lưu trữ bên ngoài doanh nghiệp

sử dụng iSCSI.

Ngân hàng cổ phần Associated Bank của Mỹ cách nay hai

năm cũng đã chuyển sang sử dụng iSCSI trong mạng SAN

của họ để có thể lưu trữ tốt hơn các thông tin của khách

hàng, kể cả hình ảnh. Đến nay, dung lượng của mạng này

đã tăng từ 20 ngàn gigabyte lên 300 ngàn gigabyte. Ngân

hàng cũng tiết kiệm được khoảng 30 % chi phí so với mạng

SAN cũ.

Chuẩn bị cho làn sóng mới

Các chuyên gia trong ngành đang đưa ra hai công nghệ

mới: ảo hóa hệ thống lưu trữ (Network Storage

Virtualization) và lưu trữ đơn lẻ (Single-Instance Storage).

Trong Network Storage Virtualization, tất cả các hệ thống

lưu trữ khác nhau về phiên bản, xuất xứ, nguyên lý hoạt

động được hợp nhất ở mức lôgic thành một nguồn lưu trữ

duy nhất. Việc hợp nhất này được gọi là quá trình ảo hóa

lưu trữ, được thực hiện bởi những phần mềm chuyên dụng.

Các phần mềm này có thể được cài đặt hoặc tích hợp trên

các máy chủ hoặc thiết bị lưu trữ. Xu hướng hiện nay là cài

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

đặt chúng vào các bộ chuyển mạch hoặc các máy chủ

chuyên dụng.

Công nghệ này có ưu điểm là đơn giản hóa việc quản lý cơ

sở hạ tầng và góp phần nâng cao hiệu quả sử dụng dữ liệu.

Tuy nhiên, nó cũng còn khá phức tạp cho việc quản lý. Ví

dụ, mỗi hệ điều hành cần phải có một phần mềm điều khiển

riêng biệt và việc lưu trữ chỉ được tối ưu hóa trên từng thiết

bị.

Single-Instance Storage (SIS) là một phương pháp giúp hệ

thống chỉ lưu trữ một bản sao duy nhất của nội dung của

một tập tin mà nhiều người hay nhiều máy tính cùng sử

dụng; nhờ đó tiết kiệm được không gian lưu trữ. Ví dụ,

trong một hệ thống thư điện tử (e-mail) có thể chứa 100 thư

có cùng một tập tin đính kèm có dung lượng 1 MB. Nếu

lưu trữ bình thường thì hệ thống cần phải có 100 MB để lưu

tất cả 100 e-mail đó. Với SIS, chỉ có một tập tin đính kèm

được lưu trữ, và tất cả những e-mail có tập tin đính kèm đó

đều có phần tham chiếu đến tập tin đã lưu. Tuy nhiên, nguy

cơ mất dữ liệu vì chỉ sao lưu có một lần là vấn đề khiến

nhiều người quan tâm.

Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com

Tốc độ tăng trưởng của các loại dữ liệu ở các doanh nghiệp

là rất nhanh, cả về dung lượng (30 %-70 % mỗi năm) lẫn

về mức độ phức tạp. Vì vậy, việc ứng dụng những công

nghệ lưu trữ mới, phù hợp với quy mô hoạt động sẽ mang

lại hiệu quả cao hơn cho hoạt động của các doanh nghiệp.