
Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY”
lượt xem 86
download

Máy vi tính ngày nay đã trở thành một phần tất yếu của cuộc sống. Chúng ta cần máy tính ở khắp mọi nơi, có thể là cho công việc, nghiên cứu hoặc trong bất kỳ lĩnh vực nào. Khi nhu cầu sử dụng máy tính trong cuộc sống hàng ngày của chúng ta tăng lên, các nguồn tài nguyên máy tính cũng cần tăng lên.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY”
- O O O RƢỜN I HỌ ÂY Ô Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” Sinh viên thực hiện: Phạm Hải Đăng Lê Trƣờng Sơn Trần Nguyễn Duy Tùng Trần Thị Hoài Thƣơng iáo viên hƣớng dẫn: Nguyễn Trọng Nghĩa Cần hơ [Type text] 23-04-2013 Page 0
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” MỤC LỤC TÓM TẮT NỘI DUNG VÀ GIỚI THIỆU ĐÊ TÀI ..................................................2 CHƢƠNG I: ĐIỆN TOÁN ĐÁM MÂY ...................................................................3 1. Định nghĩa .....................................................................................................3 2. Các đặc điểm của điện toán đám mây ...........................................................4 2.1 Tự Sửa Chữa ...........................................................................................4 2.2 Nhiều ngƣời sử dụng ...............................................................................4 2.3 Khả năng mở rộng tuyến tính .................................................................4 2.4 Hƣởng dịch vụ.........................................................................................4 2.5 Điều khiển SLA(Service level agreement) .............................................5 2.6 Khả năng ảo hóa ......................................................................................5 2.7 Linh hoạt: ................................................................................................5 3. Ƣu và nhƣợc của mô hình Điện toán đám mây.............................................5 3.1 Ƣu điểm...................................................................................................5 3.2 Nhƣợc điểm .............................................................................................6 4. Sự cần thiết của điện toán đám mây ..............................................................7 CHƢƠNG II: HOẠT ĐỘNG CỦA ĐIỆN TOÁN ĐÁM MÂY ................................9 1. Kiến trúc của ứng dụng điện toán đám mây..................................................9 2. Kiến trúc máy chủ .......................................................................................10 3. Map Reduce .................................................................................................12 4. Hadoop ........................................................................................................19 5. Google file system .......................................................................................20 CHƢƠNG III: XU HƢỚNG CÔNG NGHỆ MỚI TẠI VIỆT NAM ......................23 CHƢƠNG V: TỔNG KẾT - TÀI LIỆU THAM KHẢO .........................................27 1. Kết luận .......................................................................................................27 2. Tài liệu tham khảo .......................................................................................27 GVHD: Nguyễn Trọng Nghĩa 1
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” ÓM ẮT N UN ỚI THIỆU Ê Máy vi tính ngày nay đã trở thành một phần tất yếu của cuộc sống. Chúng ta cần máy tính ở khắp mọi nơi, có thể là cho công việc, nghiên cứu hoặc trong bất kỳ lĩnh vực nào. Khi nhu cầu sử dụng máy tính trong cuộc sống hàng ngày của chúng ta tăng lên, các nguồn tài nguyên máy tính cũng cần tăng lên. Đối với các công ty lớn nhƣ Google và Microsoft, việc khai thác các nguồn tài nguyên nhƣ vậy khi họ cần không phải là một vấn đề lớn. Nhƣng khi nói đến doanh nghiệp nhỏ hơn, các nguồn tài nguyên lớn nhƣ vậy trở thành một yếu tố rất lớn tác động đến kinh doanh. Với những vấn đề lớn về cơ sở hạ tầng CNTT nhƣ máy hỏng, treo ổ cứng, lỗi phần mềm, v.v.. Đó thật sự là những vấn đề rất đau đầu cho các doanh nghiệp. Điện toán đám mây sẽ cung cấp một giải pháp cho tình trạng này. Điện toán đám mây là một cuộc dịch chuyên gia cách mạng trong đó việc tính toán sẽ đƣợc chuyên gia từ máy tính cá nhân hay các máy chủ ứng dụng doanh nghiệp đến một đám mây máy tính. Đám mây là một hình tƣợng để chỉ đến tập các máy chủ ảo hóa có thể cung cấp các nguồn tài nguyên của máy tính khác nhau cho khách hàng của họ. Ngƣời sử dụng của hệ thống này chỉ cần đƣợc quan tâm tới các dịch vụ máy tính đang đƣợc yêu cầu. Cái chi tiết bên dƣới hệ thống của nó nhƣ thế nào thì đƣợc ẩn khỏi ngƣời dùng. Các dữ liệu và các dịch vụ cung cấp nằm trong các trung tâm dữ liệu của đám mây có khả năng mở rộng lớn và có thể đƣợc truy cập ở bất kỳ đâu, từ bất kỳ thiết bị đƣợc kết nối trên thế giới. Điện toán đám mây là một kiểu tính toán mà ở đó các công việc CNTT đƣợc cung cấp nhƣ một dịch vụ trên internet đến nhiều khách hàng bên ngoài và khách hàng đƣợc tính tiền theo sự sử dụng dịch vụ của họ. Nhiều nhà cung cấp điện toán đám mây đã xuất hiện và có một sự tăng trƣởng đáng kể trong việc sử dụng dịch vụ này. Google, Microsoft, Yahoo, IBM và Amazon đã bắt đầu cung cấp dịch vụ điện toán đám mây. Trong đó Amazon là nhà tiên phơng trong lĩnh vực này. Các công ty nhỏ hơn nhƣ SmugMug, một trang web lƣu trữ hình ảnh trực tuyến, có sử dụng dịch vụ điện toán đám mây để lƣu trữ tất cả các dữ liệu và thực hiện một số dịch vụ của mình. Điện toán đám mây đƣợc sử dụng trong các lĩnh vực khác nhau nhƣ web hosting, lập trình song song, dựng hình đồ hoạ, mô hình tài chính(ĨBM Clouds), các phƣơng pháp duyệt và tìm kiếm trên web(web spider), phân tích gen(Amazon Clouds),v.v.. GVHD: Nguyễn Trọng Nghĩa 2
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” HƢƠN : ỆN O N M MÂY 1. ịnh nghĩa Đã có rất nhiều định nghĩa về điện toán đám mây đƣợc đƣa ra nhƣ: Điện toán đám mây (cloud computing ) hay còn gọi là điện toán máy chủ ảo là một mô hình điện toán có khả năng co giãn (scalable) linh động và các tài nguyên thường được ảo hóa được cung cấp như một dịch vụ trên mạng Internet. Theo Foster (2008): Một mô hình điện toán phân tán có tính co giãn lớn mà hƣớng theo co giãn về mặt kinh tế, là nơi chứa các sức mạnh tính toán, kho lƣu trữ, các nền tảng (platform) và các dịch vụ đƣợc trực quan, ảo hóa và co giãn linh động, sẽ đƣợc phân phối theo nhu cầu cho các khách hàng bên ngoài thông qua Internet. Điện toán đám mây là một dạng thức điện toán cung cấp các tài nguyên ảo hóa và có quy mô dƣới dạng dịch vụ qua mạng Internet. Ngƣời dùng không cần tới những kiến thức chuyên gia môn để quản lý hạ tầng công nghệ này bởi phần việc đó là dành cho các nhà cung cấp dịch vụ. Theo Synmatec: Điện toán đám mây là một mạng kết nối của các tài nguyên máy tính sẵn có đƣợc cấp phát động theo cơ chế ảo hóa và có khả năng co dãn , tạo điều kiện cho ngƣời dùng có thể sử dụng dịch vụ theo nhu cầu dùng đến đâu trả tiền đến đó. Nói một cách đơn giản nhất “ứng dụng điện toán đám mây” chính là: Một mô hình điện toán mới. Các tài nguyên về hạ tầng (phần cứng, thiết bị lƣu trữ, phần mềm hệ thống) và các ứng dụng đƣợc cung cấp theo mô hình X-as-a Services dựa theo mô hình trả tiền theo mức độ sử dụng. GVHD: Nguyễn Trọng Nghĩa 3
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” Đặc tính quan trọng của Cloud là ảo hóa và co giãn linh động tùy theo nhu cầu. Các dịch vụ của Cloud có thể sử dụng thông qua các giao diện web hay qua các API đƣợc định nghĩa trƣớc. 2. ác đặc điểm của điện toán đám mây 2.1 Tự Sửa Chữa Bất kỳ ứng dụng hoặc dịch vụ nào đang chạy trong một môi trƣờng điện toán đám mây có một tính chất tự sửa chữa. Trong trƣờng hợp ứng dụng thất bại, luôn luôn có một dự phòng tức thời của ứng dụng sẵn sàng để cho công việc không bị gián đoạn. Có nhiều bản sao của cùng một ứng dụng vì vậy ở những lần thất bại, có ít nhất một bản sao của ứng dụng có thể lấy lên hoạt động mà thậm chí không cần thay đối nhỏ nào trong trạng thái chạy của nó. 2.2 Nhiều ngƣời sử dụng Với điện toán đám mây, bất kỳ ứng dụng nào cũng hỗ trợ đa ngƣời dùng. Đó là khái niệm dùng để chỉ nhiều ngƣời sử dụng đám mây trong cùng thời gian. Hệ thống cho phép một số khách hàng chia sẻ cơ sở hạ tầng đƣợc phân bố cho họ mà không ai trong họ nhận biết về sự chia sẻ này. Điều này đƣợc thực hiện bởi việc ảo hóa các máy chủ trong một dải các máy tính và sau đó cấp phát các máy chủ đến nhiều ngƣời sử dụng. Điều này đƣợc thực hiện theo cách mà trong đó sự riêng tƣ của ngƣời sử dụng và bảo mật của dữ liệu của họ không bị tổn hại. 2.3 Khả năng mở rộng tuyến tính Dịch vụ điện toán đám mây có khả năng mở rộng tuyến tính. Hệ thống có khả năng phân chia các luồng công việc thành phần nhỏ và phục vụ nó qua cơ sở hạ tầng. Một ý tƣởng chính xác của khả năng mở rộng tuyến tính có thể đƣợc lấy từ thực tế là nếu một máy chủ có thể xử lý 1000 giao dịch trong một giây, thì hai máy chủ có thể xử lý 2.000 giao dịch trong một giây. 2.4 Hƣởng dịch vụ Hệ thống Điện toán đám mây là tất cả các dịch vụ theo định hƣớng. Những dịch vụ nhƣ vậy đƣợc tạo ra từ những dịch vụ rời rạc khác. Rất nhiều dịch vụ rời rạc nhƣ vậy là sự kết hợp của nhiều dịch vụ độc lập khác với nhau để tạo dịch vụ này. Điều này cho phép việc tái sử dụng các dịch vụ khác nhau sẵn có và đang GVHD: Nguyễn Trọng Nghĩa 4
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” đƣợc tạo ra. Bằng việc sử dụng các dịch vụ đã đƣợc tạo ra trƣớc đó, những dịch vụ khác có thế đƣợc tạo ra từ đó. 2.5 iều khiển SLA(Service level agreement) Thông thƣờng các doanh nghiệp có thỏa thuận về số lƣợng dịch vụ. Khả năng mở rộng và các vấn đề có sẵn có thể làm cho các thỏa thuận này bị phá vỡ. Tuy nhiên, các dịch vụ điện toán đám mây là hƣớng SLA, nhƣ việc khi hệ thống có kinh nghiệm đạt đỉnh của tải, nó sẽ tự động điều chỉnh chính nó để tuẩn thủ các thỏa thuận ở cấp độ dịch vụ. Các dịch vụ sẽ tạo ra thêm những thực thể của ứng dụng trên nhiều server để cho việc tải có thể dễ dàng quản lý. 2.6 Khả năng ảo hóa Các ứng dụng trong điện toán đám mây hoàn toàn tách rời khỏi phần cứng nằm bên dƣới. Môi trƣờng điện toán đám mây là một môi trƣờng ảo hóa đầy đủ. 2.7 Linh hoạt: Một tính năng khác của các dịch vụ điện toán đám mây là chúng linh hoạt. Chúng có thể đƣợc dùng để phục vụ rất nhiều loại công việc có khối lƣợng khác nhau từ tải nhỏ của một ứng dụng nhỏ cho đến tải rất nặng của một ứng dụng thƣơng mại. 3. Ƣu và nhƣợc của mô hình iện toán đám mây 3.1 Ƣu điểm Những ƣu điểm và thế mạnh dƣới đây đã góp phần giúp "Điện toán đám mây" trở thành mô hình điện toán đƣợc áp dụng rộng rãi trên toàn thế giới. c độ ử : Tốc độ xử lý nhanh, cung cấp cho ngƣời dùng những dịch vụ nhanh chóng và giá thành rẻ dựa trên nền tảng cơ sở hạ tầng tập trung (đám mây). hi phí: Chi phí đầu tƣ ban đầu về cơ sở hạ tầng, máy móc và nguồn nhân lựa của ngƣời sử dụng điện toán đám mây đƣợc giảm đến mức thấp nhất. hông c n phụ thuộc vào thiết ị và vị trí địa : Cho phép ngƣời dùng truy cập và sử dụng hệ thống thông qua trình duyệt web ở bất kỳ đâu và trên bất kỳ thiết bị nào mà họ sử dụng (ch ng hạn là PC hoặc là điện thoại di động ) hia s tài nguyên: Chia sẻ tài nguyên và chi phí trên một địa bàn rộng lớn, mang lại các loại ích cho ngƣời dùng nhƣ: GVHD: Nguyễn Trọng Nghĩa 5
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” - Tập trung cơ sở hạ tầng tại một vị trí giúp ngƣời dùng không tốn nhiều giá thành đầu tƣ về trang thiết bị. - Công suất xử lý nhanh hơn do tài nguyên đƣợc tập trung. Ngoài ra, ngƣời dùng không cần phải đầu tƣ về nguồn nhân lực quản lý hệ thống. - Khả năng khai thác và hiệu suất đƣợc cài thiện hơn 10-20 so với hệ thống máy tính cá nhân thông thƣờng. ới độ tin c y cao: Không chỉ giành cho ngƣời dùng phổ thông, điện toán đám mây phù hợp với các yêu cầu cao và liên tục của các công ty kinh doanh và các nghiên cứu khoa học. Tuy nhiên, một vài dịch vụ lớn của điện toán đám mây đôi khi rơi vào trạng thái quá tải, khiến hoạt động bị ngƣng trệ. Khi rơi vào trạng thái này, ngƣời dùng không có khả năng để xử lý các sự cố mà phải nhờ vào các chuyên gia gia từ đám mây tiến hành xử lý. hả năng mở rộng: Giúp cải thiện chất lƣợng các dịch vụ đƣợc cung cấp trên đám mây . hả năng ảo m t: Khả năng bảo mật đƣợc cải thiện do sự tập trung về dữ liệu. ễ àng để sửa: Các ứng dụng của điện toán đám mây dễ dàng để sửa chữa hơn bởi lẽ chúng không đƣợc cìa đặt cố định trên một má tính nào. Chúng cũng dễ dàng hỗ trợ và cài thiện về tính năng. Quản tài nguyên: Tài nguyên sử dụng của điện toán đám mây luôn đƣợc quản lý và thống kểtrên từng khách hàng và ứng dụng, theo từng ngày, từng tuần, từng tháng. Điều này đảm bảo cho việc định lƣợng giá cả của mỗi dịch vụ do điện toán đám mây cung cấp để ngƣời dùng có thể lựa chọn phù hợp. 3.2 Nhƣợc điểm Tuy nhiên, mô hình điện toán này vẫn còn mắc phải một số nhƣợc điểm sau: ính riêng tƣ: Các thông tin ngƣời dùng và dữ liệu đƣợc chứa trên điện toán đám mây có đảm bảo đƣợc riêng tƣ, và liệu các thông tin đó có bị sử dụng vì một mục đích nào khác ính s n ng: Liệu các dịch vụ đám mây có bị treo bất ngờ, khiến cho ngƣời dùng không thể truy cập các dịch vụ và dữ liệu của mình trong những khoảng thời gian nào đó khiến ảnh hƣởng đến công việc GVHD: Nguyễn Trọng Nghĩa 6
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” M t ữ iệu: Một vài dịch vụ lƣu trữ dữ liệu trực tuyến trên đám mây bất ngờ ngừng hoạt động hoặc không tiếp tục cung cấp dịch vụ, khiến cho ngƣời dùng phải sao lƣu dữ liệu của họ từ đám mây về máy tính cá nhân. Điều này sẽ mất nhiều thời gian. Thậm chí một vài trƣờng hợp, vì một lý do nào đó, dữ liệu ngƣời dùng bị mất và không thể phục hồi đƣợc. ính i động của ữ iệu và quyền sở hữu: Một câu hỏi đặt ra, liệu ngƣời dùng có thể chia sẻ dữ liệu từ dịch vụ đám mây này sang dịch vụ của đám mây khác Hoặc trong trƣờng hợp không muốn tiếp tục sử dụng dịch vụ cung cấp từ đám mây, liệu ngƣời dùng có thể sao lƣu toàn bộ dữ liệu của họ từ đám mây Và làm cách nào để ngƣời dùng có thể chắc chắn rằng các dịch vụ đám mây sẽ không hủy toàn bộ dữ liệu của họ trong trƣờng hợp dịch vụ ngừng hoạt động. hả năng ảo m t: Vấn đề tập trung dữ liệu trên các đám mây là cách thức hiệu quả để tăng cƣờng bảo mật, nhƣng mặt khác cũng lại chính là mối lo của ngƣời sử dụng dịch vụ của điện toán đám mây. Bởi lẽ một khi các đám mây bị tấn công hoặc đột nhập, toàn bộ dữ liệu sẽ bị chiếm dụng. Tuy nhiên, đây không thực sự là vấn đề của riêng điện toán đám mây , bởi lẽ tấn công đánh cắp dữ liệu là vấn đề gặp phải trên bất kỳ môi trƣờng nào, ngay cả trên các máy tính cá nhân. 4. Sự cần thiết của điện toán đám mây Một câu hỏi đƣợc đặt ra là làm cách nào để có thể tăng năng lực tính toán và lƣu trữ dữ liệu lên hàng nghìn lần so với chỉ dùng phần cứng tại chỗ Câu hỏi đã từng làm đau đầu các nhà phát triên hệ thống, và với sự ra đời của mạng internet vấn đề đã đƣợc giải quyết bởi sự xuất hiện của dịch vụ điện toán đám mây. Điện toán đám mây là một dịch vụ tính toán và lƣu trữ do nhà cung cấp dịch vụ cung cấp cho khách hàng, vì vậy năng lực tính toán và lƣu trữ dữ liệu có khả năng tăng lên hàng nghìn lần so với việc chỉ dùng hệ thống tính toán truyền thống của khách hàng, và điều này phụ thuộc vào năng lực của nhà cung cấp dịch vụ chứ không phụ thuộc vào hệ thống tại chỗ của khách hàng, mà thƣờng là các máy của các nhà cung cấp dịch vụ thƣờng là nhũng máy có năng lực tính toán rất lớn để có thể cung cấp cho nhiều ngƣời. So với các hệ thống máy tính truyền thống thì điện toán đám mây có nhiều ƣu điểm vƣợt trội hơn. Ƣu điểm đầu tiên là về tài nguyên hệ thống, giả sử với một công ty khi trang bị hệ thống tính toán truyền thống cần phải xây dựng một hệ thống mạnh đủ để phục vụ công việc cho một công ty. Điều đó đồng nghĩa với việc GVHD: Nguyễn Trọng Nghĩa 7
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” chi phí lắp đặt hệ thống ban đầu tốn kém, và đối với hệ thống của công ty cần phải có ngƣời quản trị hệ thống tốn thêm tài nguyên và nhân lực, và chi phí cho năng lƣợng tiêu thụ của hệ thống cũng rất cao. Thêm vào đó là sự lãng phí tài nguyên khi mà hệ thống không đƣợc sử dụng hết công suất của nó. Điều đó cho thấy rằng đầu tƣ vào một hệ thống máy tính theo kiểu truyền thống thì có thể là tốn kém và lãng phí. Và nếu công ty sử dụng điện toán đám mây thì khi đó không phải tốn một ngƣời quản trị, năng lƣợng tiêu thụ cho hệ thống cũng không còn là vấn đề, đặc biệt là tài nguyên không sử dụng sẽ không bị lãng phí vì khi đó công ty chỉ trả tiền cho phần tài nguyên mà họ sử dụng, phần tài nguyên còn lại sẽ đƣợc ngƣời cung cấp dịch vụ cung cấp cho một công ty khác. Một ƣu điểm nữa của điện toán đám mây là khả năng truy cập và sử dụng tài nguyên ở mọi lúc mọi nơi khi mà ta có một máy tính bình thƣờng đƣợc nối mạng internet, khi đó ta có thể thực hiện một phép tính khổng lồ hoặc có thể sử dụng một khối lƣợng dữ liệu lớn chỉ với một máy tính đơn giản. Vấn đề về bản quyền phần mềm cũng là một vấn đề hết sức nan giãi đối với các công ty khi mà các phần mềm đó có giá quá cao. Với điện toán đám mây thì chỉ cần nhà cung cấp dịch vụ bỏ tiền ra mua bản quyền thì tất cả các khách hàng của họ đều có thể sử dụng nó nhƣ một phần mềm có bản quyền thật sự mà không phải bỏ ra một số tiền lớn để mua bán quyền mà họ chi phải trả tiền cho những gì họ dùng. GVHD: Nguyễn Trọng Nghĩa 8
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” HƢƠN : HO NG CỦA ỆN O N M MÂY 1. Kiến trúc của ứng dụng điện toán đám mây Chúng ta biết rằng điện toán đám mây là một tổ hợp tính toán dựa trên các thiết bị hạ tầng phần cứng trong một đám mây của nhà cung cấp dịch vụ. Hạ tầng phần cứng bao gồm các sản phẩm máy chủ chứa dữ liệu nhỏ đƣợc kết nối lại với nhau nhƣ một hệ thống phục vụ cho việc lƣu trữ và xử lý dữ liệu và các ứng dụng tính toán trên các tài nguyên khác. Điện toán đám mây gọi một ứng dụng chạy trên máy chủ ảo nhƣ là nó đang chạy tại chỗ trên hạ tầng phần cứng phân tán trong đám mây. Những máy chủ ảo đƣợc tạo ra theo những cách mà ở đó những thỏa thuận dịch vụ (SLA) khác nhau và sự tin cậy đều đƣợc đảm bảo. Có thể có nhiều thực thể khác nhau của cùng một máy chủ ảo truy cập vào những phần sẵn sàng của cơ sở hạ tầng phần cứng. Điều này đảm bảo rằng có nhiều bản sao của các ứng dụng, để khi xảy ra lỗi chúng sẵn sàng khắc phục. Máy chủ ảo phân tán quá trình xử lý vào cơ sở hạ tầng phần cứng và sau khi quá trình tính toán đƣợc hoàn thành chúng sẽ trả về kết quả. Quá trình này cần có một phần mềm hoặc hệ điều hành xử lý công việc quản lý hệ thống phân tán, giống nhƣ kỹ thuật tính toán, giúp quản lý các yêu cầu khác nhau đến máy chủ ảo. Cơ chế này sẽ đảm bảo việc tạo ra nhiều bản sao và cả việc bảo vệ sự thống nhất dữ liệu đƣợc lƣu trên cơ sở hạ tầng. Đồng thời hệ điều hành đó cũng có thể tự điều chỉnh nhƣ là khi gặp quá tải các tiến trình, phân chia xử lý để hoàn thành đáp ứng yêu cầu. Hệ thống quản lý công việc nhƣ vậy đƣợc che dấu với ngƣời dùng, hay nói các khác là ẩn với ngƣời dùng. Sự độc lập với ngƣời dùng thể hiện ở chỗ nó xử lý và trả về kết quả đạt đƣợc, chứ không cần phải quan trọng nó ở đâu và nó thực hiện điều đó bằng cách nào. Ngƣời dùng trả tiền trên lƣu lƣợng sử dụng hệ thống, nhƣ đã nói dịch vụ đƣợc tính bằng chu kỳ của CPU hoặc byte. Thực tế số GVHD: Nguyễn Trọng Nghĩa 9
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” tiền mà khách hàng phải trả thƣờng đƣợc tính dựa vào lƣu lƣợng dùng CPU trên một giờ hoặc số Gb dữ liệu di chuyên gia trong một giờ. 2. Kiến trúc máy chủ Điện toán đám mây đƣợc tạo thành bằng cách sử dụng tài nguyên vật lý lớn từ nhiều máy chủ trong đám mây của nhà cung cấp dịch vụ. Đây là một ứng dụng của nguyên tắc kết hợp vào trong bài toán cần một hệ thống tính toán lớn mà thiết bị hoặc cơ sở vật chất không cho phép nên chúng ta cần phải ghép những thiết bị, những hệ thống nhỏ lại với nhau để trở thành một hệ thống lớn đáp ứng những nhu cầu lớn hơn cho ngƣời sử dụng trong những hệ thống yêu cầu tính toán và lƣu trữ lớn. Nhƣ đã nói bên trên, dịch vụ và ứng dụng của điện toán đám mây dựa trên máy chủ ảo đƣợc thiết kế từ tài nguyên góp lại này. Có hai ứng dụng (hoặc hệ điều hành) sẽ giúp quản lý các thể hiện trên máy trong đám mây, cũng nhƣ quản lý tất cả các tài nguyên của các thể hiện máy chủ ảo. Đây là một ứng dụng nguyên lý tách khỏi vào trong hệ thống GVHD: Nguyễn Trọng Nghĩa 10
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” điện toán đám mây nhằm tách biệt phần cứng phức tạp của hệ thống vói giao diện bên ngoài. Nhằm tạo ra một giao diện ngƣời dùng đơn giản, dễ sử dụng hơn so với phần cứng phức tạp bên dƣới và cũng là để tách biệt giao diện ngƣời dùng với hệ thống phần cứng, khi đó ngƣời dùng chỉ cần quan tâm đến những ứng dụng mà học cần chứ không cần quan tâm đến phần cứng bên dƣới đƣợc thực hiện nhƣ thế nào. Ứng dụng thứ nhất là Xen hypervisor cung cấp các lớp trừu tƣợng giữa phần cứng và hệ điều hành ảo, nhờ vậy sự phân tán của các tài nguyên và tiến trình đƣợc quản lý giống nhƣ là đang thực hiện trên một máy. ứng dụng thứ hai cũng đƣợc sử dụng rộng rãi là hệ thống quản lý máy chủ ảo Enomalism, nó đƣợc sử dụng để quản lý hạ tầng phần cứng nền tảng. Khi Xen sử dụng cho các lớp ảo của các cơ sở hạ tầng máy chủ, một lớp phần mềm là Xen hypervisor đã đƣợc cài đặt giữa máy chủ và hệ điều hành. Nó cung cấp một lớp trừu tƣợng cho phép mỗi server vật lý có thể đƣợc chạy nhƣ là một hoặc nhiều máy chủ ảo, tách riêng hệ điều hành và các ứng dụng của nó khỏi lớp phần cứng vật lý bên dƣới. Xen hypervisor là một công nghệ mã nguồn mở, đƣợc cộng tác phát triên bởi Xen và các kỹ sƣ của hơn 20 công ty nổi tiếng về trung tâm dữ liệu có tính chất đối mới bao gồm : AMD, Cisco, Dell, HP, IBM, Intel, Mellanox, Network Appliance, Novell, Red Hat, SGI, Sun, Unisys, Veritas, Voltaire, and Citrix. Xen đƣợc đăng ký bởi GNU General Public License (GPL2) và đƣợc sử dụng không đƣợc thay đối về mã nguồn và định dạng đối tƣợng. Xen Hypervisor cũng đặc biệt ngắn - ít hơn 50.000 dòng mã. Vì vậy chi phí dịch mã code rất thấp và hiệu suất gần giống nhƣ trên máy nguyên thủy. Xen tái sử dụng các trình điều khiển thiết bị hiện có (đối với cả hai loại là mở và đóng mã nguồn) từ Linux, làm cho thiết bị quản lý dễ dàng. Hơn nữa Xen rất mạnh mẽ để điều khiển lỗi và bảo vệ cả ngƣời dùng và hypervisor khỏi các vấn đề với các lỗi từ các driver độc hại. GVHD: Nguyễn Trọng Nghĩa 11
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” Hệ thống quản lý máy chủ ảo Enomalism là một nền tảng hạ tầng cơ sở máy chủ ảo hoàn chỉnh. Enomalism quản lý ảnh hƣớng giữa các tài nguyên trong hệ thống. Enomalism có thể sử dụng để dẫn các luồng tính toán vào đám mây giống nhƣ là luồng từ khách hàng đƣợc đi vào thực hiện tính toán trên một máy chủ từ xa. Nó mang tất cả những tính năng nhƣ: triển khai kế hoạch tính toán, cân bằng tải, tránh xung đột tài nguyên... Enomalism cũng là một ứng dụng mã nguồn mở, nó có một giao diện ngƣời dùng dựa trên nền web rất đơn giản và dễ sử dụng. Nó có kiến trúc tìmg phần dễ dàng cho phép tạo và thêm vào hệ thống các bổ sung và các tiện ích cần thiết cho việc sử dụng. Nó hỗ trợ triển khai tổ chức phân tán và tạo các ứng dụng dựa trên tổng quang chung. Nó hỗ trợ quản lý các trƣờng ảo khác nhau gồm KVM/Qemu, Amazon EC2 and Xen, OpenVZ, Linux Containers, VirtualBox. Nó có chế độ phân quyền ngƣời dùng và đặt quyền truy cập. 3. Map Reduce Map Reduce là một mô hình lập trình, đƣợc Google phát triên vào năm 2003, để hỗ trợ cho quá trình tính toán song song trên số lƣợng tập các dữ liệu cực lớn (vài tỷ byte) lƣu trữ ở các cụm máy tính thành phần trong đám mây điện toán. Trong mô hình này, ngƣời dùng định nghĩa một hàm map đế tính toán một cặp khóa/giá trị đầu vào và tạo nên một tập các cặp khóa/giá trị tạm thời, sau đó hàm reduce sẽ gom nhóm tất cả những giá trị tạm thời nào có chung khóa lại với nhau cho ra kết quả mong muốn. Rất nhiều các tác vụ trong đời sống thực có thể đƣợc thực thi bằng mô hình này,chúng ta sẽ xem xét cụ thể hơn ở phần sau. Chƣơng trình đƣợc viết theo kiểu chức năng này đƣợc song song hóa một cách tự động và đƣợc thực thi trên một cụm lớn các máy tính hàng hóa (các máy tính thành phần cấu tạo nên đám mây điện toán). Hệ thống khi chạy sẽ quan tâm GVHD: Nguyễn Trọng Nghĩa 12
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” chi tiết phân vùng của dữ liệu đầu vào, lập lịch quá trình thực thi chƣơng trình thông qua một tập các máy tính thành phần, xử lý lỗi và quản lý các kết nối nội giừa các máy tính thành phần. Điều này cho phép các lập trình viên ngay cả chƣa có bất kỳ kinh nghiệm nào trong các hệ thống song song và phân tán đều có thế dễ dàng tối ƣu hóa các tài nguyên của một hệ thống phân tán lớn. Trong vòng vài năm trƣớc đây, các kỹ sƣ của Google phải khởi tạo hàng trăm các quá trình tính toán dành cho các mục đích đặc biệt trên số lƣợng lớn các dữ liệu thô nhƣ các dữ liệu móc nối, nhật ký các trang web yêu cầu...Các quá trình tính toán này dùng cho nhiều mục đích khác nhau nhƣ tóm tắt số lƣợng các trang đã đƣợc móc nối bởi tùng host, tính tần số truy xuất của 1 trang web, tìm ra tập các câu truy vấn đƣợc dùng nhiều nhất trong ngày...Hầu hết các tính toán này đều không phức tạp,nhƣng dữ liệu đầu vào thƣờng rất lớn và quá trình tính toán cần phải đƣợc phân tán cho hàng trăm ngàn máy nhằm có thể thực thi trong khoảng thời gian cho phép. Các vấn đề về việc song song hóa tính toán,phân tán dữ liệu và quản lý lỗi đã làm cho các quá trình tính toán vốn đon giản này trở nên vô cùng phức tạp. Để giải quyết vấn đề, các kỹ sƣ của Google đã thiết kế một mô hình trừu tƣợng cho phép chúng ta diễn tả quá trình tính toán này một cách đơn giản nhƣ vốn dĩ của nó, đồng thời che dấu đi các chi tiết phức tạp trong việc song song hóa, chấp nhận lỗi, cân bằng nạp, phân tán dữ liệu trong một thƣ viện riêng. Sự trừu tƣợng hóa này đƣợc lấy ý tƣởng từ 2 thành phần cơ bản là map và reduce trong Lisp và nhiều loại ngôn ngữ lập trình hàm khác. Chúng ta có thể nhận thấy rằng trong hầu hết các quá trình tính toán của chúng ta đều bao gồm một thao tác map, ánh xạ các đầu vào với các giá trị của bản ghi để thực hiện việc tính toán các giá trị đó thành 1 tập các cặp khóa/giá trị tạm thời, sau đó ta lại tạo thêm một thao tác reduce, thu gọn các giá trị mà có cùng key lại với nhau và cho ra kết quả.Việc sử dụng mô hình hàm chức năng map và reduce cho phép chúng ta có thể thực thi song song các tính toán lớn dễ dàng và có thể sử dụng quá trình thực thi lại nhƣ một cơ chế chấp nhận lỗi. Các thế mạnh chính của phƣơng pháp này là cung cấp cho chúng ta một giao diện đơn giản và mạnh mẽ, cho phép song song hóa và phân tán dữ liệu trong các phép toán lớn một cách tự động, giúp cho ta thu đƣợc hiệu năng cao nhất trong số lƣợng lớn các cụm máy tính thành phần của đám mây điện toán. Ở phần sau chúng GVHD: Nguyễn Trọng Nghĩa 13
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” ta sẽ lần lƣợt xem xét mô hình lập trình cơ bản của MapReduce và một vài ví dụ đơn giản Mô hình lập trình. Quá trình tính toán nhận một cặp giá trị đầu vào gồm khóa/giá trị, và tính toán cho ra một tập các cặp khóa/giá trị đầu ra. Ngƣời dùng sử dụng thƣ viện MapReduce để diễn tả quá trình này thông qua hai hàm là Map và Reduce. Map là hàm đƣợc định nghĩa bởi ngƣời dùng, nhận một cặp giá trị đầu vào và tạo ra các cặp giá trị trung gian.Thƣ viện MapReduce nhóm tất cả các giá trị trung gian có liên quan tới key I lại với nhau và chuyền nó cho hàm Reduce. Hàm Reduce cũng đƣợc viết bởi ngƣời dùng, chấp nhận key I và các tập giá trị trung gian của key I này. Sau đó tiến hành hợp nhất các giá trị này thành một tập các giá trị nhỏ hơn nếu có thể. Một lần nữa nguyên tắc kết hợp lại đƣợc sử dụng trong hệ thống điện toán đám mây nhằm phục vụ cho thuật toán giải quyết yêu cầu bài toán, sau khi chia nhỏ các chƣơng trình lớn thành các phần nhỏ để thực hiện tính toán một cách song song nhằm làm giảm thời gian thực hiện một bài toán thì hệ thống tiến hành kết hợp các kết quả tính toán từ các tiến trình nhỏ song song lại với nhau để đƣa ra một kết quả tính toán thống nhất của chƣơng trình tính toán mà ngƣời dùng yêu cầu. Thông thƣờng chỉ có một giá trị output đƣợc đƣa ra từ hàm Reduce hoặc không có giá trị nào cả. Hàm map thêm vào mỗi từ một số tƣơng ứng với số lần xuất hiện của nó (trong ví dụ đơn giản trên là ‘ 1 ’). Hàm reduce làm nhiệm vụ cộng tất cả các số đếm của từ đó. Sau đó, ngƣời dùng cần phải thực hiện thêm các thủ tục khai báo đặc tả đối tƣợng mapreduce với tên của các file input, output và các biến tùy chỉnh. Ngƣời dùng sau đó gọi hàm MapReduce, chuyền cho nó đối tƣợng đã đặc tả ở trên, lúc này các đoạn code của ngƣời dùng đƣợc liên kết lại thông qua thƣ viện MapReduce. Tổng quan quá trình thực thi: Quá trình gọi thực thi hàm Map đƣợc phân tán trong nhiều các máy thành viên của đám mây điện toán bằng cách tự động phân vùng các giá trị đầu vào thành một bộ gồm M phần. Các phần này có thể đƣợc tính toán song song bởi các máy khác nhau. Tƣơng tự hàm Reduce cùng đƣợc phân tán bằng cách phân vùng các khóa giá trị trung gian thành R mảnh bằng các hàm phân vùng (ví dụ nhƣ hash(key) mod R). số lƣợng R và hàm phân vùng có thể đƣợc chỉ rõ bởi ngƣời dùng. GVHD: Nguyễn Trọng Nghĩa 14
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” Hình trên cho chúng ta cái nhìn tổng quát nhất về luồng thực thi một thao tác Map Reduce. Khi ngƣời dùng gọi hàm MapReduce thì các tác vụ sau đây sẽ đƣợc diễn ra một cách tuần tự. Thƣ viện MapReduce trong chƣơng trình ngƣời dùng đầu tiên sẽ chia nhỏ các file đầu vào thành M mảnh (thông thƣờng kích thƣớc mỗi mảnh từ 16-64MB, có thể điều chỉnh thông qua các tham số tùy chọn). Ở đây, hệ thống điện toán đám mây đã đƣa nguyên tăc chia nhỏ vào để thực hiện quá trình tính toán của mình. Với một chƣơng trình lớn mà tính toán một lần sẽ tốn rất nhiều thời gian và không hiệu quả, để tiếc kiệm thời gian thực thi chƣơng trình, hệ thống tiến hành chia chƣơng trình lớn thành các tiến trình nhó để thực hiện tính toán trên các vi xử lý (hệ thống phần cứng song song tạo nên hệ thống điện toán đám mây) để tiến hành tính toán chƣơng trình song song đề cuối cùng gộp lại một kết quả. Tiếp theo, nó sẽ tạo nhiều bản sao của chƣơng trình trên cụm máy tính trong đám mây điện toán. Nguyên tắc sao chép cũng đƣợc đƣa vào ứng dụng trong hệ thống điện toán đám mây, trên mỗi cụm máy tính trong đám mây điện toán thực hiện một tiến trình mà chƣơng trình giao phó, tiến trình này sẽ đƣợc tạo ra nhiều bản sao để cho các máy tính trong cụm máy tính thực hiện. GVHD: Nguyễn Trọng Nghĩa 15
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” Một trong số các bản sao của chƣơng trình sẽ là chƣơng trình master. Các chƣơng trình còn lại sẽ là worker, là chƣơng trình sẽ thực thi các tác vụ do master giao phó. Có tất cả là M tác vụ Map và R tác vụ Reduce cần đƣợc thực thi. Chƣơng trình master chọn các worker rãnh rỗi để gán cho tác vụ Map hoặc Reduce. Worker đƣợc gán thực thi tác vụ Map đọc nội dung của mảnh giá trị đầu vào tƣơng ứng, nó phân tích giá trị đầu vào thành các cặp khóa/giá trị và chuyền chúng đến cho hàm Map ngƣời dùng tự định nghĩa. Các cặp giá trị key/value trung gian (kết quả của hàm Map) sê đƣợc lƣu vào bộ nhớ đệm. Sau đó, các cặp giá trị trong vùng nhớ đệm này sẽ đƣợc ghi xuống vùng nhớ địa phƣơng, và đƣợc phân thành R vùng. Vị trí của các cặp khóa/giá trị này (trên bộ nhớ địa phƣơng) sẽ đƣợc chuyên gia vê cho master. Chƣơng trình master sau đó sẽ chuyên gia vị trí của chúng cho các worker đƣợc gán tác vụ Reduce. Khi một worker thực thi tác vụ Reduce nhận đƣợc các vị trí của các vùng nhớ từ master, nó dùng các lời gọi thủ tục từ xa (RPC- Remote Procedure Call) để đọc các giá trị này. Sau khi worker đọc xong tất cả các cặp giá trị trung gian này, nó sẽ sắp xếp lại chúng theo khóa bằng cách gom nhóm các cặp có cùng khóa lại với nhau. Nếu số lƣợng các file trung gian này quá lớn so với bộ nhớ thì chúng ta sẽ phải cần có một hàm sắp xếp ngoài Sau đó các worker thực thi tác vụ Reduce chuyên gia khóa và tập các dữ liệu tƣơng ứng đến hàm Reduce do ngƣời dùng định nghĩa, kết quả output thu đƣợc là kết quả cuối cùng. Sau khi tất cả các tác vụ Map và Reduce đều hoàn tất, chƣơng trình master gọi đến chƣơng trình user program, trả về đoạn code tiếp theo trong chƣơng trình. Ch p nh n lỗi: Thƣ viện MapReduce đƣợc thiết kế đế giúp tính toán trên các lƣợng dữ liệu vô cùng lớn của hàng trăm hàng ngàn máy, do đó chúng cần phải có cơ chế chấp nhận lỗi. Đây là sự áp dụng của nguyên tắc tự phục vụ vào hệ thống điện toán đám mây, đám mây điện toán có khả năng tự phục hỗi lại hoạt động của hệ thống khi xảy ra một số lỗi nào đó trong các quá trình thực thi của tùng phần nhỏ trong hệ thống tính toán. Lỗi xảy ra ở Worker: Để kiểm tra lỗi ở worker,chƣơng trình master tiến hành ping các máy worker sau mỗi một khoảng thời gian nhất định, nếu một GVHD: Nguyễn Trọng Nghĩa 16
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” worker nào không trả lời thì Master sẽ xem nhƣ nó đang xảy ra lỗi, các tác vụ map hay reduce đang thực thi ở worker lỗi sẽ tiến hành reset lại và gán cho worker khác. Ở đây có áp dụng nguyên tắc linh động để khắc phục lỗi hệ thống, chƣơng trình đƣợc chia nhỏ thành các tiểu trình nên các tiểu trình giống nhau có thể linh động thực thi tại các phần cứng vi xử lý khác nhau và khi một tiểu trình bị lỗi thì tiểu trình khác có thể thay thế để thực hiện nhiệm vụ của hệ thống giao phó. Đối với tác vụ map đã hoàn tất ở worker lỗi cũng phải tiến hành reset lại do kết quả trung gian đƣợc lƣu trữ ở vùng nhớ địa phƣơng và chúng ta không thể truy cập đến chúng. Đối với tác vụ reduce thì ngƣợc lại, ta không cần phải reset chúng vì kết quả cuối cùng của tác vụ này đƣợc lƣu trong vùng nhớ toàn cục, ta có thế truy xuất chúng một cách dễ dàng. Lỗi xảy ra ở Master: Nhằm có thể khôi phục master trong trƣờng hợp xảy ra lỗi, master sẽ tiến hành ghi checkpoint sau khoảng thời gian cố định. Khi lỗi xảy ra thì một bản sao mới có thể bắt đầu từ đoạn checkpoint đã lƣu. Nhƣng nếu chúng ta chỉ có 1 master thì khi master bị lỗi toàn bộ quá trình tính toán MapReduce sẽ bị hủy, client khi đó phải kiểm tra trƣờng hợp này và tự khởi động lại quá trình nếu muốn. ác vụ backup: Đây là một áp dụng của nguyên tắc dự phòng vào việc giải quyết bài toán trong đám mây điện toán, nó giúp cho hoạt động tính toán không bị mất khi xảy ra sự cố. Một trong các nguyên nhân thƣờng xảy ra làm tăng thời gian hoàn tất tác vụ MapReduce là các straggler . ’’Straggler là các máy có khoảng thời gian hoàn tất một trong số các tác vụ cuối của Map hoặc Reduce dài một cách bất thƣờng. ’’Straggler có thể là bất cứ máy nào trong số các máy trong hệ thống đám mây đang đƣợc sử dụng. Có rất nhiều nguyên nhân tạo nên straggler , ví dụ nhƣ một máy tính trong hệ thống có 0 đĩa cứng không tốt, khi hoạt động có thể gặp một số trục trặc làm giảm tốc độ truy xuất bình thƣờng của ô cứng từ 30Mb/s xuống thành lMb/s ch ng hạn. Hệ thống lặp lịch cho các cụm máy tính lúc này phải gán tác vụ khác cho máy là nguyên nhân làm chậm tốc độ thực thi MapReduce (dựa trên sự so sánh tốc độ CPU, truy xuất bộ nhớ, hệ thống lƣu trữ của máy địa phƣơng, băng thông của mạng). Một vấn đề mới nhất mà Google gặp phải là một lỗi trong đoạn code khởi tạo tác vụ MapReduce, nó làm cho các cache GVHD: Nguyễn Trọng Nghĩa 17
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” của CPU không thể hoạt động, quá trình tính toán của máy tính bị lỗi do đó mà giảm xuống khoảng 100 lần. Google đã tạo ra một phƣơng pháp nhằm giảm bởt tác hại do các straggler gây ra. Khi các tác vụ MapReduce gần hoàn tất, master sẽ tạo ra các tác vụ back up cho các tác vụ đang thực thi và gán cho các workers rãnh rỗi thực hiện. Quá trình MapReduce sẽ kết thúc khi tác vụ nguyên thủy hoặc tác vụ back up hoàn tất. Đối với các tác vụ MapReduce nhỏ, phƣơng pháp này chỉ giúp cải thiện hiệu năng một vài phần trăm, nhƣng đối với các tác vụ MapReduce lớn thì chúng giúp cải thiện hiệu năng rất đáng kể. Bên cạnh là biểu đồ so sánh tốc độ thực thi của chƣong trình sắp xếp viết theo MapReduce của Google. Chƣơng trình thực hiện sắp xếp khoảng 1 tetrabyte dữ liệu. Biểu đồ đầu tiên là tốc độ đọc các giá trị input,biểu đồ bên dƣới là tốc độ thực hiện sắp xếp và cuối cùng là tốc độ xuất ra kết quả. Biểu đồ (a) thể hiện tốc độ thực thi của tác vụ MapReduce hoạt động bình thƣờng không có các straggler, biểu đồ (b) là khi thực hiện gặp phải các straggler trong hóa trình kết thúc tác vụ mà không dùng cơ chế backup, biểu đồ (c) là khi dùng cơ chế backup trong quá trình thực thi MapReduce. Chúng ta nhận thấy tốc độ thực thi bình thƣờng vào khoảng 1057s, khi gặp phải các straggler mà không có cơ chế backup ta sẽ phải mất 1283s, và cuối cùng khi áp dụng cơ chế backup và phải bó đi 200 tác vụ do các straggler này gây ra chúng ta đạt đƣợc tốc độ là 933 giây chỉ hơn 5% so với tốc độ thực thi bình thƣờng nhƣng lại tăng 44 nếu so với tốc độ thực thi khi gặp phải các straggler. GVHD: Nguyễn Trọng Nghĩa 18
- Đề tài “TÌM HIỂU VỀ ĐIỆN TOÁN ĐÁM MÂY” 4. Hadoop (JICT) - Mong muốn của các doanh nghiệp là tận dụng lại lƣợng dữ liệu khổng lồ để đƣa ra quyết định kinh doanh. Hadoop giúp các công ty xử lý khối lƣợng cờ terabyte và thậm chí là petabytes dữ liệu phức tạp tƣơng đối hiệu quả với chi phí thấp hơn. Các doanh nghiệp đang nổ lực tìm kiếm thông tin quý giá từ khối lƣợng lớn dữ liệu phi cấu trúc đƣợc tạo ra bởi các web log, công cụ clickstream, các sản phẩm truyền thông xã hội. Chính yếu tổ đó dẫn làm tăng sự quan tâm đến công nghệ mã nguồn mở Hadoop. Hadoop, một dự án phần mềm quản lý dữ liệu Apache với nhân trong khung phần mềm Map Reduce của Google, đƣợc thiết kế đế hỗ trợ các ứng dụng sử dụng đƣợc số lƣợng lớn dữ liệu cấu trúc và phi cấu trúc. Không giống nhƣ các hệ quản trị cơ sở dữ liệu truyền thống, Hadoop đƣợc thiết kế để làm việc với nhiều loại dữ liệu và dữ liệu nguồn. Công nghệ HDFS của Hadoop cho phép khối lƣợng lớn công việc đƣợc chia thành các khối dữ liệu nhỏ hơn đƣợc nhân rộng và phân phối trên các phần cứng của một cluster để xử lý nhanh hơn. Công nghệ này đã đƣợc sử dụng rộng rãi bởi một số trang web lớn nhất thế giới, ch ng hạn nhƣ Facebook, eBay, Amazon, Baidu, và Yahoo. Các nhà quan sát nhấn mạnh rằng Yahoo là một trong những nhà đóng góp lớn nhất đối với Hadoop. Công nghệ Hadoop ngày càng đƣợc sử dụng nhiều hơn trong các ngân hàng, công ty quảng cáo, các viện nghiên cứu, các công ty dƣợc phẩm và các công ty CNTT khác. "Với Hadoop bạn có thể chỉ cần một và hai ngƣời là có thể xử lý cùng một khối lƣợng dữ liệu mà một số công ty lớn nhất thế giới đang xử lý. Cấu trúc tập tin của Hadoop cho phép các công ty về cơ bản nắm bắt và cũng cố tốt bất kỳ loại tập tin dữ liệu có cấu trúc và phức tạp nào, ch ng hạn nhƣ các nhật ký trên trang web, siêu dữ liệu, tập tin âm thanh và video, dịch vụ e-mail phi cấu trúc, dữ liệu dòng Twitter và dịch vụ truyền thông xã hội. Do đó, công nghệ này là lý tƣởng cho các công ty muốn phân tích khối lƣợng lớn dữ liệu có cấu trúc và phi cấu trúc. GVHD: Nguyễn Trọng Nghĩa 19

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Đề tài : Tìm hiểu về HTML5 và CSS 3, ứng dụng để viết một website đơn giản
41 p |
812 |
275
-
Đề số 4: Tìm hiểu về hệ thống ERP
3 p |
780 |
226
-
Đề tài nghiên cứu khoa học: Tìm hiểu về lễ hội du lịch, nghiên cứu điển hình lễ hội Hoa phượng đỏ Hải Phòng
102 p |
1966 |
221
-
Đề tài: Tìm hiểu các thiết bị bù công suất phản kháng
34 p |
587 |
192
-
Đề tài: Tìm hiểu về hệ thống quản lý năng lượng PMS và hệ thống máy phát dự phòng trong tòa nhà
74 p |
468 |
139
-
Báo cáo tốt nghiệp: Tìm hiểu về HTML5, CSS3 và xây dựng ứng dụng giao diện Web sử dụng Slider
46 p |
745 |
118
-
Đề tài: Tìm hiểu về điện toán đám mây và các ứng dụng đa phương tiện
76 p |
711 |
113
-
Đề tài: Tìm hiểu và điều khiển động cơ bước
26 p |
321 |
98
-
Đề tài: Tìm hiểu phần mềm Visio trong vẽ thiết kế điện theo IEC
46 p |
402 |
70
-
Đề tài: “ĐỀ ÁN TỐT NGHIỆP - Tìm hiểu về tấn công trên mạng dùng kỹ thuật DOS DDOS (Denial of Service Distributed Denial Of Service ) và đưa ra một số chính sách phòng chống”
16 p |
289 |
68
-
Đề tài: Tìm hiểu về DDoS và cách phòng chống
15 p |
241 |
62
-
Đề tài: Tìm hiểu nguyên lý CDMA mô phỏng các tín hiệu bằng Matlap
158 p |
204 |
48
-
Đề Tài: Tìm hiểu và vẽ sơ đồ ứng dụng trong thực tế có sử dụng khí cụ đóng cắt bằng tay
44 p |
203 |
39
-
Đề tài: Tìm hiểu về thủ tục hải quan điện tử ở Việt Nam
47 p |
168 |
35
-
Đề tài: Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn
62 p |
114 |
23
-
Báo cáo Công nghệ kỹ thuật điều khiển: Tìm hiểu về thủy điện nhỏ và hệ thống điều khiển tuabin máy phát điện trong nhà máy thủy điện
29 p |
143 |
18
-
Đề tài: Tìm hiểu hệ thống vận chuyển tro đáy của Công ty Nhiệt điện Cao Ngạn - Thái Nguyên
16 p |
106 |
11
-
Tiểu luận Hóa sinh đại cương: Tìm hiểu về Scleroprotein và ứng dụng của chúng trong đời sống
27 p |
23 |
9


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
