Trang chủ » Công Nghệ Thông Tin » Khoa học dữ liệu

58 trang

285 lượt xem

5

0

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 1)

Bài giảng "Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 1)" trình bày các nội dung chính sau đây: Mô thức xử lý dữ liệu MapReduce, dữ liệu cho MapReduce, chương trình MapReduce, luồng dữ liêu với bài toán Word Count, MapReduce trên môi trường phân tán,... Mời các bạn cùng tham khảo!

Chủ đề:

Xử lý dữ liệu lớn

Bài giảng Xử lý dữ liệu lớn

/

58

Chương 6

Các kĩ thuật xử lý dữ liệu

lớn theo khối -phần 1

MapReduce

Mô thức xử lý dữ liệu MapReduce

• MapReduce là mô thức xử lý dữ liệu mặc định trong

Hadoop

• MapReduce không phải là ngôn ngữ lập trình, được đề

xuất bởi Google

• Đặc điểm của MapReduce

• Đơn giản (Simplicity)

• Linh hoạt (Flexibility)

• Khả mở (Scalability)

2

A MR job = {Isolated Tasks}n

• Mỗi chương trình MapReduce là một công việc (job)

được phan rã làm nhiều tác vụ độc lập (task) và các

tác vụ này được phân tán trên các nodes khác nhau

của cụm để thực thi

• Mỗi tác vụ được thực thi độc lập với các tác vụ khác

để đạt được tính khả mở

• Giảm truyền thông giữa các node máy chủ

•Tránh phải thực hiện cơ chế đồng bộ giữa các tác vụ

3

Dữ liệu cho MapReduce

•MapReduce trong môi trường Hadoop thường làm việc

với dữ liệu đa có sẵn trên HDFS

•Khi thực thi, mã chương trình MapReduce được gửi

tới các node đã có dữ liệu tương ứng

4

Input data: A large file

Node 1

Chunk of input data

Node 2

Chunk of input data

Node 3

Chunk of input data

Chương trình MapReduce

•Lập trình với MapReduce cần cài đặt 2hàm Map và

Reduce

•2hàm này được thực thi bởi các tiến trình Mapper và

Reducer tương ứng.

•Trong chương trình MapReduce, dữ liệu được nhìn

nhận như là các cặp khóa –giá trị (key –value)

•Các hàm Map và Reduce nhận đầu vào và trả về đầu

ra các cặp (key –value)

5

(K, V)

Pairs

Map

Function

(K’,

V’)

Pairs

Reduce

Function

(K’’,

V’’)

Pairs

Input Splits Intermediate Outputs Final Outputs

Tài liệu liên quan

Đề thi Phân tích dữ liệu lớn học kì 2 năm 2023-2024: Đề thi kết thúc học phần

Đề thi kết thúc học phần học kì 2 môn Phân tích dữ liệu lớn năm 2023-2024

Kĩ thuật xử lý luồng dữ liệu lớn: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 7

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 7 - Các kĩ thuật xử lý luồng dữ liệu lớn

Các kĩ thuật xử lý dữ liệu lớn theo khối: Bài giảng Lưu trữ và xử lý dữ liệu lớn Chương 6 (Phần 2)

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 2)

Hệ thống truyền thông điệp phân tán: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 5

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 5 - Hệ thống truyền thông điệp phân tán

Cơ sở dữ liệu NoSQL: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 4 (Phần 3)

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 3)

Cơ sở dữ liệu NoSQL: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 4 (Phần 2)

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 2)

Cơ sở dữ liệu NoSQL: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 4 (Phần 1)

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 1)

Hệ thống tập tin phân tán Hadoop HDFS: Bài giảng Lưu trữ và xử lý dữ liệu lớn, Chương 3.2

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 3.2 - Hệ thống tập tin phân tán Hadoop HDFS

Hệ thống tập tin phân tán Hadoop HDFS: Bài giảng Lưu trữ và xử lý dữ liệu lớn - Chương 3.1

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 3.1 - Hệ thống tập tin phân tán Hadoop HDFS

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Hệ sinh thái Hadoop (Chương 2)

Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 2 - Hệ sinh thái Hadoop

Tài liêu mới

Giáo trình Hệ quản trị cơ sở dữ liệu (SQL) tốt nhất - Cao đẳng Nghề Cần Thơ (Ứng dụng phần mềm)

Giáo trình môn học Hệ quản trị cơ sở dữ liệu (Nghề: Ứng dụng phần mềm - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình Cơ sở dữ liệu (Cao đẳng Nghề Cần Thơ): Ứng dụng phần mềm

Giáo trình môn học Cơ sở dữ liệu (Nghề: Ứng dụng phần mềm - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình môn học Cơ sở dữ liệu (Nghề: Quản trị mạng máy tính - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình môn học Cơ sở dữ liệu (Nghề: Quản trị mạng máy tính - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình Cấu trúc dữ liệu (Cao đẳng): Ứng dụng phần mềm - Trường Cao đẳng Nghề Cần Thơ

Giáo trình môn học Cấu trúc dữ liệu (Nghề: Ứng dụng phần mềm - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình Hệ quản trị cơ sở dữ liệu (DBMS) Cao đẳng Nghề Cần Thơ: Quản trị cơ sở dữ liệu

Giáo trình môn học Hệ quản trị cơ sở dữ liệu (Nghề: Quản trị cơ sở dữ liệu - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình Lập trình Python (Cao đẳng): Ứng dụng phần mềm - Trường Cao đẳng Nghề Cần Thơ

Giáo trình môn học Lập trình Python (Nghề: Ứng dụng phần mềm - Trình độ Cao đẳng) - Trường Cao đẳng Nghề Cần Thơ

Giáo trình Lập trình cơ sở dữ liệu (CĐ): Ngành Công nghệ thông tin - Trường Cao đẳng Công nghiệp Thanh Hóa

Giáo trình Lập trình cơ sở dữ liệu (Ngành: Công nghệ thông tin - CĐ)- Trường Cao đẳng Công nghiệp Thanh Hóa

Giáo trình Quản trị cơ sở dữ liệu SQL Server (CĐ Công nghệ thông tin Thanh Hóa) chuẩn nhất

Giáo trình Quản trị cơ sở dữ liệu với SQL Server (Ngành: Công nghệ thông tin - CĐ)- Trường Cao đẳng Công nghiệp Thanh Hóa

Tài liệu học tập Cơ sở dữ liệu Vương Thùy Linh đầy đủ, chi tiết

Tài liệu học tập Cơ sở dữ liệu - Vương Thùy Linh

Tài liệu Phân tích dữ liệu Python với Pandas: Hướng dẫn chi tiết

Tài liệu Phân tích dữ liệu với Python sử dụng Pandas

Bài giảng Phân tích dữ liệu: Tổng quan về phân tích dữ liệu - Chương 1

Bài giảng Phân tích dữ liệu - Chương 1: Tổng quan về phân tích dữ liệu

Bài giảng Phân tích dữ liệu: Ngôn ngữ lập trình (Chương 2.1)

Bài giảng Phân tích dữ liệu - Chương 2.1: Ngôn ngữ lập trình

Bài giảng Phân tích dữ liệu: Ngôn ngữ lập trình (Chương 2.2)

Bài giảng Phân tích dữ liệu - Chương 2.2: Ngôn ngữ lập trình

Bài giảng Phân tích Dữ liệu: Ngôn ngữ lập trình (Chương 2.3)

Bài giảng Phân tích dữ liệu - Chương 2.3: Ngôn ngữ lập trình

Trực quan dữ liệu: Bài giảng Phân tích dữ liệu - Chương 3

Bài giảng Phân tích dữ liệu - Chương 3: Trực quan dữ liệu

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

Zalo/Tel:

093 303 0098

Email:

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok

chứng nhận

chứng nhận

Chịu trách nhiệm nội dung: Nguyễn Công Hà

Doanh nghiệp quản lý: Công ty TNHH Tài Liệu Trực Tuyến Vi Na - GCN ĐKDN: 0307893603

Địa chỉ: 54A Nơ Trang Long, P. Bình Thạnh, TP.HCM - Điện thoại: 0283 5102 888 - Email: info@tailieu.vn

Giấy phép Mạng Xã Hội số: 38/GP-BVHTTDL cấp ngày 09/3/2026