intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

dữ liệu lớn: phần 2

Chia sẻ: Tiên Trương | Ngày: | Loại File: PDF | Số trang:207

83
lượt xem
22
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

nối tiếp phần 1 của . phần 2 cuốc sách "dữ liệu lớn” đề cập đến khả năng đang phát triển của chúng ta để nắm giữ các bộ sưu tập lớn thông tin, phân tích, và rút ra những kết luận đôi khi sâu sắc đáng ngạc nhiên. mời các bạn cùng tham khảo tài liệu.

Chủ đề:
Lưu

Nội dung Text: dữ liệu lớn: phần 2

5. DỮ LIỆU HÓA<br /> Matthew Fontaine Maury là một sĩ quan Hải quân Hoa Kỳ đầy<br /> triển vọng. Trên đường nhận một nhiệm vụ mới tại Consort vào<br /> năm 1839, xe ngựa của ông đột nhiên trượt khỏi đường, lật<br /> nhào, và ném ông vào không khí. Ông bị ngã đau, gãy xương đùi<br /> và trẹo khớp gối. Khớp được một bác sĩ địa phương chỉnh lại vào<br /> vị trí, nhưng xương đùi thì được xếp rất tồi và vài ngày sau bị<br /> tháo ra để đặt lại. Những vết thương đã làm Maury, lúc đó mới<br /> 33 tuổi, bị liệt một phần và không còn thích hợp với biển. Sau<br /> gần ba năm hồi phục, Hải quân xếp cho ông công việc bàn giấy,<br /> phụ trách một nơi nghe chẳng hấp dẫn chút nào - Kho Bản đồ và<br /> Khí giới.<br /> Hóa ra đó lại là nơi hoàn hảo cho ông. Là một hoa tiêu trẻ, Maury<br /> từng rất bực bội vì các con tàu cứ chạy ngoằn ngoèo trên đại<br /> dương thay vì đi theo những tuyến đường trực tiếp hơn. Khi ông<br /> hỏi các thuyền trưởng về chuyện này, họ trả lời rằng việc đi theo<br /> một tuyến đường quen thuộc sẽ tốt hơn là chấp nhận may rủi với<br /> một tuyến đường mình không nắm rõ bằng, vốn dĩ tiềm ẩn<br /> những nguy hiểm. Họ xem đại dương như là một địa hạt không<br /> thể đoán trước, nơi các thủy thủ phải đối mặt những bất ngờ với<br /> tất cả gió và sóng.<br /> Tuy nhiên, từ những chuyến đi của ông, Maury biết rằng điều<br /> này không hoàn toàn đúng, ông nhìn ra những khuôn mẫu ở<br /> khắp mọi nơi. Trong một chặng dừng kéo dài tại Valparaiso,<br /> Chile, ông đã chứng kiến những cơn gió hoạt động chính xác cứ<br /> như đồng hồ. Một cơn gió mạnh vào chiều muộn sẽ đột nhiên dịu<br /> đi lúc mặt trời lặn và trở thành một làn gió nhẹ, cứ như thể ai đó<br /> vừa ngắt van. Trong một chuyên đi khác ông đã vượt qua dòng<br /> hải lưu xanh ấm áp Gulf Stream khi nó chảy giữa những khoảng<br /> tối của nước biển Đại Tây Dương. Trông nó thật khác biệt và ổn<br /> định, cứ như thể đó là dòng sông Mississippi vậy. Thật ra, người<br /> Bồ Đào Nha đã đi lại trên Đại Tây Dương hàng thế kỷ bằng cách<br /> <br /> dựa vào các luồng gió đông và tây đều đặn được gọi là “gió mậu<br /> dịch”.<br /> Bất cứ khi nào chuẩn úy hải quân Maury đến một cảng mới, ông<br /> đều tìm kiếm những thuyền trưởng già để thu thập kiến thức<br /> của họ, dựa trên các trải nghiệm được truyền lại qua các thế hệ.<br /> Ông đã học được những kiến thức về thủy triều, gió, và hải lưu<br /> hoạt động theo quy luật, nhưng không hề được tìm thấy trong<br /> các sách và bản đồ mà Hải quân cấp cho các thủy thủ. Thay vào<br /> đó, họ dựa trên những bản đồ đôi khi cũ cả trăm năm, nhiều bản<br /> đồ có rất nhiều thiếu sót hoặc hoàn toàn không chính xác. Trong<br /> cương vị mới là người quản lý Kho Bản đồ và Quân dụng, ông tập<br /> trung khắc phục điều đó.<br /> Khi nhận nhiệm vụ, ông kiểm kê các phong vũ biểu, la bàn, kính<br /> lục phân, và đồng hồ bấm giờ trong bộ sưu tập của kho. Ông<br /> cũng chú ý tới vô số những cuốn sách, bản đồ, và biểu đồ hàng<br /> hải có trong kho. Ông đã tìm thấy những thùng mốc đầy các sổ<br /> ghi chép cũ từ tất cả những chuyến đi trước đây của các thuyền<br /> trưởng Hải quân. Người tiền nhiệm của ông đã xem chúng là rác.<br /> Với những lời hài hước hoặc những hình phác thảo kỳ quặc trên<br /> lề các trang giấy, chúng đôi khi có vẻ giống như một cách để<br /> thoát khỏi sự nhàm chán của chuyến đi hơn là một sự ghi chép<br /> về hành trình của con tàu.<br /> Nhưng khi Maury phủi bụi những cuốn sách ố màu nước biển và<br /> xem kỹ bên trong, ông thật sự thích thú. Đây là những thông tin<br /> ông cần: hồ sơ về gió, nước và thời tiết tại những địa điểm cụ thể<br /> trong những ngày cụ thể. Mặc dù một số bản ghi cung cấp được<br /> ít giá trị, nhiều bản khác đã cho thấy bạt ngàn thông tin hữu ích.<br /> Ghép tất cả chúng lại, Maury nhận thấy một hình thức hoàn<br /> toàn mới của biểu đồ điều hướng sẽ hoàn toàn khả thi. Maury và<br /> cả tá “máy tính” của ông - chức danh của những người tính toán<br /> số liệu - bắt đầu quá trình cần mẫn trích xuất và lập bảng các<br /> thông tin đã bị giam cầm bên trong các cuốn sổ ghi chép đang bị<br /> <br /> hủy hoại.<br /> Maury tổng hợp các dữ liệu và phân chia toàn bộ Đại Tây Dương<br /> thành các khối năm độ kinh tuyến và vĩ tuyến. Với từng phân<br /> khúc ông ghi nhiệt độ, tốc độ, hướng của gió và sóng, cùng với<br /> tháng, vì những điều kiện này khác nhau tùy thuộc vào thời gian<br /> trong năm. Khi kết hợp lại, dữ liệu cho thấy những mô hình và<br /> chỉ ra được những tuyến đường hiệu quả hơn.<br /> Lời khuyên của nhiều thế hệ thủy thủ đôi khi đã đưa những con<br /> tàu thẳng tiến vào những vùng yên ả hoặc khiến chúng phải đọ<br /> sức với gió và dòng chảy ngược chiều. Trên một tuyến đường<br /> thông thường, từ New York đến Rio de Janeiro, các thủy thủ từ<br /> lâu đã có tư tưởng phải chống lại thiên nhiên thay vì dựa vào nó.<br /> Các hoa tiêu Mỹ được dạy tránh các nguy hiểm của một hành<br /> trình về phía nam thẳng đến Rio. Vì vậy, những con tàu của họ<br /> đã lướt theo dòng đông nam trước khi chuyển qua dòng tây nam<br /> sau khi vượt qua đường xích đạo. Khoảng cách đi thuyền thường<br /> lên tới ba lần xuyên suốt toàn bộ Đại Tây Dương. Tuyến đường<br /> phức tạp hóa ra lại là vô nghĩa. Một đường đơn giản trực tiếp về<br /> phía nam cũng đã là tốt.<br /> Để tăng độ chính xác, Maury cần nhiều thông tin hơn. Ông đã tạo<br /> ra một phiếu chuẩn để ghi nhật ký dữ liệu của tàu và yêu cầu tất<br /> cả các tàu Hải quân Mỹ sử dụng và nộp lại khi kết thúc chuyến<br /> đi. Các tàu buôn rất muốn có được những sơ đồ của ông, nhưng<br /> Maury kiên quyết yêu cầu đổi lại họ phải nộp các phiếu ghi nhật<br /> ký tàu của họ (một phiên bản sớm của một mạng xã hội lan<br /> truyền). “Mỗi con tàu đi trên đại dương”, ông tuyên bố, “có thể từ<br /> nay về sau được xem như một đài quan sát nổi, một ngôi đền của<br /> khoa học”. Để tinh chỉnh các sơ đồ, ông đã tìm kiếm các điểm dữ<br /> liệu khác (giống như Google xây dựng trên thuật toán PageRank<br /> để bao gồm nhiều tín hiệu hơn). Ông yêu cầu các thuyền trưởng<br /> ném chai với các ghi chú cho thấy ngày, vị trí, gió, và dòng chảy<br /> phổ biến trên biển theo định kỳ, và vớt những chai như vậy khi<br /> <br /> phát hiện ra chúng. Nhiều tàu cắm một lá cờ đặc biệt để cho thấy<br /> họ đã hợp tác với việc trao đổi thông tin (tiền thân của các biểu<br /> tượng chia sẻ liên kết sau này xuất hiện trên một số trang web).<br /> Từ các dữ liệu, các tuyến đường biển tự nhiên đã tự thể hiện, nơi<br /> mà gió và dòng chảy là đặc biệt thuận lợi. Các sơ đồ của Maury<br /> cắt giảm được những hành trình dài, thường khoảng một phần<br /> ba, giúp các thương gia tiết kiệm được rất nhiều chi phí. “Cho<br /> đến khi có được những tài liệu của ông, tôi đã vượt qua đại dương<br /> trong mịt mù”, một thuyền trưởng đã viết lời tán thưởng như<br /> vậy. Và thậm chí cả những người đi biển sành sỏi, vẫn từ chối các<br /> sơ đồ mới lạ và dựa trên những cách truyền thống hoặc trực giác<br /> của họ, cũng đóng một vai trò hữu ích: nếu hành trình của họ<br /> mất nhiều thời gian hơn hoặc gặp thảm họa, xem như họ đã<br /> chứng minh tính tiện ích cho hệ thống của Maury. Đến năm<br /> 1855, khi xuất bản tác phẩm có uy tín The Physical Geography of<br /> the Sea, Maury đã vẽ được 1,2 triệu điểm dữ liệu. “Do đó, một<br /> thủy thủ trẻ, thay vì mò mẫm theo cách của mình cho đến khi<br /> ánh sáng của kinh nghiệm đến với anh ta... thì qua đây sẽ thấy<br /> rằng anh ta đã có kinh nghiệm của một ngàn hoa tiêu để hướng<br /> dẫn cho mình, cùng một lúc”, ông đã viết.<br /> Công trình của ông có ý nghĩa quan trọng cho việc lắp đặt cáp<br /> điện báo xuyên Đại Tây Dương đầu tiên. Và, sau một vụ va chạm<br /> thảm khốc trên biển, ông đã nhanh chóng sắp đặt hệ thống các<br /> làn tàu vận chuyển mà ngày nay đã trở thành phổ biến. Thậm<br /> chí ông còn áp dụng phương pháp của mình cho thiên văn học:<br /> khi hành tinh Neptune được phát hiện vào năm 1846, Maury đã<br /> có ý tưởng tuyệt vời là phối hợp các tài liệu lưu trữ đã nhầm lẫn<br /> nhắc đến nó như một ngôi sao, và chúng đã giúp vẽ được quỹ đạo<br /> của Neptune. Maury đã hầu như bị bỏ qua trong các sách lịch sử<br /> Mỹ, có lẽ bởi con người gốc Virginia này đã từ chức khỏi Hải quân<br /> trong thời kỳ Nội chiến và phục vụ như một điệp viên ở Anh cho<br /> phe Liên minh. Nhưng nhiều năm trước đó, khi ông đến châu Âu<br /> để kêu gọi sự hỗ trợ quốc tế cho các sơ đồ của mình, bốn quốc gia<br /> <br /> đã phong tước hiệp sĩ cho Maury, và ông đã nhận được huy<br /> chương vàng từ tám nước khác, bao gồm cả Vatican. Vào thời kỳ<br /> đầu của thế kỷ XXI, biểu đồ dẫn đường do Hải quân Mỹ xuất bản<br /> vẫn mang tên ông.<br /> Trung tá Maury, “Thám tử của đại dương”, là một trong những<br /> người đầu tiên nhận ra rằng có một thứ giá trị đặc biệt trong một<br /> gói tổng hợp rất lớn của dữ liệu, điều không thể có được với<br /> lượng dữ liệu nhỏ hơn - một nguyên lý cốt lõi của dữ liệu lớn. Về<br /> cơ bản, ông hiểu rằng những tập nhật ký hàng hải mốc meo của<br /> Hải quân đã thực sự tạo nên “dữ liệu” có thể khai thác, trích xuất<br /> và lập bảng. Khi làm như vậy, ông là một trong những người tiên<br /> phong của dữ liệu hóa, khai quật dữ liệu từ một nguồn mà không<br /> ai nghĩ rằng có chứa bất kỳ giá trị nào. Giống như Oren Etzioni<br /> tại Farecast, người đã sử dụng thông tin về giá cũ của ngành<br /> công nghiệp hàng không để tạo ra một công việc kinh doanh<br /> sinh lợi, hay các kỹ sư tại Google, những người đã tận dụng<br /> những câu hỏi tìm kiếm cũ để hiểu về sự lây lan của dịch cúm,<br /> Maury đã lấy thông tin được tạo ra cho một mục đích và chuyển<br /> đổi nó thành một cái gì đó khác nữa.<br /> Phương pháp của ông, gần tương tự với các kỹ thuật dữ-liệu-lớn<br /> ngày hôm nay, thật đáng kinh ngạc nếu xét rằng nó đã được thực<br /> hiện chỉ với giấy và bút chì. Câu chuyện của ông làm nổi bật mức<br /> độ của việc sử dụng dữ liệu trước thời đại số hóa. Ngày nay<br /> chúng ta có xu hướng kết hợp hai thứ này, nhưng điều quan<br /> trọng là giữ chúng tách biệt. Để có được một sự hình dung đầy<br /> đủ hơn về cách dữ liệu được trích xuất từ những nơi ít ngờ đến<br /> nhất, hãy xem một ví dụ hiện đại hơn.<br /> Đánh giá tư thế của con người là môn nghệ thuật cả khoa học của<br /> Shigeomi Koshimizu, một giáo sư tại Học viện cao cấp Nhật Bản<br /> về Công nghệ ở Tokyo. Ít ai nghĩ rằng cách một người ngồi lại<br /> chứa đựng thông tin, nhưng thật ra là có. Khi một người đang<br /> ngồi, những yếu tố như đường nét của cơ thể, tư thế, và phân<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2