intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tìm kiếm thông tin trên mạng Internet: Hướng dẫn thực hành - Phần 1

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:135

92
lượt xem
22
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tài liệu "Hướng dẫn thực hành: Tìm kiếm thông tin trên mạng Internet" được biên soạn giúp người học hình thành những kỹ năng cơ bản và chuyên sâu về sử dụng các máy tìm kiếm thông tin trên mạng Internet phục vụ các mục đích khác nhau như: tìm kiếm các thông tin cụ thể theo yêu cầu bất kỳ; khai thác thông tin thị trường; tìm hiểu nhu cầu của một khu vực thị trường cụ thể; tìm kiếm các đối tác, nhà cung cấp, người dùng hàng kinh doanh một cách chính xác, hiệu quả với sự tiết kiệm tối đa chi phí;... Mời các bạn cùng tham khảo chi tiết phần 1 của tài liệu!

Chủ đề:
Lưu

Nội dung Text: Tìm kiếm thông tin trên mạng Internet: Hướng dẫn thực hành - Phần 1

  1. TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THƯƠNG MAI UNIVERSITY Chủ biên: TS. Nguyễn Trần Hưng HƯỚNG DẪN THỰC HÀNH TÌM KIẾM THÔNG TIN TRÊN MẠNG INTERNET NHÀ XUẤT BẢN HÀ NỘI - 2019 1
  2. 2
  3. LỜI NÓI ĐẦU Sự phát triển mạnh mẽ của các công nghệ mới, tiên tiến trong cách mạng công nghiệp 4.0 giúp tạo ra các sản phẩm và dịch vụ mới, tăng hiệu quả sản xuất, thúc đẩy sáng tạo và phát triển của nền công nghiệp trong dài hạn; giảm chi phí vận chuyển và liên lạc; hoạt động của các hệ thống cung cấp trở nên hiệu quả hơn và chi phí cho các hoạt động thương mại được giảm thiểu. Trong cách mạng công nghiệp 4.0, tăng trưởng kinh tế của các quốc gia chủ yếu dựa vào công nghệ, đổi mới và sáng tạo thay thế cho tăng trưởng dựa vào khai thác tài nguyên, sử dụng vốn và lao động chất lượng thấp. Đây chính là động lực không giới hạn cho sự phát triển mạnh mẽ của cách mạng công nghiệp 4.0 trên toàn thế giới trong thời gian tới. Trong cách mạng công nghiệp 4.0, vấn đề về kỹ thuật khai thác, tìm kiếm dữ liệu thông tin đang trở thành trọng tâm quan trọng hàng đầu đóng vai trò nền tảng phát triển các công nghệ cốt lõi như: Trí tuệ nhân tạo (AI), Internet of things (IoT), Dữ liệu lớn (Big Data). Một trong những kỹ thuật tìm kiếm thông tin quan trọng nhất đó chính là tìm kiếm thông tin trên Internet phục vụ cho các mục đích khác nhau, chẳng hạn như học tập, nghiên cứu và đặc biệt là phục vụ cho hoạt động kinh doanh. Tuy nhiên, Internet là nguồn dữ liệu khổng lồ được cập nhật liên tục và là tập hợp của nhiều trang web khác nhau được lưu trữ trên nhiều máy chủ khác nhau trên khắp thế giới, vì vậy thiết bị máy tính của người dùng không thể tìm kiếm hoặc hoặc kết nối trực tiếp tới tất cả máy chủ cùng một lúc. Để đạt được các mục đích tìm kiếm, khai thác từ nguồn dữ liệu vô tận như Internet, công cụ lớn nhất đầu tiên có thể thấy được chính là các máy tìm kiếm, đó thực sự là các công cụ mạnh mẽ và hiệu quả, có thể xem như những chiếc chìa khóa để người dùng có thể tìm thấy và tập hợp những thông tin hữu ích. 3
  4. Vấn đề đặt ra ở đây là mỗi cơ sở dữ liệu của một máy tìm kiếm cũng chỉ là một phần nhỏ của toàn bộ mạng thông tin Internet và mỗi máy tìm kiếm có những truy vấn đặc biệt khác nhau đòi hỏi người dùng cần phải có kỹ năng cần thiết để sử dụng nhiều loại máy tìm kiếm và có thể tìm thấy chính xác các kết quả mình cần với thời gian ngắn nhất. Nhằm tăng cường kiến thức và kỹ năng tìm kiếm thông tin trên Internet, sách “Hướng dẫn tìm kiếm thông tin trên mạng Internet” được biên soạn giúp người học hình thành những kỹ năng cơ bản và chuyên sâu về sử dụng các máy tìm kiếm thông tin trên mạng Internet phục vụ các mục đích khác nhau, chẳng hạn: tìm kiếm các thông tin cụ thể theo yêu cầu bất kỳ; khai thác thông tin thị trường; tìm hiểu nhu cầu của một khu vực thị trường cụ thể; tìm kiếm các đối tác, nhà cung cấp, người dùng hàng kinh doanh một cách chính xác, hiệu quả với sự tiết kiệm tối đa chi phí... Ngoài việc trang bị cho người học những kiến thức và kỹ năng chuyên biệt về sử dụng các máy tìm kiếm khác nhau, sách cũng đồng thời tạo nền tảng cho người đọc trong việc tiếp cận các kỹ năng chuyên sâu của marketing điện tử như Search Engine Optimization (SEO) và marketing mạng xã hội. Sách được cấu trúc thành 7 chương như sau: Chương 1: Tổng quát về tìm kiếm thông tin trên Internet Chương 2: Máy tìm kiếm Google Chương 3: Máy tìm kiếm Facebook Graph Search và Facebook Trends Chương 4: Máy tìm kiếm Yahoo Chương 5: Máy tìm kiếm Bing Chương 6: Máy tìm kiếm AOL Chương 7: Máy tìm kiếm DMOZ, Gigablast và kỹ thuật tăng tốc trình duyệt Trong đó, TS. Nguyễn Trần Hưng biên soạn chương 1, 2, 4, 5; Thạc sĩ Nguyễn Minh Đức biên soạn chương 3; Thạc sĩ Vũ Thị Thúy Hằng biên soạn chương 6; Thạc sỹ Lê Duy Hải biên soạn chương 7. Trong quá trình biên soạn sách, nhóm tác giả đã nhận được sự hỗ trợ tích cực từ các giảng viên trong Khoa Hệ thống thông tin Kinh tế và Thương mại điện tử - Trường Đại học Thương Mại. 4
  5. Chúng tôi xin gửi lời cảm ơn chân thành tới sự hỗ trợ, động viên, tham gia góp ý, tạo mọi điều kiện tốt nhất để sách được hoàn thiện của Ban Giám hiệu, Phòng Quản lý Khoa học, của Hội đồng Khoa Hệ thống thông tin Kinh tế và Thương mại điện tử - Trường Đại học Thương Mại và của các đồng nghiệp khác. Mặc dù đã hết sức cố gắng nhằm đảm bảo nội dung khoa học, tính hiệu quả và sự cập nhật tốt nhất của sách, nhưng chắc chắn không thể tránh khỏi những thiếu sót. Rất mong nhận được sự đóng góp, phê bình của các độc giả để cuốn sách được hoàn thiện hơn trong các lần tái bản sau. Xin trân trọng cảm ơn! Hà Nội, tháng 10 năm 2018 CHỦ BIÊN TS. Nguyễn Trần Hưng 5
  6. 6
  7. CHƯƠNG 1 TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN INTERNET Một trong những ứng dụng Internet quan trọng nhất đó chính là tìm kiếm thông tin phục vụ cho các mục đích khác nhau: có thể là học tập, nghiên cứu và đặc biệt là phục vụ cho hoạt động kinh doanh. Để đạt được các mục đích này, công cụ hữu hiệu nhất có thể thấy được chính là các máy tìm kiếm, đó thực sự là các công cụ mạnh mẽ và hiệu quả, có thể xem như những chiếc chìa khóa để người dùng có thể tìm thấy và tập hợp những thông tin hữu ích. 1.1. Khái niệm và đặc điểm của tìm kiếm thông tin trên Internet 1.1.1. Khái niệm tìm kiếm thông tin trên Internet Khái niệm về tìm kiếm thông tin có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối lượng dữ liệu khổng lồ trong thực tế. Tìm kiếm thông tin phân tích các mối quan hệ và các mẫu trong các dữ liệu được lưu trữ dựa trên các truy vấn của người dùng. Thông tin có Tìm kiếm giá trị theo Dữ liệu yêu cầu truy (Thông tin) thông tin vấn Hình 1.1: Mô hình tìm kiếm thông tin trên mạng Internet Tìm kiếm thông tin trên mạng Internet được hiểu là quá trình phân tích trong khối lượng dữ liệu được lưu trữ của các máy tìm kiếm và tự động lựa chọn, trích xuất thông tin có giá trị phù hợp với yêu cầu tìm kiếm dựa trên các truy vấn của người dùng. 7
  8. 1.1.2. Đặc điểm của tìm kiếm thông tin trên Internet Tìm kiếm thông tin trên Internet có thể là công việc khá dễ dàng hoặc rất khó khăn đối với người dùng. Khi truy cập và tìm kiếm thông tin trên Internet, cần chú ý một số đặc điểm sau đây của hoạt động tìm kiếm thông tin trên mạng Internet để có thể tìm kiếm hiệu quả: + Nội dung trên Internet luôn được cập nhật và bổ sung, không có bất kỳ một số liệu thống kê chính xác nào về lượng thông tin có thể truy cập được trên Internet. + Tài liệu trên Internet không được xử lý bằng một hệ thống hợp chuẩn nào. Nếu như danh mục tài liệu trong các thư viện được xử lý bao gồm những từ khóa chuẩn có kiểm soát thì nguồn tin trên Internet hoàn toàn không sử dụng bất cứ công cụ nào tương tự như vậy. Do đó, khi thực hiện tìm kiếm, người dùng cần phải biết phán đoán những từ ngữ, thuật ngữ khác nhau sẽ được sử dụng trong các trang web cần tìm kiếm. + Khi tiến hành tìm kiếm thông tin, dữ liệu trên Internet, người dùng không thể thực hiện tìm kiếm một cách trực tiếp. Thông tin trên Internet là tổng hợp thông tin của rất nhiều trang web được lưu trữ trên nhiều máy chủ khác nhau trên khắp thế giới. Thiết bị máy tính của người dùng không thể tìm kiếm hoặc kết nối trực tiếp tới tất cả các máy chủ cùng một lúc. Điều người dùng có thể làm trên thiết bị máy tính của mình là truy cập vào một hoặc nhiều máy tìm kiếm gián tiếp đang có hiện nay. Các máy tìm kiếm sẽ cho phép người dùng tìm kiếm trong cơ sở dữ liệu của nó và mỗi cơ sở dữ liệu của một máy tìm kiếm cũng chỉ là một phần nhỏ của toàn bộ mạng thông tin toàn cầu. Máy tìm kiếm cung cấp cho người dùng các đường link kết nối tới các trang web. Người dùng nhấp chuột vào các đường kết nối này và tải về các văn bản, hình ảnh, âm thanh, và các thông tin khác theo yêu cầu tìm kiếm từ các máy chủ khác nhau trên khắp thế giới. 1.2. Những vấn đề thường gặp phải trong tìm kiếm, tập hợp, phân loại và xử lý thông tin trên Internet 1.2.1. Tìm kiếm thông tin Khi thực hiện tìm kiếm thông tin trên Internet, vấn đề mà người dùng thường gặp phải bao gồm: + Xem Internet như là một thư viện 8
  9. Thư viện là nơi thông tin không chỉ được lưu giữ mà còn được xử lý và tổ chức, từ đó cho phép việc tìm kiếm được thực hiện dễ dàng. Việc xử lý thông tin được thực hiện theo những tiêu chuẩn quốc tế và có những qui định nghiêm ngặt. Thư viện có cán bộ được đào tạo và có kinh nghiệm nhiều năm trong việc hỗ trợ mọi người tìm kiếm thông tin. Mặc dù Internet là kho thông tin vô tận nhưng các thông tin trên môi trường này không được tập hợp và xử lý theo một hệ thống hợp chuẩn nào. Ngoài ra, thông tin trên Internet cũng không được kiểm soát về chất lượng, tính chính xác của nguồn thông tin như các hệ thống phân loại của thư viện. + Xem Internet như nguồn thông tin duy nhất Internet chỉ là một trong nhiều nguồn cung cấp thông tin. Thư viện, đồng nghiệp, các hội nghề nghiệp, các cơ quan chính phủ và các nguồn thông tin khác đều đóng vai trò quan trọng trong quá trình tìm kiếm, khai thác các thông tin có giá trị theo yêu cầu phục vụ kinh doanh hoặc nghiên cứu. + Tin tưởng quá vào chất lượng nguồn thông tin trên Internet Bất cứ ai truy cập vào Internet cũng có thể đưa lên mạng những thông tin mà họ muốn. Không có sự đảm bảo nào cho những thông tin mà người dùng tìm được trên Internet về tính chính xác và sự cập nhật. Có những nguồn thông tin khác đáng tin cậy hơn Internet. Các cán bộ thư viện đã được đào tạo một cách chuyên nghiệp có thể đánh giá được độ tin cậy của thông tin tìm được. Các bài báo trong những tạp chí được các nhà chuyên môn biên tập nội dung sẽ có chất lượng tốt hơn và những nhà xuất bản danh tiếng cũng là một chứng thực cho những tài liệu hữu ích và đáng tin cậy. Tất nhiên không phải bất cứ bài báo hay ấn phẩm nào trong thư viện cũng hoàn toàn đáng tin cậy, song người dùng có thể tin tưởng rằng người ta ít nhất cũng đã kiểm tra nguồn tin trước khi cung cấp để sử dụng. Điều này thường không xảy ra đối với tài liệu trên Internet. Chính vì vậy, khi tìm kiếm thông tin dữ liệu trên Internet, người dùng cần đặt ra một loạt những câu hỏi mang tính phê phán với bất kỳ thông tin nào thu thập được và điều này rất quan trọng khi sử dụng thông tin từ Internet. + Thông tin trên Internet là bất biến 9
  10. Trên Internet các thông tin có thể được xuất hiện thường xuyên và biến mất mà không được báo trước. Một nhà cung cấp dịch vụ có thể thay đổi địa chỉ web, một cá nhân hoặc một nhóm tài trợ có thể không còn thời gian và/hoặc tiền bạc để duy trì một website. Đây là một trong rất nhiều lý do khiến thông tin đã đăng tải có thể bị biến mất. Người dùng cần nhớ rằng không nên phụ thuộc vào một nguồn thông tin duy nhất bởi vì không phải lúc nào thông tin đó cũng sẵn có. + Tìm kiếm thông tin trên Internet là đơn giản Internet là một không gian thông tin rất rộng lớn, có phạm vi toàn cầu và vì vậy tìm kiếm những đoạn thông tin nhỏ đôi khi là điều không thể thực hiện được hoặc người dùng cần phải chọn lọc trong rất nhiều thông tin rác. Cũng có những máy tìm kiếm có thể hỗ trợ người dùng nhưng quá trình nghiên cứu và tìm kiếm mặc dù cho kết quả nhanh nhưng việc tập hợp và phân loại thông tin đôi khi cũng đòi hỏi sự kiên nhẫn. Tìm kiếm trên Internet thường đòi hỏi sự kiên nhẫn nếu người dùng không biết sử dụng đúng cách tìm kiếm thông tin với các máy tìm kiếm. + Thông tin trên Internet được cung cấp miễn phí Phần lớn các thông tin tìm thấy trên Internet đều được cung cấp miễn phí nhưng không phải là tất cả. Những thông tin hữu ích thường không được cung cấp miễn phí. Phần lớn thông tin trên Internet thường không được các nhà nghiên cứu nghiêm túc cho là thông tin hữu ích. Rất nhiều tổ chức sử dụng Internet như là một công cụ quảng cáo hoặc quan hệ công chúng. Có một số cơ sở dữ liệu và tài liệu có giá trị được cung cấp miễn phí trên Internet, tuy nhiên rất nhiều trang web được thiết kế để bán sản phẩm hoặc cung cấp dịch vụ dựa trên việc đăng ký phải trả tiền, ví dụ : Forester.com; ABI Research; emarketer.com… 1.2.2. Tập hợp thông tin Những thông tin nào người dùng có thể tìm thấy trên Internet? Không thể liệt kê tất cả các loại nguồn tin có trên Internet, đặc biệt khi Internet thay đổi rất thường xuyên và nhanh chóng. Tuy nhiên, nhìn chung Internet hữu ích nhất khi tìm kiếm những thông tin được tập hợp trong các nhóm sau đây (chú ý phần lớn những thông tin này là bằng tiếng Anh): 10
  11. + Các sự kiện đang diễn ra, ví dụ: tin tức ngày hôm nay, hay những xu hướng mới nhất. + Thông tin kinh tế, ví dụ: thông cáo báo chí của một công ty, chỉ số chứng khoán, thông tin về sản phẩm. + Thông tin của chính phủ, ví dụ: các chính sách hiện hành, luật pháp, các cuộc thảo luận tại quốc hội, quyết định của tòa án, thông cáo báo chí. + Văn hóa đại chúng, ví dụ: phim, nhạc, truyền hình, thể thao chuyên nghiệp + Thông tin về máy tính và Internet, ví dụ: khóa học facebook marketing, quảng cáo Google Ads, Bigdata, Blockchain... + Thông tin về các bài báo, các nghiên cứu dự báo thị trường, ví dụ: thống kê về số lượng người sử dụng thiết bị di động từ 2018 đến 2021, dự báo về sự phát triển của mạng xã hội trong năm 2021... Bảng 1.1: Tập hợp các thông tin có thể tìm kiếm từ một số website đặc thù Nhà xuất bản Loại hình thông tin cung cấp Các hiệp hội và viện nghiên cứu • Thông tin về thành Viện nghiên cứu quốc tế về phát triển viên; bền vững (IISD) http://iisd1.iisd.ca • Báo cáo hoạt động; nghiên cứu chuyên môn Các doanh nghiệp • Thông tin về sản phẩm Vinacafe • Báo cáo thường niên http://www.vinacafe.com.vn và thông tin về công ty Công ty Ford Việt Nam • Thông cáo và báo cáo http://www.ford.com.vn/ báo chí • Thông tin về nơi cung cấp dịch vụ Các phương tiện truyền thông (Báo và tạp chí) • Mục lục Thời báo kinh tế Việt Nam • Một số bài báo toàn http://www.vneconomy.com.vn văn chọn lọc 11
  12. Thời báo http://www.thetimes.co.uk/ • Lưu trữ của các số đã Newspapers ra http://www.newspapers.com • Thông tin đặt mua tài liệu Các cơ quan giáo dục Đại học Cần Thơ • Thông tin nhập học http://www.ctu.edu.vn • Thông tin về các khóa Đại học Huế học http://www.hueuni.edu.vn • Danh mục thư viện; Viện công nghệ Massachussette hướng dẫn nghiên cứu http://web.mit.edu Các cơ quan chính phủ BộNN&PTNT • Dữ liệu thống kê; luật https://www.mard.gov.vn pháp; thông cáo báo Bộ GD&ĐT chí https://www.moet.gov.vn • Báo cáo, chính sách Bộ Thương mại • Thông tin liên hệ http://www.moit.gov.vn Liên hợp quốc http://www.un.org Các tổ chức/nhóm hoạt động theo • Báo cáo, thông cáo chủ đề cụ thể báo chí Tổ chức du lịch thế giới • Danh mục, tài liệu http://www.world-tourism.org toàn văn Mạng thông tin về quyền trẻ em • Thông tin về tổ chức www.crin.org và các hoạt động • Kết nối đến các trang web liên quan Các cá nhân • Quan điểm cá nhân, Các chuyên gia, những người hăng ảnh gia đình hái họat động trong một lĩnh vực nào • Sở thích và quan tâm đó, những người nổi tiếng, những cá nhân; thông tin người không nổi tiếng hoặc bất cứ ai. hướng dẫn • Bất cứ thông tin gì mà người dùng có thể tưởng tượng được 12
  13. 1.2.3. Phân loại và xử lý dữ liệu Mặc dù có thể truy cập và sử dụng nhiều loại máy tìm kiếm để tìm kiếm thông tin, dữ liệu trên Internet, người dùng có thể sẽ gặp phải những vấn đề về phân loại và xử lý dữ liệu thu thập được. Để hạn chế tối đa điều này, ngoài việc hiểu sâu hơn về tính năng của từng công cụ và phải luyện tập sử dụng nhiều lần, vấn đề quan trọng là cần nắm bắt cách thức các máy tìm kiếm phân loại và xử lý dữ liệu để có phương pháp tìm kiếm phù hợp. Muốn vậy, người dùng cần phải biết mình đang thực hiện tìm kiếm với công cụ nào. Về cơ bản có một số loại máy tìm kiếm sau đây và mỗi loại có cách phân loại và xử lý dữ liệu khác nhau để trả về kết quả cho người dùng. a. Máy tìm kiếm có cơ sở dữ liệu Các máy tìm kiếm làm việc theo nguyên tắc tìm kiếm trong cơ sở dữ liệu được tự động xây dựng bởi một robot mà không phải do con người xây dựng. Máy tìm kiếm sẽ so sánh các từ khóa mà người dùng nhập vào cửa sổ tìm kiếm với các từ hoặc cụm từ được đăng tải trong nội dung của các trang web mà máy tìm kiếm lưu trữ. Lượng thông tin mà các máy tìm kiếm có thể bao quát thường dao động từ một số nhỏ và trong một phạm vi hẹp về nội dung cho đến chứa đựng hơn 90% nội dung các trang web có thể xử lý được. Kết quả tìm kiếm của người dùng có phù hợp hay không là phụ thuộc vào khả năng sử dụng nhuần nhuyễn các tính năng và cú pháp của máy tìm kiếm và diện bao quát của máy tìm kiếm mà người dùng sử dụng. + Điểm mạnh: Khi tìm kiếm một tài liệu cụ thể (tên tài liệu, tên người, tổ chức đã biết), tìm kiếm các chủ đề khó phân loại. + Điểm yếu: Không cho phép có một cái nhìn tổng quát về một chủ đề cụ thể (trong đó có thể có những chủ đề nhỏ mà người dùng chưa biết). Một số máy tìm kiếm tiêu biểu: Google Qwant http://www.google.com/ http://www.qwant.com/ Bing Boardreader http://www.bing.com http://www.boardreader.com Gigablast Ask http://www.gigablast.com/ http://www.ask.com/ 13
  14. Google và Bing là hai máy tìm kiếm có cơ sở dữ liệu lớn nhất, tuy nhiên cần lưu ý là không có một máy tìm kiếm nào có thể tìm được toàn bộ thông tin về một chủ đề. b. Máy tìm kiếm liên thông (meta-search engines) Không thực sự là một máy tìm kiếm có cơ sở dữ liệu được xây dựng từ các trang web trên Internet, các máy tìm kiếm liên thông sử dụng cơ sở dữ liệu có sẵn của các máy tìm kiếm khác. Khi người dùng nhập vào một truy vấn, máy tìm kiếm liên thông gửi truy vấn này có thể vào một hoặc một số máy tìm kiếm khác để nhận về kết quả và thường tập hợp được khoảng 10% kết quả tìm được ở mỗi máy tìm kiếm mà chúng liên kết. + Điểm mạnh: Thường tìm kiếm hiệu quả nếu người dùng chỉ sử dụng một từ hoặc một cụm từ. + Điểm yếu: Người dùng không thể sử dụng các chức năng tìm kiếm nâng cao của từng máy tìm kiếm. Người dùng cũng không thể tiến hành một phép tìm toàn diện và phức tạp. Một số máy tìm kiếm liên thông tiêu biểu: Surfwax Dogpile Metacrawler http://www.surfwax.com/ http://www.dogpile.com http://www.metacrawler.com/ Startpage Metager Yippy http://www.startpage.com http://ww20.metager.com/ http://www.yippy.com c. Cổng thông tin/ Danh mục theo chủ đề (subject directory) Cổng thông tin là các website cung cấp các nội dung thông tin và dịch vụ tiện ích cho người dùng trực tuyến, thường có máy tìm kiếm của riêng mình và được tổ chức theo thứ bậc. Các cổng thông tin do con người tập hợp thông tin, biên soạn và sắp xếp theo một hệ thống phân loại. Đôi khi các cổng thông tin là do các chuyên gia trong một lĩnh vực tập hợp. Điều này có nghĩa là thông tin ở đây đã được thẩm định và đánh giá về sự phù hợp và chất lượng. Trong cổng thông tin, người dùng có thể xem theo chủ đề và có thể tìm kiếm. Ví dụ về một số cổng thông tin: + ELDIS (Electronic development and information system – Hệ thống thông tin và Phát triển điện tử) http://www.eldis.org/ 14
  15. Cổng thông tin phát triển ELDIS cung cấp một điểm truy cập trung tâm tới các thông tin về phát triển, các hướng dẫn theo từng chủ đề phát triển, thông tin phát triển về từng quốc gia, tin tức, thông tin tuyển dụng, và các tư liệu khác. + Thư viện ảo trên mạng http://www.vlib.org/ Thư viện ảo trên mạng được tự mô tả như là “danh mục lâu đời nhất trên web, do Tim Berners-Lee - người kiến tạo nên mạng web - xây dựng. Thư viện ảo được quản lý bởi một nhóm các tình nguyện viên là chuyên gia về nhiều lĩnh vực. Thư viện ảo này được coi là một trong những cổng thông tin có chất lượng về một số lĩnh vực, tuy nhiên nó không phải là cơ sở dữ liệu lớn nhất. Thư viện ảo này được sắp xếp theo trật tự chữ cái, theo chủ đề và cũng có máy tìm kiếm riêng. + Cổng thông tin về xe hơi http://www.cars.com Cung cấp thông tin về thị trường ô tô kỹ thuật số hàng đầu tạo ra các kết nối có ý nghĩa giữa người mua và người bán. Ra mắt vào năm 1998 và có trụ sở tại Chicago, công ty trao quyền cho người tiêu dùng với nguồn lực và thông tin để đưa ra quyết định mua hàng xung quanh The 4Ps của Automotive Marketing ™: Sản phẩm, Giá cả, Địa điểm và Người, bằng cách kết nối các đối tác quảng cáo với người mua xe trong thị trường và cung cấp dữ liệu -thông minh thông minh để tăng lượt hàng tồn kho và giành thị phần. Là nhà tiên phong trong lĩnh vực phân phối ô tô trực tuyến, công ty đã phát triển thành một trong những nền tảng ô tô kỹ thuật số lớn nhất, kết nối hàng ngàn đại lý địa phương trên toàn quốc với hàng triệu người tiêu dùng. + AOL http://www.aol.com Danh mục tìm kiếm theo chủ đề được liệt kê cho phép người dùng lựa chọn để tìm kiếm thuộc nhiều lĩnh vực khác nhau từ: Xu hướng, tin tức, giải trí, công nghệ, thể thao, phong cách sống, tài chính... 1.3. Khái quát về máy tìm kiếm trên Internet 1.3.1. Khái niệm và nhiệm vụ của các máy tìm kiếm Internet và World Wide Web có đến hàng trăm triệu website có sẵn mang các thông tin về nhiều chủ đề khác nhau. Tuy nhiên hầu hết chúng đều được đặt tiêu đề theo ý thích của tác giả và được lưu trữ trên máy chủ 15
  16. với các tên khó hiểu. Khi người tìm kiếm cần biết về một chủ đề nào thì sẽ phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đề này và họ sẽ sử dụng một máy tìm kiếm trên Internet (Internet search engine). Như vậy máy tìm kiếm là gì? Máy tìm kiếm (Search engine) trên Internet là các website đặc biệt, được thiết kế để giúp mọi người tìm kiếm thông tin được lưu trên các site khác nhau. Có nhiều cách khác nhau để thực hiện các tìm kiếm này, nhưng tất cả chúng đều thực hiện ba nhiệm vụ cơ bản: + Tìm kiếm Internet hoặc chọn các mẩu thông tin trên Internet dựa trên các từ hoặc cụm từ quan trọng. + Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng. + Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó. Các máy tìm kiếm trên Internet trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường nhận có thể một hoặc hai nghìn yêu cầu tìm kiếm mỗi ngày. Ngày nay, cỗ máy tìm kiếm hàng đầu đánh chỉ mục hàng trăm triệu trang web và đáp trả đến hàng chục triệu yêu cầu mỗi ngày. 1.3.2. Các bộ phận cấu thành và nguyên tắc hoạt động của máy tìm kiếm Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm kiếm của họ trên Web hay hoạt động của các máy tìm kiếm ra sao, chính vì vậy mà công việc tìm kiếm không đạt được hiệu quả như mong muốn. Máy tìm kiếm được cấu thành bởi ba bộ phận cơ bản, cả ba bộ phận này có sự độc lập tương đối với nhau về mặt hoạt động, nhưng lại có sự gắn kết với nhau, phụ thuộc lẫn nhau về mặt dữ liệu. + Bộ phận đầu tiên – robot hay còn được gọi là bộ thu thập thông tin Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu một cách đệ quy để nhận về tất cả tài liệu có liên kết với tài liệu này. Robot được biết đến dưới nhiều tên gọi khác nhau: spider, web wanderer hoặc web worm,… Những tên gọi này đôi khi gây nhầm lẫn, như từ “spider”, “wanderer” làm người ta nghĩ rằng robot tự nó di chuyển và từ “worm” làm người ta liên tưởng đến virus. Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site 16
  17. theo đúng giao thức web. Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người. Vậy cách spider thực hiện công việc của nó trên Web như thế nào? Điểm khởi đầu là danh sách các máy chủ và trang web phổ biến. Spider sẽ bắt đầu với một site phổ biến nào đó, đánh chỉ mục các từ trên trang của nó và theo các liên kết tìm thấy bên trong site này. Theo cách này, hệ thống Spider sẽ nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của web. Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép người dùng trực tuyến có thể tìm các trang mong muốn. + Bộ phận thứ hai – Index hay còn được gọi là bộ lập chỉ mục Khi Spider đã hoàn tất nhiệm vụ tìm thông tin trên các trang web (lưu ý rằng đây là nhiệm vụ không bao giờ hoàn tất vì luôn có sự thay đổi của các trang nên điều đó có nghĩa là Spider sẽ luôn thực hiện nhiệm vụ của nó), cỗ máy tìm kiếm phải lưu các thông tin này theo một cách nào đó để có lợi nhất. Có hai thành phần chính liên quan tới việc tạo dữ liệu đã thu thập được để có thể truy cập với người dùng: - Thông tin được lưu với dữ liệu. - Phương pháp, cách thức đánh chỉ mục thông tin. Tóm lại, hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu sẽ thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả. Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nào. + Bộ phận thứ ba –Bộ tìm kiếm thông tin Bộ tìm kiếm thông tin tương tác với người dùng thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả mãn yêu cầu của người dùng. Nói cách khác, tìm kiếm từ khóa là tìm kiếm các trang mà những từ khóa trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo từ a, an, the,…). Trang web nào mà chứa đựng càng nhiều từ khóa trong truy vấn của người dùng thì 17
  18. trang đó càng được bộ tìm kiếm thông tin lựa chọn để trả về cho người dùng. Và một trang chứa tất cả các từ khóa trong câu truy vấn của người dùng thì tốt hơn một trang không chứa hoặc chỉ chứa một số từ khóa trong câu truy vấn đó. Ngày nay, hầu hết các bộ tìm kiếm thông tin của các máy tìm kiếm đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề, đoạn văn bản giới thiệu về trang web,… Ngoài chiến lược tìm chính xác theo từ khoá, hiện nay các bộ tìm kiếm thông tin của các máy tìm kiếm còn cố gắng hiểu ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ. Ví dụ: máy tìm kiếm sẽ tìm những từ như speaker, speaking, spoke khi người dùng nhập vào từ speak. Nguyên tắc hoạt động của các máy tìm kiếm: Hình 1.2: Quy trình hoạt động của Search Engine Các máy tìm kiếm điều khiển robot đi thu thập thông tin trên mạng Internet thông qua các siêu liên kết (hyperlink). Khi robot phát hiện ra một site mới, nó gửi tài liệu (web page) về cho máy chủ chính của máy tìm kiếm để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm 18
  19. thông tin. Bởi vì thông tin trên mạng luôn thay đổi nên robot phải liên tục cập nhật lại các site cũ. Mật độ cập nhật phụ thuộc vào từng hệ thống của máy tìm kiếm. Khi bộ tìm kiếm thông tin nhận câu truy vấn từ người dùng thông qua giao diện web của máy tìm kiếm, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục của máy tìm kiếm và trả về những tài liệu thoả mãn yêu cầu. 1.3.3. Phân loại các máy tìm kiếm và cách sử dụng tương ứng với từng loại máy tìm kiếm Đối với tìm kiếm thông tin trên Internet, người dùng phải biết sử dụng các máy tìm kiếm chung. Có hai loại máy tìm kiếm chung thông dụng và phổ biến nhất hiện nay đó là máy tìm kiếm toàn bộ văn bản và máy tìm kiếm theo chỉ mục chủ đề. a. Các máy tìm kiếm toàn bộ văn bản Những máy tìm kiếm toàn bộ văn bản là những máy tìm kiếm cố gắng chỉ rõ toàn bộ nội dung của một trang Web. Công việc đó bao gồm tiêu đề, URL và nội dung trang. (Các máy tìm kiếm thông thường không thường xuyên làm công việc này bởi vì trong thực tế có rất nhiều các máy tìm kiếm giới hạn số lượng kết quả tìm kiếm của một trang mà nó sẽ chỉ ra. Với Google chẳng hạn, sẽ chỉ chỉ ra 101000 kết quả của một trang mà không quan trọng là trang đó lớn bao nhiêu.). b. Máy tìm kiếm theo chỉ mục chủ đề (searchable subject indexes) Những máy tìm kiếm theo chỉ mục chủ đề được không làm công việc chỉ rõ toàn bộ nội dung của một site. Thay vào đó là tên và URL của một site và thông thường là một sự mô tả ngắn gọn nào đó, được bao gồm (chứa đựng) trong một tập hợp của các chủ đề khác nhau. Những máy tìm kiếm theo chỉ mục chủ đề có thể thực hiện tìm kiếm rất tốt, chẳng hạn như: Yahoo, ODP. Trong thực tế, một máy tìm kiếm thường là tập hợp của cả hai loại, chẳng hạn như Google là một máy tìm kiếm toàn bộ văn bản có một thành phần tìm kiếm theo chỉ mục chủ đề được gọi là Thư mục Google. Yahoo là một máy tìm kiếm theo chỉ mục chủ đề có tùy chọn để tìm kiếm như một máy tìm kiếm toàn bộ văn bản. Nhưng chủ yếu, Google được biết đến như là một máy tìm kiếm toàn bộ văn bản và Yahoo được biết như một chỉ số phụ thuộc tìm kiếm được. 19
  20. c. Cách tìm kiếm tương ứng với từng loại máy tìm kiếm Những máy tìm kiếm toàn bộ văn bản được xem là tốt khi mà đáp ứng được yêu cầu của người dùng về tìm kiếm những kiểu thông tin phân biệt rõ ràng. Chẳng hạn, những lời trích dẫn, lời bài hát (lyrics), những địa chỉ, những người không nổi tiếng, những nơi ít được biết đến hay những câu hỏi phức tạp. Những máy tìm kiếm theo chỉ mục chủ đề không chứa đựng đủ thông tin về những trang Web để trả lời những loại câu hỏi này. Mặt khác, những hạn chế của máy tìm kiếm theo chỉ mục chủ đề làm cho chúng trở nên rất hữu ích cho việc thực hiện sự tìm kiếm các thông tin có tính phổ biến. Đôi khi việc tìm kiếm bằng một máy tìm kiếm theo chỉ mục chủ đề giúp người dùng tìm thấy tài liệu đầy đủ sau đó người dùng sử dụng một máy tìm kiếm toàn bộ văn bản để tìm thấy các thông tin đặc biệt, đặc thù hơn. Hai kiểu máy tìm kiếm làm việc hài hòa cùng nhau, cung cấp cho người dùng biết cách thức sử dụng kiểu máy nào khi tìm kiếm một thông tin cần thiết. Về cơ bản, để sử dụng bất kỳ một máy tìm kiếm nào, người dùng phải tiến hành theo hai bước sau đây: Bước 1: Mở cửa sổ giao diện web của các máy tìm kiếm. Người dùng sử dụng trình duyệt để truy cập vào địa chỉ web của máy tìm kiếm mà mình muốn sử dụng. Ví dụ: Truy cập vào máy tìm kiếm yippy.com Hình 1.3: Hướng dẫn tìm kiếm – Bước 1 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
6=>0