
LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM
THÔNG TIN TRÊN INTERNET

Chương I : Giới thiệu sản phẩm
- 1 -
MỤC LỤC
CHƯƠNG I : GIỚI THIỆU SẢM PHẨM…………………………………………1
I.1. MỞ
ĐẦU………………………………………………………………………………….1
I.2. MỘT VÀI VÍ DỤ ỨNG
DỤNG………………………………………………………2
CHƯƠNG II : LÝ THUYẾT CHUNG……………………………………………...3
II.1. PHÂN LOẠI NGUỒN THÔNG
TIN……………………………………………….3
II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường
xuyên………………………………………………………………………
……….….4
II.1.2. Các trang Web thông tin có cấu trúc không được cập nhật thường
xuyên………………………………………………………………………
.5
II.1.3. Các trang Web thông tin có cấu trúc lỏng lẻo……………………….…6
II.2.
WEBMINING……………………………………………………………………………6
II.2.1. Thu thập thông tin (Information Retrieval) …………………..7
II.2.2. Bóc tách thông tin (Information Extraction) ………………….7
II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) …………..8
II.2.4. Phân
tích………………………………………………………………….…8
II.3.
XLM……………………………………………………………………………………..
…8
CHƯƠNG III : NGHIÊN CỨU GIẢI PHÁP…………………………………….10
III.1. THU THẬP THÔNG
TIN………………………………………………………….11
III.1.1.Các loại
URL……………………………………………………………..11
III.1.2. Giải pháp sử
lý………………………………………………………...12
III.2. BÓC TÁCH THÔNG
TIN………………………………………………..12
III.2.1. Quy luật dùng để bóc tách thông tin…………………………..20
III.2.2. Phương án kỹ
thuật…………………………………………………..24
III.2.3. Kênh tin và kênh tin đa
thức………………………………………29
III.3. HIỆN THỰC HOÁ GIẢI
PHÁP…………………………………………………..31
III.3.1. Khả năng tương tác người và máy trong quá trình tạo kênh
tin…………………………………………………………………………
……33

Chương I : Giới thiệu sản phẩm
- 2 -
III.3.2. Các chức năng khác của hệ thống………………………………35
III.4. KHẢ NĂNG ỨNG DỤNG VÀ MỞ
RỘNG………………..……………………36
CHƯƠNG IV : SO SÁNH VỚI CÁC HỆ THỐNG KHÁC………………………37
CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH………………….38
V.1. YÊU CẦU HỆ
THỐNG………………………………………………………..…...38
V.2. CHỌN KÊNH
TIN………………………………………………………….………...39
V.3.LẤY THÔNG TIN VỀ CÁC BÀI
BÁO……………………………………………..40
V.4. XEM BÁO TRỰC TUYẾN
…………………………………………………………..41
V.5. XEM CÁC BÀI BÁO ĐÃ
LƯU………………………………………………………42
V.6. CHỈNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI
BÁO……………………….43
V.7. TÌM KIẾM BÀI
BÁO………………………………………………………………….43
V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN
MỚI…………………………………….44
CHƯƠNG VI : KẾT LUẬN…………………………………………………………44
CHƯƠNG I
G
GI
IỚ
ỚI
I
T
TH
HI
IỆ
ỆU
U
S
SẢ
ẢN
N
P
PH
HẨ
ẨM
M
Tên sản phẩm
Ứng dụng của sản phẩm
I.1.MỞ ĐẦU
Bạn đã bao giờ tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người đều có
đầy đủ thông tin, riêng bạn lại không có những thông tin cần thiết thì cuộc sống sẽ ra
sao chưa?
Hơn mọi thứ khác, nhu cầu truyền tải thông tin vượt qua thời gian và không gian
luôn được nhân loại chú ý tới, từ những tiếng trống của thổ dân Châu Phi cho tới những
thông điệp điện tử đang được truyền đi với tốc độ ánh sáng trên khắp địa cầu. Không
cần đến tận nơi, bạn vẫn có thể biết ở cách xa hàng ngàn dặm đang diễn ra chuyện gì,

Chương I : Giới thiệu sản phẩm
- 3 -
không cần phải gặp mặt, những người bạn ở hai nửa địa cầu vẫn có thể trao đổi thông
tin với nhau, ... Internet đã đưa thông tin tới mọi nhà.
Thế nhưng, hãy thử tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người
đều có đầy đủ những thông tin mà mình cần, còn riêng bạn lại ngập lụt trong một biển
thông tin nhiều đến nỗi không sao xử lý hết được thì sẽ thế nào?
Càng ngày bạn càng cần phải thu thập thông tin ở nhiều lĩnh vực cùng một lúc
và đã bao giờ bạn phát chán lên vì không biết phải làm gì khi có quá nhiều thông tin
chưa? Đã bao giờ bạn cảm thấy chán ngán khi trong tay mình có danh sách của hàng
chục, hàng trăm tờ báo điện tử, diễn đàn, search engine, rồi các website thông tin về đủ
mọi lĩnh vực, nhưng lại không thể đủ thời gian để cập nhật dù chỉ là lướt qua hết các
nguồn tin này chưa? Có thể có và cũng có thể là chưa.
Hệ thống của tôi ra đời với một tiêu chí vô cùng đơn giản “Mang lại cho người
sử dụng thông tin và chỉ những thông tin mà họ cần”. Thông tin bạn cần nhất khi
muốn xem lướt qua các tờ báo điện tử là gì? Có thể chỉ là tiêu đề bài báo và vài dòng
tóm tắt qua nội dung của bài báo đó. Thông tin bạn cần nhất khi lướt qua một diễn đàn
là gì? Có thể chỉ là tên bài viết và tác giả của bài viết đó. Cũng như vậy đối với một
trang Web cung cấp thông tin về giá cả chứng khoán. Bạn cần chỉ số chứng khoán của
các công ty chứ đâu cần phải rối tinh lên vì các thông tin không cần thiết nằm trong
trang Web đó... Nhưng có phải là hệ thống của tôi sẽ chỉ mang đến cho bạn thông tin về
tiêu đề cùng với phần tóm tắt của các tin tức trên rất nhiều các trang báo điện tử trong
và ngoài nước, hay tên bài viết và tác giả của các chủ đề trên rất nhiều các diễn đàn trao
đổi thông tin, hay đơn thuần chỉ là các chỉ số chứng khoán, … không thôi?
Không, tất nhiên không chỉ có vậy, hệ thống của tôi được xây dựng như là một
giải pháp tổng quát để thu thập và tách thông tin từ bất cứ nguồn tin nào trên
Internet. Với sự cố gắng nỗ lực hết mình trong phạm vi giới hạn của kiến thức, tôi cũng
đã cung cấp cho bạn một cơ chế tương tác trực quan giữa người và máy để xác định
thông tin cần bóc tách mà ngay cả những hệ thống có chức năng tương tự như Novobot,
WebFerret hay Copernic cũng rất khó khăn hay hầu như không thể cung cấp cho bạn
được. Tính khả mở của hệ thống đã được chuyển giao từ những người tạo ra hệ thống
vào tay người sử dụng. Hệ thống của tôi giờ đây đã cung cấp đầy đủ các chức năng để
bạn có thể thu thập và tách các thông tin từ bất cứ nguồn tin nào và việc quyết định cần
thu thập những thông tin gì là tùy vào chính bạn chứ không còn cứng nhắc như các
hệ thống trước đây nữa.
Hãy để công việc thu thập thông tin lại trở nên dễ dàng và tiện dụng cùng với hệ
thống của tôi cho dù trước mắt bạn là một biển thông tin hỗn độn và khổng lồ như
Internet .
I.2.MỘT VÀI VÍ DỤ ỨNG DỤNG
Đặc điểm nổi bật nhất là hệ thống của tôi có tính mở rất cao. Những thông tin
mà hệ thống mang lại cho bạn chỉ phụ thuộc vào ý muốn của chính bạn chứ không bị
gò bó trong một phạm vi nhất định nào đó như là những chương trình tương tự khác. Có
thể ra một vài ứng dụng nhỏ sau đây :

Chương I : Giới thiệu sản phẩm
- 4 -
Nếu bạn là người hay quan tâm đến những tin tức nóng hổi về kinh tế, chính trị,
thể thao, ... hãy sử dụng chương trình của tôi để tạo ra các kênh tin kết nối đến các trang
báo điện tử ở khắp nơi trên thế giới, và bạn sẽ có đầy đủ những thông tin mà mình cần.
Việc đọc lướt qua các tiêu đề tin tức từ các bài báo sau khi đã được thu thập và phân
chia thành các chủ đề khác nhau, rồi mới quyết định xem chi tiết bài báo nào sẽ giúp
bạn có một cái nhìn tổng quát hơn, nhanh chóng và tiết kiệm thời gian, tiền bạc hơn so
với việc phải dùng trình duyệt đi tới từng trang web, vào từng chủ đề, xem tiêu đề tin,...
rồi mới tới được nội dung bài viết.
Nếu bạn là một doanh nghiệp cần quan tâm đến những tin tức về kinh tế, về thị
trường, về những mặt hàng bạn đang kinh doanh, hay nếu bạn là một người làm công
tác nghiên cứu đang cần những thông tin, số liệu liên quan đến lĩnh vực chuyên môn
của mình, hay nếu bạn là một nhà báo đang cần những tin tức "thời sự" nhất để viết bài,
.... thì tại sao lại không thử sử dụng hệ thống của tôi, tất cả những gì bạn cần hệ thống
của tôi sẽ giúp bạn có.
Nếu bạn cần tìm kiếm thông tin, chương trình của tôi sẽ giúp bạn cùng một lúc
kết nối đến nhiều trang tìm kiếm khác nhau trên thế giới, gửi yêu cầu, phân tích kết quả
rồi trả lại cho bạn những thông tin bạn cần tìm.
Nếu bạn muốn thu thập, tổng hợp lại số liệu từ một trang web trên mạng (ví dụ
như danh sách các thí sinh trúng tuyển đại học chẳng hạn), hay cần lấy về chỉ một số
thông tin nhất định nào đó thôi, ví dụ như tên nhạc sĩ sáng tác và lời bài hát tương ứng
từ một site về lyrics nào đó để tổng hợp lại thành cơ sở dữ liệu của riêng bạn, ... mà bạn
đang băn khoăn không biết nên làm thế nào để có thể thực hiện công việc này một cách
nhanh chóng và ít tốn công sức nhất ... thì hệ thống của tôi chính là một công cụ mà bạn
đang cần đấy.
Ngoài ra còn có thể kể đến rất nhiều ứng dụng khác nữa. Hệ thống này có thể
được ứng dụng vào trong những công việc gì thì điều đó chỉ phụ thuộc vào khả năng
sáng tạo của chính bạn mà thôi.
CHƯƠNG II
L
LÝ
Ý
T
TH
HU
UY
YẾ
ẾT
T
C
CH
HU
UN
NG
G
Các loại nguồn thông tin trên Web
Các tác vụ Web-mining, lý thuyết và thực tế
Ngôn ngữ XML, khả năng và thực tế
Chúng ta đã thật sự có thông tin mình mong đợi chưa?
II.1.PHÂN LOẠI NGUỒN THÔNG TIN
Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt
của Internet mà tiêu biểu là các trang thông tin. Sự phát triển này đã có một ảnh hưởng
không nhỏ tới nền kinh tế và xã hội không chỉ của riêng một quốc gia mà là cả thế giới.