LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM
THÔNG TIN TRÊN INTERNET
Chương I : Giới thiệu sản phẩm
- 1 -
MỤC LỤC
CHƯƠNG I : GIỚI THIỆU SẢM PHẨM…………………………………………1
I.1. M
ĐẦU………………………………………………………………………………….1
I.2. MỘT VÀI VÍ DỤ ỨNG
DNG………………………………………………………2
CHƯƠNG II : LÝ THUYẾT CHUNG……………………………………………...3
II.1. PHÂN LOẠI NGUỒN THÔNG
TIN……………………………………………….3
II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường
xuyên………………………………………………………………………
……….….4
II.1.2. Các trang Web thông tin có cu trúc không được cập nhật thường
xuyên………………………………………………………………………
.5
II.1.3. Các trang Web thông tin có cu trúc lỏng lẻo……………………….…6
II.2.
WEBMINING……………………………………………………………………………6
II.2.1. Thu thập thông tin (Information Retrieval) …………………..7
II.2.2. Bóc tách thông tin (Information Extraction) ………………….7
II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) …………..8
II.2.4. Phân
tích………………………………………………………………….…8
II.3.
XLM……………………………………………………………………………………..
…8
CHƯƠNG III : NGHIÊN CỨU GIẢI PHÁP…………………………………….10
III.1. THU THẬP THÔNG
TIN………………………………………………………….11
III.1.1.Các loại
URL……………………………………………………………..11
III.1.2. Gii pháp sử
lý………………………………………………………...12
III.2. BÓC TÁCH THÔNG
TIN………………………………………………..12
III.2.1. Quy luật dùng để bóc tách thông tin…………………………..20
III.2.2. Phương án k
thuật…………………………………………………..24
III.2.3. Kênh tin và kênh tin đa
thức………………………………………29
III.3. HIỆN THỰC HOÁ GIẢI
PHÁP…………………………………………………..31
III.3.1. Khả năng tương tác người và máy trong quá trình tạo kênh
tin…………………………………………………………………………
……33
Chương I : Giới thiệu sản phẩm
- 2 -
III.3.2. c chức năng khác ca hệ thống………………………………35
III.4. KH NĂNG ỨNG DỤNG VÀ M
RỘNG………………..……………………36
CHƯƠNG IV : SO SÁNH VỚI CÁC HỆ THỐNG KHÁC………………………37
CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH………………….38
V.1. YÊU CẦU HỆ
THỐNG………………………………………………………..…...38
V.2. CHN KÊNH
TIN………………………………………………………….………...39
V.3.LẤY THÔNG TIN VỀ CÁC BÀI
BÁO……………………………………………..40
V.4. XEM BÁO TRỰC TUYẾN
…………………………………………………………..41
V.5. XEM CÁC BÀI BÁO ĐÃ
LƯU………………………………………………………42
V.6. CHNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI
BÁO……………………….43
V.7. TÌM KIẾM BÀI
BÁO………………………………………………………………….43
V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN
MỚI…………………………………….44
CHƯƠNG VI : KẾT LUẬN…………………………………………………………44
CHƯƠNG I
G
GI
I
I
I
T
TH
HI
I
U
U
S
S
N
N
P
PH
H
M
M
Tên sản phẩm
Ứng dụng của sản phẩm
I.1.MỞ ĐẦU
Bạn đã bao giờ tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người đều
đầy đthông tin, riêng bạn lại không những thông tin cần thiết thì cuộc sống sẽ ra
sao chưa?
Hơn mọi thứ khác, nhu cầu truyn tải thông tin vượt qua thời gian và không gian
luôn được nhân loại chú ý tới, từ những tiếng trống của thổ dân Châu Phi cho tới những
thông điệp điện tử đang được truyn đi với tốc độ ánh ng trên khắp địa cầu. Không
cần đến tận nơi, bạn vn có thể biết cách xa hàng ngàn dặm đang diễn ra chuyện gì,
Chương I : Giới thiệu sản phẩm
- 3 -
không cn phi gặp mặt, những người bạn hai nửa địa cầu vẫn thể trao đổi thông
tin vi nhau, ... Internet đã đưa thông tin tới mọi nhà.
Thế nhưng, hãy thởng tượng rằng, nếu một ngày nào đó tất cả mọi người
đều đầy đnhững thông tin mà mình cần, còn riêng bạn lại ngập lụt trong một biển
thông tin nhiều đến ni không sao xử lý hết được thì sẽ thế nào?
Càng ny bạn càng cn phải thu thập thông tin nhiều lĩnh vực cùng mt c
và đã bao gi bạn phát chán lên không biết phi làm gì khi qnhiều thông tin
chưa? Đã bao gibạn cảm thy chán ngán khi trong tay mình danh sách ca hàng
chục, ng trăm tờ báo điện tử, diễn đàn, search engine, rồi các website thông tin về đ
mọi lĩnh vực, nhưng lại không thể đủ thời gian đcập nhật dù chlướt qua hết các
ngun tin y chưa? Có thể có và cũng có thể là chưa.
H thng của tôi ra đời với một tiêu chí cùng đơn giản “Mang lại cho người
sdụng thông tin và chnhững thông tin mà h cần. Thông tin bạn cần nhất khi
muốn xem lướt qua các tờ báo điện tử là gì? thchỉ là tiêu đbài báo vài dòng
tóm tắt qua nội dung của bài báo đó. Thông tin bạn cần nhất khi lướt qua một diễn đàn
gì? thchỉ là tên i viết c gi của bài viết đó. Cũng như vậy đi với một
trang Web cung cấp thông tin về giá cchứng khoán. Bạn cần chsố chứng khoán của
các ng ty chđâu cần phải rối tinh lên các thông tin không cn thiết nằm trong
trang Web đó... Nhưng có phải là hệ thống của tôi sẽ chỉ mang đến cho bạn thông tin về
tiêu đ ng với phần m tắt ca các tin tức trên rất nhiều các trang báo điện tử trong
và ngoài nước, hay tên bài viết và c gi của các chủ đtrên rất nhiều các diễn đàn trao
đổi thông tin, hay đơn thuần chỉ là các chsố chứng khoán, … không thôi?
Không, tất nhiên không ch vy, hthống của i được xây dựng như một
giải pháp tổng quát để thu thp và tách thông tin t bất cứ nguồn tin nào trên
Internet. Với sự cố gắng n lực hết mình trong phạm vi giới hạn của kiến thức, tôi cũng
đã cung cấp cho bạn một chế tương tác trực quan gia người máy đxác định
thông tin cần bóc tách mà ngay c những hệ thng có chức năng tương tnhư Novobot,
WebFerret hay Copernic cũng rất khó khăn hay hầu nkhông thể cung cấp cho bn
được. Tính khả mở của hệ thống đã được chuyển giao từ những người tạo ra hệ thống
vào tay người sử dụng. Hệ thống của tôi giđây đã cung cấp đy đcác chức năng đ
bạn có thể thu thập và tách các thông tin từ bất cứ nguồn tin nào và việc quyết định cần
thu thập những thông tin gì y vào chính bạn chkhông còn cng nhắc như c
hệ thống trước đây nữa.
Hãy để công việc thu thập thông tin lại trở nên dễ dàng và tin dụng cùng với hệ
thng của tôi cho trước mắt bạn là mt biển thông tin hn đn và khổng lồ như
Internet .
I.2.MỘT VÀI VÍ DỤ ỨNG DỤNG
Đặc điểm ni bật nhất là hthống của tôi nh mở rất cao. Những thông tin
mà hệ thống mang lại cho bạn ch phụ thuộc vào ý mun của chính bạn chứ không bị
gò trong một phạm vi nhất định o đó như là những chương trình tương tự khác.
thể ra một vài ng dụng nhỏ sau đây :
Chương I : Giới thiệu sản phẩm
- 4 -
Nếu bạn ngưi hay quan tâm đến những tin tức nóng hi về kinh tế, chính trị,
thể thao, ... hãy s dụng chương trình của tôi để tạo ra các kênh tin kết nối đếnc trang
báo điện tử khắp nơi trên thế gii, và bạn sẽ đầy đ những thông tin mà nh cn.
Vic đọc t qua các tiêu đề tin tức từ các bài báo sau khi đã được thu thập và phân
chia thành các ch đề khác nhau, rồi mới quyết định xem chi tiết bài báo nào sgiúp
bạn một i nhìn tổng quát hơn, nhanh chóng tiết kiệm thời gian, tiền bạc hơn so
với việc phải dùng trình duyệt đi tới từng trang web, vào từng ch đề, xem tiêu đề tin,...
rồi mới tới được nội dung bài viết.
Nếu bạn là mt doanh nghiệp cần quan tâm đến những tin tức về kinh tế, về thị
trường, vnhững mặt hàng bạn đang kinh doanh, hay nếu bạn là mt người làm công
tác nghiên cứu đang cần những thông tin, số liệu liên quan đến lĩnh vực chuyên n
của mình, hay nếu bạn là mt nhà báo đang cần những tin tức "thời sự" nhất để viết bài,
.... thì tại sao li không th sử dụng hệ thống của tôi, tất cả những gì bạn cần hệ thống
của tôi sẽ giúp bạn có.
Nếu bạn cần tìm kiếm thông tin, chương trình ca tôi sẽ giúp bạn cùng mt lúc
kết nối đến nhiều trang tìm kiếm khác nhau trên thế giới, gi yêu cầu, phân tích kết qu
rồi tr lại cho bạn những thông tin bạn cần tìm.
Nếu bạn muốn thu thập, tổng hợp lại số liệu từ một trang web trên mng (ví d
như danh ch các thí sinh trúng tuyển đại học chng hạn), hay cần ly vchỉ một số
thông tin nhất định nào đó thôi, dnhư tên nhạc sáng tác và li bài hát ơng ứng
từ một site về lyrics nào đó để tổng hợp lại thành cơ sở dữ liệu của riêng bạn, ... mà bạn
đang băn khoăn không biết nên làm thế o để ththực hiệnng việc này mt cách
nhanh chóng và ít tn công sức nhất ... thì hệ thng củai chính là mt công cụ mà bạn
đang cần đấy.
Ngoài ra n th kể đến rất nhiều ng dụng khác nữa. Hthống này th
được ứng dụng vào trong nhng ng việc gì thì điều đó chỉ ph thuộc vào khnăng
sáng tạo của chính bạn mà thôi.
CHƯƠNG II
L
LÝ
Ý
T
TH
HU
UY
Y
T
T
C
CH
HU
UN
NG
G
Các loại nguồn thông tin trên Web
Các tác vụ Web-mining, lý thuyết và thực tế
Ngôn ng XML, khả năng và thực tế
Chúng ta đã thật sự có thông tin mình mong đợi chưa?
II.1.PHÂN LOẠI NGUỒN THÔNG TIN
Trong thập k qua, chúng ta đã được chng kiến sự phát triển đến chóng mặt
của Internet mà tiêu biểu là c trang thông tin. S phát triển này đã một ảnh hưởng
không nh tới nền kinh tế và xã hội không chỉ của riêng mt quốc gia mà là cthế giới.