ĐẠI HỌC QUC GIA HÀ NI
TRƯỜNG ĐẠI HỌC CÔNG NGH

Nguyễn Duy Long
BÁO CÁO THỰC TẬP TỐT NGHIỆP
PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP
TIẾNG VIỆT
Ngành:
Công
nghệ
thông tin
Cán bhướng dn: TS. Trương Anh Hoàng
Nơi thực tập: Công ty Nhất Thái Dương iSolar
Hà Nội, tháng 9/2012
Lời cảm ơn
Lời đầu tiên em xin chân thành cảm ơn đến quý Thầy, Cô trường ĐH Công Nghệ -
ĐH Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, truyền đạt những kiễn thc bổ
ích cho em, đó chính những nền tảng bản, những hành trang cùng quý giá,
buốc đầu tiên cho em ớc vào sự nghiệp sau này trong tương lai. Đặc biệt Tiến
Trương Anh Hoàng người đã tận tình, quan tâm giúp đỡ em trong suốt quá trình em tham
gia thực tập. Thầy đã giải đáp nhng thắc mắc khó khăn em đã gặp phải. Nhờ đó, em
mới có thể hoàn thành được báo cáo thực tập chuyên ngành này.
Bên cạnh đó, em cũng xin được gởi lời cảm ơn chân thành tới Giám đốc, các anh
chị trong Công ty Nhất Thái Dương iSolar đã tạo hội giúp em thể tìm hiểu về
môi trường làm việc thực thế của một doanh nghiệp mà ngồi trên ghế nhà trường em
chưa được biết. Em xin chân thành cảm ơn anh Vũ Tất Thắng giám đốc của công ty, mặc
rất bận rộn với công việc nhưng vẫn dành thời gian chỉ bảo, hướng dẫn, tạo mọi điều
kiện thuận lợi nhất để em có thể tìm hiểu và thu thập thông tin phục vụ cho báo cáo này.
Trong quá trình thc tập m báo cáo, kinh nghiệm thực tế chưa có, chỉ dựa
vào thuyết cùng với thời gian hạn hẹp nên báo cáo này không thtránh những sai sót.
Kính mong nhận được s góp ý, nhận xét từ phía quý Thầy, cũng như các anh chị
trong Công ty để kiến thức của em càng hoàn thiện hơn rút ra được những kinh
nghiệm bổ ích để có thể áp dụng vào thực tiễn một cách hiệu quả nhất trong tương lai.
Em xin chân thành cảm ơn!
Sinh viên
Nguyễn Duy Long
Lời m đầu
Nghn cứu v h thống hỏi đáp t động (Q&A) đã được quan m t rt u trên
thế gii. Ngay t nhng năm 1960, các h thống hỏi đáp đầu tiên s dụng cơ s d
liu đã được ra đời. Đến nhng năm 1970-1980, rt nhiu d án ln hướng đến việc
understanding text và xây dng h thống hỏi đáp dựa trên các hình ngôn ngữ
thống kê. Cuối những năm 1990, World Wide Web ra đời phát triển nhanh chóng trở
thành mt kho ng liu khổng l. c nhà nghn cu v h thống hi đáp cũng bt đầu
khai thác web như mt ngun d liu cho việc m kiếm u tr li. c kĩ thuật mi
đòi hỏi tc độ cao, kh năng x ng d liu web ln đang rt đưc quan m. Tuy
nhiên c nghiên cu v xây dng h thống hỏi đáp cho tiếng Việt vn n rt nhiều
hn chế. Một trong nhng do chính chúng ta còn thiếu c công c x tiếng
Việt, các tài nguyên ngôn ng học (Wordnet [28], ontology [30]…).
Phân tích u hỏi pha đầu tn trong kiến trúc chung ca mt h thống hỏi đáp,
nhiệm v tìm ra các thông tin cn thiết m đầu vào cho quá trình x ca c
pha sau (trích chọn tài liu, trích xut u tr li, …). vy phân tích câu hỏi vai
trò hết sức quan trọng, nh hưởng trực tiếp đến hot động ca toàn b h thống. Nếu
phân ch câu hỏi không tt thì s không th tìm ra được u trli.
Trong bài viết báo cáo thực tập em đã thc hin nghn cu c phương pháp xây
dng h thống hi đáp phân ch câu hỏi đang được quan m hin nay, t đó đưa ra
phương pháp phân ch câu hỏi phù hp nht (trên scác ngun tài nguyên ngôn
ng sẵn có) cho h thống hi đáp tiếng Việt. Những nghn cứu này th coi tin
đề cho c nghiên cứu tiếp theo để xây dng một hthống hỏi đáp hoàn thin cho tiếng
Việt.
CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP
1 Gii thiu.
Thực tập tốt nghiệp một giai đoạn quan trọng đối viên sinh viên m cuối, đặc
biệt là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm và
kỹ năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng n khi đi
vào công việc thực tế đầy áp lực. Với ý nga thực tiễn đó, được sự cho phép của nhà
trường, tôi đã may mắn được sinh viên thực tập tại Công ty Nhất Thái Dương iSolar,
một công ty chuyên gia công phần mềm cho ngành giáo dục. Với thời gian thực tập
khoảng 2 tháng, nhưng đã đem lại cho tôi nhiều kinh nghiệm kỹ năng trong công
việc, cũng như nghiên cứu. Tôi được tham gia làm nghiên cứu về vấn đề xử lý ngôn ngữ
tự nhiên Natural Language Processing. Cùng với những sinh viên thực tập khác và với s
hướng dẫn tận tình của TS. Tất Thắng, phần nghiên cứu NLP hiện nay đã khá hoàn
chỉnh như những mục tiêu đề ra.
Tên công ty thực tập
Nhất Thái Dương iSolar
Địa chỉ
Phòng 1504, 671 đường Hoàng Hoa Thám
Thời gian
01/07/2012 01/09/2012
Cán bộ trực tiếp quản
TS. Vũ Tất Thắng
Đề tài nghiên cứu
Natural Language Processing
Vị trí thực tập
Research
2 Công ty Nhất Thái Dương iSolar.
Được sự thông qua của Hội đồng Khoa học Ban Quản lý Khu Công nghệ cao
Hoà Lạc, ngày 31/05/2011, nhóm Giải pháp sáng tạo Nghiên cứu tiên tiến Nhất
Thái Dương (iSolar) đã chính thức tham gia vào hoạt động ươm tạo tại Trung m
Ươm tạo doanh nghiệp công nghệ cao. Nhóm ISOLAR do TS Tất Thắng,Viện
CNTT-Viện KHCN Việt Nam làm trưởng nhóm, hoạt động trong lĩnh vực công
nghệ thông tin với sản phẩm đang nghiên cứu triển khai hệ thống Speech
translation.
Hiện nay nhóm ISOLAR đã phát triển thành Công ty Nhất Thái Dương
iSolar với mục tiêu tạo ra các sản phẩm chuyên nghiệp cho ngành giáo dục Việt
Nam. Đây một trong những môi trường rất tốt dành cho sinh viên công nghệ
thông tin để học hỏi và m việc trong tương lại. Mục tiêu của công ty cung cấp
cho nhân viên một môi trường m việc năng động, thử thách, vui nhộn, để mỗi
nhân viên thật sự là một tài sản” quý nhất của công ty, của khách hàng.
3 Đặt vấn đề
Xử ngôn ngữ tự nhiên hiện đang một nh vực rất được quan m trong các
hướng nghiên cu và phát triển, không chỉ khía cạnh giao tiếp của con người mà mt
vài khía cạnh khác, còn một phần trong các thể hiện hiểu biết tri thức của con
người. Xử ngôn ngtự nhiên hướng tiếp cận máy tính hóa nhằm phân tích văn bản
dựa trên cả thuyết và ng nghệ. thể định nghĩa: xử ngôn ngữ tnhiên học
thuyết thúc đẩy sphát triển các công nghệ nh toán khác nhau phục vụ cho việc phân
tích và biểu diễn các văn bản. Việc phân tích biểu diễn văn bản có thể được thực hiện
một hoặc một vài mức độ khác nhau nhằm xử ngôn ng của con nời tdạng t
nhiên thành các định dạng nhất định cho từng công việc hoặc ứng dụng cụ thể”.