
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Long
BÁO CÁO THỰC TẬP TỐT NGHIỆP
PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP
TIẾNG VIỆT
Ngành:
Công
nghệ
thông tin
Cán bộ hướng dẫn: TS. Trương Anh Hoàng
Nơi thực tập: Công ty Nhất Thái Dương iSolar
Hà Nội, tháng 9/2012

Lời cảm ơn
Lời đầu tiên em xin chân thành cảm ơn đến quý Thầy, Cô trường ĐH Công Nghệ -
ĐH Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, truyền đạt những kiễn thức bổ
ích cho em, đó chính là những nền tảng cơ bản, là những hành trang vô cùng quý giá, là
buốc đầu tiên cho em bước vào sự nghiệp sau này trong tương lai. Đặc biệt là Tiến sĩ
Trương Anh Hoàng người đã tận tình, quan tâm giúp đỡ em trong suốt quá trình em tham
gia thực tập. Thầy đã giải đáp những thắc mắc khó khăn mà em đã gặp phải. Nhờ đó, em
mới có thể hoàn thành được báo cáo thực tập chuyên ngành này.
Bên cạnh đó, em cũng xin được gởi lời cảm ơn chân thành tới Giám đốc, các anh
chị trong Công ty Nhất Thái Dương iSolar đã tạo cơ hội giúp em có thể tìm hiểu rõ về
môi trường làm việc thực thế của một doanh nghiệp mà ngồi trên ghế nhà trường em
chưa được biết. Em xin chân thành cảm ơn anh Vũ Tất Thắng giám đốc của công ty, mặc
dù rất bận rộn với công việc nhưng vẫn dành thời gian chỉ bảo, hướng dẫn, tạo mọi điều
kiện thuận lợi nhất để em có thể tìm hiểu và thu thập thông tin phục vụ cho báo cáo này.
Trong quá trình thực tập và làm báo cáo, vì kinh nghiệm thực tế chưa có, chỉ dựa
vào lý thuyết cùng với thời gian hạn hẹp nên báo cáo này không thể tránh những sai sót.
Kính mong nhận được sự góp ý, nhận xét từ phía quý Thầy, Cô cũng như các anh chị
trong Công ty để kiến thức của em càng hoàn thiện hơn và rút ra được những kinh
nghiệm bổ ích để có thể áp dụng vào thực tiễn một cách hiệu quả nhất trong tương lai.
Em xin chân thành cảm ơn!
Sinh viên
Nguyễn Duy Long

Lời mở đầu
Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên
thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ
liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc
“understanding text” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ
thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở
thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu
khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới
đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm. Tuy
nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều
hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng
Việt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…).
Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp,
có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các
pha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vai
trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu
phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời.
Trong bài viết báo cáo thực tập em đã thực hiện nghiên cứu các phương pháp xây
dựng hệ thống hỏi đáp và phân tích câu hỏi đang được quan tâm hiện nay, từ đó đưa ra
phương pháp phân tích câu hỏi phù hợp nhất (trên cơ sở các nguồn tài nguyên ngôn
ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu này có thể coi là tiền
đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng
Việt.

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP
1 Giới thiệu.
Thực tập tốt nghiệp là một giai đoạn quan trọng đối viên sinh viên năm cuối, đặc
biệt là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm và
kỹ năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng hơn khi đi
vào công việc thực tế đầy áp lực. Với ý nghĩa thực tiễn đó, được sự cho phép của nhà
trường, tôi đã may mắn được là sinh viên thực tập tại Công ty Nhất Thái Dương iSolar,
một công ty chuyên gia công phần mềm cho ngành giáo dục. Với thời gian thực tập
khoảng 2 tháng, nhưng nó đã đem lại cho tôi nhiều kinh nghiệm và kỹ năng trong công
việc, cũng như nghiên cứu. Tôi được tham gia làm nghiên cứu về vấn đề xử lý ngôn ngữ
tự nhiên Natural Language Processing. Cùng với những sinh viên thực tập khác và với sự
hướng dẫn tận tình của TS. Vũ Tất Thắng, phần nghiên cứu NLP hiện nay đã khá hoàn
chỉnh như những mục tiêu đề ra.
Tên công ty thực tập
Nhất Thái Dương iSolar
Địa chỉ
Phòng 1504, 671 đường Hoàng Hoa Thám
Thời gian
01/07/2012 – 01/09/2012
Cán bộ trực tiếp quản lý
TS. Vũ Tất Thắng
Đề tài nghiên cứu
Natural Language Processing
Vị trí thực tập
Research

2 Công ty Nhất Thái Dương iSolar.
Được sự thông qua của Hội đồng Khoa học Ban Quản lý Khu Công nghệ cao
Hoà Lạc, ngày 31/05/2011, nhóm Giải pháp sáng tạo và Nghiên cứu tiên tiến Nhất
Thái Dương (iSolar) đã chính thức tham gia vào hoạt động ươm tạo tại Trung tâm
Ươm tạo doanh nghiệp công nghệ cao. Nhóm ISOLAR do TS Vũ Tất Thắng,Viện
CNTT-Viện KHCN Việt Nam làm trưởng nhóm, hoạt động trong lĩnh vực công
nghệ thông tin với sản phẩm đang nghiên cứu triển khai là hệ thống Speech
translation.
Hiện nay nhóm ISOLAR đã phát triển thành Công ty Nhất Thái Dương
iSolar với mục tiêu tạo ra các sản phẩm chuyên nghiệp cho ngành giáo dục Việt
Nam. Đây là một trong những môi trường rất tốt dành cho sinh viên công nghệ
thông tin để học hỏi và làm việc trong tương lại. Mục tiêu của công ty là cung cấp
cho nhân viên một môi trường làm việc năng động, thử thách, vui nhộn, để mỗi
nhân viên thật sự là một “tài sản” quý nhất của công ty, của khách hàng.
3 Đặt vấn đề
Xử lý ngôn ngữ tự nhiên hiện đang là một lĩnh vực rất được quan tâm trong các
hướng nghiên cứu và phát triển, không chỉ ở khía cạnh giao tiếp của con người mà ở một
vài khía cạnh khác, nó còn là một phần trong các thể hiện hiểu biết và tri thức của con
người. Xử lý ngôn ngữ tự nhiên là hướng tiếp cận máy tính hóa nhằm phân tích văn bản
dựa trên cả lý thuyết và công nghệ. Có thể định nghĩa: “xử lý ngôn ngữ tự nhiên là học
thuyết thúc đẩy sự phát triển các công nghệ tính toán khác nhau phục vụ cho việc phân
tích và biểu diễn các văn bản. Việc phân tích và biểu diễn văn bản có thể được thực hiện
ở một hoặc một vài mức độ khác nhau nhằm xử lý ngôn ngữ của con người từ dạng tự
nhiên thành các định dạng nhất định cho từng công việc hoặc ứng dụng cụ thể”.