
Đại học Quốc gia Hà Nội
Khoa Công nghệ thông tin
BÁO CÁO ĐỀ TÀI
SINH NGÔN NGỮ TỰ NHIÊN
GVHD: tiến sĩ Lê Anh Cường

BÁO CÁO
SINH NGÔN NGỮ TỰ NHIÊN
Nhóm 8:
Nguyễn Trung Hiếu
Trương Quý Quỳnh
Hoàng Đình Tiến
Giảng viên: Lê Anh Cường
LỜI MỞ ĐẦU
Trong những năm gần đây, công nghệ thông tin phát triển như vũ bão, đóng vai trò
ngày càng quan trọng trong đời sống xã hội.Trí tuệ nhân tạo và đặc biệt là xử lý
ngôn ngữ tự nhiên được nghiên cứu rộng rãi mang lại nhiều ứng dụng quan trọng
trong đời sống. Trong đó sinh ngôn ngữ tự nhiên là một lĩnh vực nổi bật có khả
năng tạo ra những hệ thống đáp ứng người sử dụng như chính ngôn ngữ con người
nó ra. Chính vì những lợi ích to lớn mà nó mang lại, trong bài tập lớn môn xử lý
ngôn ngữ tự nhiên, nhóm 8 đã chọn chủ đề này nhằm làm rõ những kiến thức cơ

bản để xây dựng một hệ thống sinh ngôn ngữ tự nhiên và sử dụng những kiến thức
đã đạt được để xây dựng một chương trình sinh ngôn ngữ tự nhiên về tổng kết và
đánh giá của những người sử dụng điện thoại.
Nhóm 8 xin gửi lời cảm ơn chân thành nhất tới thầy giáo – tiến sĩ Lê Anh Cường,
thầy là giảng viên môn Xử lý ngôn ngữ tự nhiên , Khoa Công nghệ thông tin – Đại
học Công nghệ - Đại học Quốc gia Hà Nội. Trong suốt quá trình thực hiện bài tập
lớn này, thầy đã có những chỉ dẫn tận tình, hết lòng chỉ bảo để cả nhóm có thể
hoàn thành được bài tập lớn này.
MỤC LỤC
Chương I: Tổng quan về sinh ngôn ngữ tự nhiên
1. Bài toán sinh ngôn ngữ tự nhiên
1.1. Khái niệm
1.2. Ứng dụng
Chương II: Cấu trúc hệ thống sinh ngôn ngữ tự nhiên
2. Cấu trúc hệ thống sinh ngôn ngữ tự nhiên
2.1. Document planning
2.1.1. Cấu trúc của document planning
2.1.1.1. Cấu trúc của document planning
2.1.1.2. Nhiệm vụ của document planning

2.1.1.3. Input và Output của document planning
2.1.2. Biểu diễn thông tin
2.1.2.1. Mô hình biểu diễn thông tin
2.1.2.2. Định nghĩa các thông điệp
2.1.2.3. Phương pháp mô hình hóa thông tin và định nghĩa các thông điệp
2.1.2.4. Quyết định nội dung (Content Determination)
2.1.2.5. Thu thập các luật để quyết định nội dung
2.1.3. Cấu trúc văn bản từ các thông điệp
2.1.3.1. Quan hệ diễn ngôn (Discourse Relation)
2.1.3.2. Tiếp cận giản đồ (Schema)
2.2. Micro Planning
2.2.1. Từ vựng hóa (Lexicalisation)
2.2.2. Ghép câu (Sentence Aggregation)
2.3. Trình bày văn bản (Surface Realisation)
Chương III: Thử nghiệm xây dựng hệ thống sinh ngôn ngữ tự nhiên

Chương I: Tổng quan về sinh ngôn ngữ tự nhiên
1. Bài toán sinh ngôn ngữ tự nhiên
1.1. Khái niệm
Sinh ngôn ngữ tự nhiên (Natural Language Generation – viết tắt là NLG) là
một lĩnh vực con của trí tuệ nhân tạo và ngôn ngữ học máy tính liên quan tới việc
xây dựng một hệ thống máy tính có thể sản sinh ra văn bản bằng tiếng Anh hoặc
những ngôn ngữ loài người khác từ những biểu diễn phi ngữ nghĩa của thông tin.
Mục tiêu của hệ thống sinh ngôn ngữ tự nhiên là tạo ra các văn bản có thể
hiểu được bằng ngôn ngữ loài người bởi vậy, nó cần nguồn tri thức từ loại ngôn
ngữ mà hệ thống sử dụng cũng như những kiến thức thuộc lĩnh vực mà hệ thống sẽ
sản sinh. Đầu vào của hệ thống sinh ngôn ngữ tự nhiên là các dạng phi ngữ nghĩa
của thông tin: mẩu tin, bảng biểu, số liệu. Đầu ra là những câu, văn bản có ý nghĩa
nhất định bằng ngôn ngữ con người, chứa thông tin ở đầu vào.
1.2. Ứng dụng
Sinh ngôn ngữ tự nhiên cần thiết trong các hệ thống tương tác người máy, một vài
ứng dụng quan trọng có thể kể đến:
- Ứng dụng sinh ra tài liệu tự động. Ví dụ: dự báo thời tiết, báo cáo mô phỏng,
thư tín,...
- Ứng dụng biểu diễn thông tin tới người dùng bằng cách có thể hiểu được. Ví
dụ: bản ghi y khoa, lập luận hệ thống chuyên gia….