intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

BÁO CÁO ĐỀ TÀI SINH NGÔN NGỮ TỰ NHIÊN

Chia sẻ: Nguyen Duy Long | Ngày: | Loại File: DOCX | Số trang:32

145
lượt xem
34
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong những năm gần đây, công nghệ thông tin phát triển như vũ bão, đóng vai trò ngày càng quan trọng trong đời sống xã hội.Trí tuệ nhân tạo và đặc biệt là xử lý ngôn ngữ tự nhiên được nghiên cứu rộng rãi mang lại nhiều ứng dụng quan trọng trong đời sống. Trong đó sinh ngôn ngữ tự nhiên là một lĩnh vực nổi bật có khả năng tạo ra những hệ thống đáp ứng người sử dụng như chính ngôn ngữ con người nó ra. Chính vì những lợi ích to lớn mà nó mang lại, trong...

Chủ đề:
Lưu

Nội dung Text: BÁO CÁO ĐỀ TÀI SINH NGÔN NGỮ TỰ NHIÊN

  1. Đại học Quốc gia Hà Nội Khoa Công nghệ thông tin BÁO CÁO ĐỀ TÀI SINH NGÔN NGỮ TỰ NHIÊN GVHD: tiến sĩ Lê Anh Cường
  2. BÁO CÁO SINH NGÔN NGỮ TỰ NHIÊN Nhóm 8: Nguyễn Trung Hiếu Trương Quý Quỳnh Hoàng Đình Tiến Giảng viên: Lê Anh Cường LỜI MỞ ĐẦU Trong những năm gần đây, công nghệ thông tin phát triển như vũ bão, đóng vai trò ngày càng quan trọng trong đời sống xã hội.Trí tuệ nhân tạo và đặc biệt là xử lý ngôn ngữ tự nhiên được nghiên cứu rộng rãi mang lại nhiều ứng dụng quan trọng trong đời sống. Trong đó sinh ngôn ngữ tự nhiên là một lĩnh vực nổi bật có khả năng tạo ra những hệ thống đáp ứng người sử dụng như chính ngôn ngữ con người nó ra. Chính vì những lợi ích to lớn mà nó mang lại, trong bài tập lớn môn xử lý ngôn ngữ tự nhiên, nhóm 8 đã chọn chủ đề này nhằm làm rõ những kiến thức cơ
  3. bản để xây dựng một hệ thống sinh ngôn ngữ tự nhiên và sử dụng những kiến thức đã đạt được để xây dựng một chương trình sinh ngôn ngữ tự nhiên về tổng kết và đánh giá của những người sử dụng điện thoại. Nhóm 8 xin gửi lời cảm ơn chân thành nhất tới thầy giáo – tiến sĩ Lê Anh Cường, thầy là giảng viên môn Xử lý ngôn ngữ tự nhiên , Khoa Công nghệ thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội. Trong suốt quá trình thực hiện bài tập lớn này, thầy đã có những chỉ dẫn tận tình, hết lòng chỉ bảo để cả nhóm có thể hoàn thành được bài tập lớn này. MỤC LỤC Chương I: Tổng quan về sinh ngôn ngữ tự nhiên 1. Bài toán sinh ngôn ngữ tự nhiên 1.1. Khái niệm 1.2. Ứng dụng Chương II: Cấu trúc hệ thống sinh ngôn ngữ tự nhiên 2. Cấu trúc hệ thống sinh ngôn ngữ tự nhiên 2.1. Document planning 2.1.1. Cấu trúc của document planning 2.1.1.1. Cấu trúc của document planning 2.1.1.2. Nhiệm vụ của document planning
  4. 2.1.1.3. Input và Output của document planning 2.1.2. Biểu diễn thông tin 2.1.2.1. Mô hình biểu diễn thông tin 2.1.2.2. Định nghĩa các thông điệp 2.1.2.3. Phương pháp mô hình hóa thông tin và định nghĩa các thông điệp 2.1.2.4. Quyết định nội dung (Content Determination) 2.1.2.5. Thu thập các luật để quyết định nội dung 2.1.3. Cấu trúc văn bản từ các thông điệp 2.1.3.1. Quan hệ diễn ngôn (Discourse Relation) 2.1.3.2. Tiếp cận giản đồ (Schema) 2.2. Micro Planning 2.2.1. Từ vựng hóa (Lexicalisation) 2.2.2. Ghép câu (Sentence Aggregation) 2.3. Trình bày văn bản (Surface Realisation) Chương III: Thử nghiệm xây dựng hệ thống sinh ngôn ngữ tự nhiên
  5. Chương I: Tổng quan về sinh ngôn ngữ tự nhiên 1. Bài toán sinh ngôn ngữ tự nhiên 1.1. Khái niệm Sinh ngôn ngữ tự nhiên (Natural Language Generation – viết tắt là NLG) là một lĩnh vực con của trí tuệ nhân tạo và ngôn ngữ học máy tính liên quan tới việc xây dựng một hệ thống máy tính có thể sản sinh ra văn bản bằng tiếng Anh hoặc những ngôn ngữ loài người khác từ những biểu diễn phi ngữ nghĩa của thông tin. Mục tiêu của hệ thống sinh ngôn ngữ tự nhiên là tạo ra các văn bản có thể hiểu được bằng ngôn ngữ loài người bởi vậy, nó cần nguồn tri thức từ loại ngôn ngữ mà hệ thống sử dụng cũng như những kiến thức thuộc lĩnh vực mà hệ thống sẽ sản sinh. Đầu vào của hệ thống sinh ngôn ngữ tự nhiên là các dạng phi ngữ nghĩa của thông tin: mẩu tin, bảng biểu, số liệu. Đầu ra là những câu, văn bản có ý nghĩa nhất định bằng ngôn ngữ con người, chứa thông tin ở đầu vào. 1.2. Ứng dụng Sinh ngôn ngữ tự nhiên cần thiết trong các hệ thống tương tác người máy, một vài ứng dụng quan trọng có thể kể đến: - Ứng dụng sinh ra tài liệu tự động. Ví dụ: dự báo thời tiết, báo cáo mô phỏng, thư tín,... - Ứng dụng biểu diễn thông tin tới người dùng bằng cách có thể hiểu được. Ví dụ: bản ghi y khoa, lập luận hệ thống chuyên gia….
  6. - Ứng dụng giảng dạy. Ví dụ: hệ thống cung cấp thông tin cho sinh viên. - Ứng dụng giải trí. Ví dụ: truyện cười, thơ văn,… Chương II: Cấu trúc hệ thống sinh ngôn ngữ tự nhiên 2. Cấu trúc của một hệ thống sinh ngôn ngữ tự nhiên Mô hình cấu trúc của một hệ thống sinh ngôn ngữ tự nhiên
  7. Ba giai đoạn cần tiến hành trong hệ thống sinh ngôn ngữ tự nhiên là “Document Plan”, “Micro plan” và “Surface realisation”. - Quyết định nội dung Document Plan - Cấu trúc văn bản - Tập hợp câu Micro Plan - Từ vựng hóa - Sinh từ/cụm từ quy chiếu Surface Realisation - Thể hiện ngôn ngữ.
  8. 2.1. Document planning 2.1.1. Cấu trúc của document planning 2.1.1.1. Cấu trúc của document planning Cấu trúc của phần “Document Planning” bao gồm 3 công việc là: - Mô hình hóa miền phục vụ (Domain Modeling). - Quyết định nội dung (Content Determination). - Cấu trúc tài liệu (Document Structuring). Domain Modeling Document Planning Content Determination Document Structuring 2.1.1.2. Nhiệm vụ của document planning “Document planning” hay còn gọi là “Text planning” là bước đầu tiên trong hệ thống sinh ngôn ngữ tự nhiên, nó có nhiệu vụ tạo ra tổng thể chung cho cả văn bản. hiện thực hóa bằng tập các message có quan hệ nhất định và có thứ tự xác định. “Document planning” là giai đoạn quan trọng nhất trong các giai đoạn được tiến hành trong một hệ thống sinh văn bản. Giai đoạn này bao gồm hai quá trình con sau đây: - Quyết định nội dung (Content Determination): Quá trình này bao gồm việc tạo thành các thông điệp (Message), mỗi message có một ý nghĩa xác định
  9. nào đó. Một câu có thể là một thông điệp hoặc do nhiều thông điệp ghép lại, trong trường hợp nhiều thông điệp, ta gọi đó là một “Document Plan” - Cấu trúc tài liệu (Document Structuring): Quá trình này gồm có các công việc sau: + Nhóm các thông điệp với nhau. + Xác định thứ tự các thông điệp (Ordering). + Xác định mối liên hệ (Discourse Relation) giữa các thông điệp. 2.1.1.3. Input và Output của document planning - Input: Bao gồm 4 thành phần chính cho đầu vào của một hệ thống sinh văn bản như sau: + Nguồn tri thức: Có thể là cơ sở dữ liệu trong phạm vi đang nghiên cứu hoặc cơ sở tri thức. + Mục tiêu xác định: Cần chỉ rõ mục đích của những văn bản được sinh ra. Mục tiêu có thể rất đa dạng ví dụ như: Tổng hợp, so sánh, bổ sung, … + Mô hình người dùng: Cần phải xác định rõ đối tượng nào sẽ đọc văn bản được sinh ra bởi hệ thống. Mỗi kiểu người dùng với những khác biệt về kiến thức, trình độ, học vấn, nghề nghiệp sẽ có những cách tiếp thu khác nhau. + Lịch sử diễn ngôn: Hệ thống cần thông tin về tương tác với người dùng ở thời điểm trước đó. Sử dụng ở Referring expression của giai đoạn “Micro Planning”. - Output: Giai đoạn “Document Planning” tạo ra các “Document Plan” được biểu diễn dưới dạng cây nhị phân với các nút lá biểu diễn các thông điệpvà giữa hai lá là thông tin biểu diễn mối quan hệ giữa hai nút lá tức là chỉ rõ rằng hai thông điệp bên trái và bên phải được liên kết với nhau như thế nào. Thông tin biểu diễn mối quan hệ này được gọi là quan hệ diễn ngôn (Discourse Relation). Ví dụ cây biểu diễn cấu trúc diễn ngôn:
  10. 2.1.2. Biểu diễn thông tin 2.1.2.1. Mô hình biểu diễn thông tin Mô hình gồm có 4 thành phần sau: Thực thể (Entities) - Thuộc tính (Attributes): - Quan hệ (Relationships): - Lớp (Classes): - 2.1.2.2. Định nghĩa các thông điệp Công việc ở đây là cần xây dựng nên những thông điệp từ những dữ liệu thô ban đầu. Trước tiên là công việc quyết định xem cần phải có những loại thông điệp nào, mỗi loại thông điệp cần có những thông tin gì, quan hệ giữa chúng ra sao. Một ví dụ về lớp TemperatureSpellMsg trong hệ thống dự báo thời tiết: - Từ bảng nhiệt độ
  11. - Ta có giả mã các class cho message TemperatureSpellMsg - Message thu được : 2.1.2.3. Phương pháp mô hình hóa thông tin và định nghĩa các thông điệp
  12. Có nhiều phương pháp mô hình hóa thông tin nhưng phương pháp thường được sử dụng trong NLG là phương pháp phân tích các tập dữ liệu thực tế “target text corpus” kết hợp thao khảo ý kiến chuyên gia trong lĩnh vực đó. Các bước của phương pháp: - Bước 1: Chọn ra một số đoạn văn bản tiêu biểu từ tập “target text corpus” mà có thể đại diện cho đa phần văn bản cần sinh ra. - Bước 2: Tách văn bản lấy được ở bước 1 thành từng câu, sau đó tách từng câu thành từng tập các cụm (phrases) tương ứng với từng thông điệp đơn lẻ. - Bước 3: Nhóm các message thành các lớp (class). Các message được nhóm trong một lớp có một hoặc vài đặc điểm, tính chất chung nào đó - Bước 4: Đề xuất ra mô hình biểu diễn thông điệp. - Bước 5: Gặp gỡ chuyên gia và đưa ra mô hình phân tích ở bước 4 để cùng bàn bạc chỉnh sửa cho phù hợp. Nếu cần thiết thì phải lặp lại từ bước 2 đến bước 5 cho đến khi nào chuyên gia và cả bản thân cùng cảm thấy hài lòng. - Bước 6: Lặp lại các bước từ 1 đến 5 với tập văn bản được lấy ra lớn hơn. 2.1.2.4. Quyết định nội dung (Content Determination) “Content determination” là thuật ngữ để chỉ công việc quyết định những “message” nào sẽ được sử dụng trong văn bản sinh ra. Điều này phụ thuộc vào mục tiêu mà văn bản sinh ra cũng như lĩnh vực sẽ sử dụng. Các công việc trong quá trình quyết định nội dung: - Chọn lựa dữ liệu: Chọn ra một tập các dữ liệu từ cơ sở dữ liệu, cơ sở tri thức của hệ thống mà cung cấp thông tin đủ để phục vụ người dùng. - Tổng hợp dữ liệu: Công việc của bước này là tổng hợp và tóm tắt dữ liệu đã lấy được từ bước trên thành thông tin cần quan tâm. - Suy luận dữ liệu: Hai bước phía trên chỉ là trường hợp riêng của phần này. Tổng hợp dữ liệu, chọn lọc là những dữ liệu cần thiết, có quan hệ nhất định để sử dụng. - Tùy biến văn bản theo từng loại đối tượng: Với mỗi loại người dùng khác nhau thì sẽ tùy biến văn bản sinh ra cho phù hợp về cả nội dung và hình thức 2.1.2.5. Thu thập các luật để quyết định nội dung
  13. Mục đích của các hệ thống sinh văn bản là sinh ra được văn bản ngày càng giống với văn bản do chính con người viết ra, cho dù bằng cách nào cũng cần thu thập tri thức từ các chuyên gia để có được tập “target text corpus” đem phân tích. Chúng ta sẽ sử dụng chính tập “corpus” này để xây dựng nên một tập các luật chỉ định rằng một thông điệp nào đó thì nên xuất hiện trong một kiểu văn bản như nào. 2.1.3. Cấu trúc văn bản từ các thông điệp Công việc của phần “Cấu trúc văn bản” là sinh ra một cây với các nút lá các thông điệp còn ở giữa 2 lá trái phải có cùng gốc là nút giữa mang thông tin giải thích: - Cách liên kết giữa các thông điệp với nhau. - Thứ tự sắp xếp của các thông điệp hoặc các nhóm thông điệp trong văn bản. - Vị trí tương ứng của thông điệp hoặc nhóm thông điệp trong từng phần của đoạn văn - Mối quan hệ diễn ngôn giữa các thông điệp hoặc nhóm thông điệp. 2.1.3.1. Quan hệ diễn ngôn (Discourse Relation) Quan hệ diễn ngôn xác định mối quan hệ liên kết giữa các thông điệp hoặc nhóm thông điệp với nhau. Chung quy trong các văn bản, có 4 kiểu quan hệ diễn ngôn chính là : Cụ thể hóa vấn đề (Elaboration) - Dẫn chứng vấn đề (Exemlification) - Đối lập (Contrast): - Chuỗi tường thuật (Narrative Sequence) - 2.1.3.2. Tiếp cận giản đồ (Schema) Có thể mô tả câu bằng cách sử dụng các giản đồ - Schema, trong đó các giản đồ có chứa thông tin hoặc gọi tới các giản đồ nhỏ hơn. Ví dụ giả mã một vài giản đồ trong hệ thống dự báo thời tiết (WeatherReporter): - Các biến kiểu DocumentPlan:Ví dụ DP1, DP2 sẽ lại là “document planning” có nhiệm vụ ghép 2 thành phần lại với nhau theo một kiểu quan hệ nào đó chẳng hạn “Sequence”. - Các biến kiểu Message: Là các message đầu vào
  14. - Biến kiểu List:Là danh sách các “message”. - Giả mã : 2.2. Micro Planning “Micro Planning” gồm 3 bài toán: - Từ vựng hóa (Lexicalisation) - Ghép câu (Aggregation) - Từ/cụm từ quy chiếu (Referring Expression Generation)
  15. Lexicalisation Micro Planning Aggregation Referring Expression Generation Một cơ chế được sử dụng rộng rãi nhất cho công đoạn này đó là dùng template.Template là cách biểu diễn câu dưới dạng các văn bản soạn sẵn và các tham số để thêm vào các phần của câu. Các hệ thống đơn giản thường chỉ chèn các tham số vào câu mà không làm thêm các bước xử lí khác. Trong khi đó, các hệ thống mới hơn có tiến hành một số các xử lí về mặt ngôn ngữ ví dụ như chọn hình thái phù hợp, ... Input và Output của quá trình Micro Planning: - Input: Là output của quá trình “Document Planning”, tức là các “Document Plan” – cấu trúc với các phần tử nguyên tử là các thông điệp. Ví dụ về một “Document Plan”: - Output : Là một đặc tả văn bản (text specification) được tạo bởi các đặc tả từng cụm từ. Trong đó các biểu diễn trung gian trong quá trình là các đặc tả cụm nguyên thủy (Proto Phrase Specification). Ví dụ về một đặc tả cụm nguyên thủy cho “Document Plan” trên:
  16. 2.2.1. Từ vựng hóa: - Từ vựng hóa là quá trình lựa chọn những cấu trúc từ, cú pháp để biểu diễn thông tin từ các “Document Plan”, ánh xạ các thông điệp thành các từ ngữ có ý nghĩa với người sử dụng. - Như đã nói ở trên, ta sẽ sử dụng các template dựng sẵn cho mỗi đặc tả cụm nguyên thủy rồi áp thông tin từ các thông điệp vào mẫu này. Ví dụ về một đặc tả cụm nguyên thủy được tạo ra từ template:
  17. - Một vấn đề với công đoạn này đó là lựa chọn từ ngữ thế nào cho phù hợp. Một số cơ chế để lựa chọn từ ngữ bao gồm cây quyết định (decision trees), đồ thị chuyển đổi (graph-rewriting), mạng phân tách (discrimination nets), mạng hệ thống (systemic networks), ... - Một cơ chế thường được sử dụng đó là cây quyết định. Cây quyết định dùng để đặt ra các luật đơn giản nhằm đa dạng hóa cách biểu diễn từ ngữ phụ thuộc vào các yếu tố ngữ cảnh. Đây là một ví dụ cho trường hợp sử dụng cây quyết định cho thủ tục từ vựng hóa: 2.2.2. Ghép câu (Sentence Aggregation)
  18. - Ghép câu là quá trình tổ chức các đặc tả cụm thành các câu hoặc văn bản phức tạp, mạch lạc hơn. Quá trình này có thể bao gồm việc nối câu và quyết định thứ tự các câu. - Sau đây là một số hướng tiếp cận với quá trình ghép câu: + Liên từ đơn giản (Simple conjunction): Là những liên từ như “và”, “nhưng”, ... biểu diễn mối quan hệ diễn ngôn giữa 2 hoặc nhiều câu và dùng để ghép những câu này lại thành một câu duy nhất. Sử dụng dạng ghép câu này không làm thay đổi cấu trúc cú pháp cũng như nội dung của từng thành phần thông tin được ghép lại. Sau đây là một ví dụ về kiểu ghép câu này, có thể thấy cấu trúc của các đặc tả cụm nguyên thủy không đổi:
  19. + Liên từ qua các thành phần chung: Khi 2 hoặc nhiều thành phần thông tin cùng có chung một từ/cụm từ với nội dung như nhau và ở cùng một ví trí trong thành phần thông tin đó thì ta có thể gộp lại và chỉ sử dụng từ/cụm từ đó một lần cho tất cả thôi. Sau đây là ví dụ về đặc tả cụm nguyên thủy tạo ra khi ghép câu theo cách này (các thuộc tính “ellided” là các phần đã được lược đi):
  20. + sdfasdf Liên từ qua cấu trúc chung: Thay vì đặt liên từ vào đầu cấu trúc + ghép đặc tả cụm nguyên thủy, ta sẽ đặt liên từ vào chính giữa các thành phần trong đặc tả cụm nguyên thủy được ghép, như vậy các thành cấu trúc giống nhau sẽ được lược bớt đi. Nhúng cú pháp: Ta ghép các thành phần thông tin lại, một thành + phần riêng rẽ sẽ trở thành một phần bổ trợ cho thành phần kia. Một trường hợp của các tiếp cận này là cách sử dụng các mệnh đề quan hệ trong tiếng Anh.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2