intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:7

35
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định" nghiên cứu và phát triển hệ thống điều khiển sinh văn bản tiếng Việt có đề tài xác định nhằm tạo ra trải nghiệm tương tác tốt giữa người và máy. Nghiên cứu của chúng tôi hướng đến việc tạo ra văn bản rõ ràng, mạch lạc và hơn hết là nó được áp dụng trên môi trường ngôn ngữ đặc thù - tiếng Việt. Phương pháp đề xuất điều khiển việc sinh văn bản mà không cần cập nhật các siêu tham số khi các chủ đề mới được thêm vào. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định

  1. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định Từ Minh Đăng, Đỗ Ngọc Minh Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội Email: tuminhdang10@gmail.com, ngocminhc2nc1@gmail.com Tóm tắt—Trong bài báo này, chúng tôi nghiên cứu và BERT [4], T5 [5], GPT-2 [6], BART [7] có khả năng phát triển hệ thống điều khiển sinh văn bản tiếng việt có sinh văn bản ấn tượng đi kèm với sự bản trôi chảy đáng đề tài xác định nhằm tạo ra trải nghiệm tương tác tốt ngạc nhiên. Các mô hình này thường được huấn luyện giữa người và máy. Nghiên cứu của chúng tôi hướng đến trước trên bộ dữ liệu lớn, và sau đó được tinh chỉnh với việc tạo ra văn bản rõ ràng, mạch lạc và hơn hết là nó được áp dụng trên môi trường ngôn ngữ đặc thù - tiếng từng dữ liệu cụ thể. Tuy nhiên, các mô hình hiện nay Việt. Phương pháp đề xuất điều khiển việc sinh văn bản đều gặp phải những hạn chế như sau. Thứ nhất, một từ mà không cần cập nhật các siêu tham số khi các chủ đề trong văn bản sinh ra được lặp lại nhiều lần. Thứ hai, mới được thêm vào. Kết quả cho thấy rằng, phương pháp văn bản sinh ra có độ chính xác ngữ pháp cao nhưng có của chúng tôi có độ chính xác và ổn định cao dựa trên thể sai về ngữ nghĩa. Cuối cùng, đối với việc sinh ra văn các tiêu chí đánh giá so với các phương pháp khác hiện bản có đề tài xác định, độ chính xác đề tài bị suy giảm nay. Do đó, phương pháp đề xuất có thể được áp dụng dễ dàng cho các mô hình với ngôn ngữ tiếng việt trong tương theo độ dài của văn bản. Để khắc phục được những hạn lai mà không phải thay đổi nhiều để đạt được hiệu quả chế này, các hệ thống cần có cơ chế điều khiển việc tốt. sinh văn bản, điển hình như [8], [9]. Một trong số đó Từ khóa—Sinh văn bản, tiếng việt, đề tài xác định. là sử dụng học tăng cường để đánh dấu những giá trị cần được điều khiển. Các phương pháp học sâu có ưu I. GIỚI THIỆU điểm về độ chân thực của các câu, nhưng chúng cần dữ Trong những năm gần đây, khi mà các phương pháp liệu lớn nhằm thực hiện việc huấn luyện và thay đổi các học sâu đã thể hiện được khả năng vượt trội trong các siêu tham số của mô hình sinh văn bản. lĩnh vực trí tuệ nhân tạo về nhận dạng đối tượng, điển Trong nghiên cứu này, chúng tôi tập trung vào việc hình như những hệ thống của GoogLeNet. Tuy nhiên đối điều khiển sinh văn bản có độ phù hợp cao với đề tài với lĩnh vực xử lý ngôn ngữ tự nhiên, thời điểm trước cho trước mà không cần thay đổi các siêu tham số trong năm 2017 các phương pháp vẫn chưa đạt được hiệu quả mô hình. Điều này cũng tương tự với việc tạo ra hình như mong đợi rằng nó có khả năng hoạt động tương ảnh từ chủ đề cho trước trong lĩnh vực xử lý ảnh và thị tự như hệ thống ngôn ngữ của con người. Sau đó, khi giác máy tính. Trong đó có một phương pháp là Plug Transformer [1] được ra đời vào năm 2017, nó đã tạo Play Generative Networks (PPGN) [10] đã dựa vào cơ ra bước ngoặc lớn trong sự phát triển những mô hình chế tạo ra những hình ảnh có thuộc tính khác nhau và ngôn ngữ mạnh mẽ như [2], [3]. Điều đó giúp cho các gán một bộ phân biệt thuộc tính (Atribute Model-AM) hệ thống xử lý ngôn ngữ tự nhiên hoạt động hiệu quả để biệt những thuộc tính đó bên cạnh thuộc tính được trên những bộ dữ liệu lớn và phức tạp. tạo ra bởi bộ sinh, từ đó ta có thể tạo ra được ảnh mà Đối với lĩnh vực xử lý ngôn ngữ tự nhiên, việc tạo chứa thuộc tính của đề tài được yêu cầu. Do đó, nghiên ra văn bản dài mạch lạc rất hữu ích cho các ứng dụng cứu này áp dụng bộ phân biệt thuộc tính này nhằm điều như: trợ lý ảo, máy phiên dịch, tạo báo cáo, bài luận và khiển các câu được sinh ra có chủ đề đã được xác định. các văn bản có nội dung dạng dài khác. Tuy nhiên, để Bộ phân biệt này bao gồm một phần để thay đổi giá giải quyết các vấn đề này đòi hỏi các mô hình cần nắm trị của hàm mất mát thực hiện phản hồi hàm mất mát bắt được thông tin toàn cục, lập kế hoạch nội dung và này vào các khối sinh từ để đưa ra một từ khác và có tạo ra các từ lân cận một cách nhất quán. Các hệ thống ý nghĩa gần đúng với chủ đề yêu cầu. Hơn nữa, đối với áp dụng Transformer đã giải quyết được các vấn đề trên mô hình hiện nay thường được tạo ra để hỗ trợ các ngôn nhưng vẫn còn nhiều hạn chế trong việc tạo ra văn bản ngữ phổ biến trên thế giới như: tiếng Anh, tiếng Trung, dài mạch lạc. Những hệ thống dựa vào các mô hình như tiếng Tây Ban Nha, v.v. Nhưng đối với những ngôn ngữ ISBN 978-604-80-7468-5 446
  2. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) ít phổ biến và phức tạp như tiếng Việt thì chưa có mô rộng phương pháp GPT được Open AI phát triển theo hình tối ưu cho việc sinh văn bản có đề tài cho trước. hướng có thể đưa điều kiện vào. Với 1.6 tỷ phép tính Những mô hình hiện tại hỗ trợ ngôn ngữ tiếng Việt đều và 50 bộ điều khiển cho phép điều khiển 50 dạng đề hoạt động theo nguyên tắc sinh từ đơn nên chúng không tài khác nhau. Kết quả của phương pháp này là 69.82% giải quyết được những vấn đề của từ ghép và câu dài cho độ chính xác liên quan đến đề tài và 75% độ ổn mạch lạc. Do đó, nghiên cứu của chúng tôi tập trung định. Phương pháp này có kết quả khá là tốt vì được vào việc tạo ra mô hình điều khiển sinh văn bản tiếng điều khiển thông qua các điều kiện cài đặt từ trước, với Việt có đề tài xác định. các đề tài đã được đánh dấu từ trước. Phương pháp đưa lại hiệu quả cao như đã nêu ở trên, gặp khó khăn khi mở II. CÁC NGHIÊN CỨU LIÊN QUAN rộng các đề tài điều kiển việc sinh ra câu, tăng cường Trong việc điều khiển sinh văn bản đã có những độ chính xác dựa vào tinh chỉnh lại mô hình với các đề nghiên cứu đạt được kết quả tốt như: phương pháp điều tài khác nhau, tuy vậy thì việc sử dụng nó trong ngôn khiển sinh văn bản sử dụng với mô hình học tăng cường ngữ khác là rất khó bởi những phần điều khiển nó đi [11], huấn luyện một mô hình Generative adversarial liền với phần mô hình ngôn ngữ. network (GAN) để điều khiển [11], huấn luyện mô hình Phương pháp thứ ba là Plug and play language model sinh câu có điều kiện ([12], [8]), hoặc là phương pháp (PPLM) [13] dùng kĩ thuật của học máy đề điều khiển điều khiển sinh văn bản bằng kỹ thuật học máy [13]. Tuy sinh câu. Phương pháp này sử dụng túi từ kết hợp với nhiên, những phương pháp này đều cần một lớn lượng chia lại giá trị p(x|a) của câu đó rồi dùng softmax để dữ liệu với các đề tài khác nhau nên thường không thể lấy ra giá trị véc-tơ. Bằng việc cho mô hình ngôn ngữ đạt được việc xử lý thời gian thực cho các hệ thống sinh ra một câu ngẫu nhiên và sử dụng những thuộc tính hiện nay. Điển hình như đối với phương pháp sủ dụng đề tài đã được chuyển đổi, với nguồn từ vựng mới thực GAN [11], phương pháp này hoạt động bằng việc học hiện sinh ra để cập nhật lại đường quy định đầu ra và các đặc tính dữ liệu để thực hiện phép cộng nhiễu và những token của đầu ra. Độ chính xác của phương pháp tính xác suất diễn ra dựa vào câu đầu vào. Tính chất này cũng được đo bằng BLUE [14] với ROGER [15] độ phương pháp GAN vẫn là sinh ra dữ liệu dựa vào cả dữ chính xác về đề tài là 40% nhưng bù lại độ ổn định là liệu thật và nhiễu qua bộ mã hóa và giải mã. 88%. Phương pháp này có độ ổn định rất cao nên có thể Tiếp theo, phương pháp đã đạt được hiệu quả cao không rơi vào trạng thái rời khỏi storyline và nó rất dễ bằng việc sử dụng học tăng cường để điều khiển sinh dàng triển khai nếu có mô hình ngôn ngữ phù hợp chỉ câu [11]. Phương pháp này sử dụng học tăng cường làm cần tinh chỉnh 1 phần của đoạn chuyển thì có thể điều chiến lược để huấn luyện và qua đó đánh giá tính liên khiển được, nhưng nó cần phải có một túi từ để làm quan đến nhau của văn bản với đề tài đã yêu cầu. Đầu thuộc tính cho đề tài đó và làm một túi từ cho phù hợp tiên nó thiết lập thuộc tính của đề tài cần thực hiện nhằm không phải dễ, phụ thuộc vào mô hình ngôn ngữ nếu tạo ra một môi trường huấn luyện cho học tăng cường, mô hình ngôn ngữ không tạo ra các định dạng câu thể sau đó thực hiện huấn luyện bằng mô hình MLE+PG. hiện tính liên kết thì cũng không thể điều khiển được. Cuối cùng, bằng việc tinh chỉnh mô hình này theo các Những phương pháp trên đều được áp dụng trong nhóm chủ đề để có thể điều khiển việc sinh văn bản. Tiếng Anh nơi mà nguồn dữ liệu phong phú khi mà Phương pháp này được đánh giá bằng tiêu chí độ chính áp dụng ở tiếng Việt mới mà dữ liệu ít mà khi xử lý xác liên quan đến đề tài (BLEU) [14] và độ ổn định xong còn lại rất ít nên việc đi tìm đủ dữ liệu để thực (ROGER) [15] lần lượt là 71.68%, 70%. Điều đó cho hiện khá là khó khăn. Trong tiếng Việt những phương thấy rằng, phương pháp này gần như là cao nhất trong pháp về điều khiển được sử dụng là CTRL [8] được sử tất cả các mô hình được giới thiệu trong thời gian gần dụng ở FPT bot của tập đoàn FPT tuy nhiên thì dữ liệu đây với khả năng áp dụng rộng với nhiều ngôn ngữ. Tuy được sử dụng ở đó là không được công bố. Vì những nhiên, nó có một vấn đề rất lớn đó là dữ liệu để tạo một phương pháp khác yêu cầu lượng dữ liệu quá lớn để môi trường huấn luyện như thế này thường rất lớn và thực hiện do vậy ta có thấy lấy từ ý tưởng của phương phức tạp. Mặt khác, phương pháp này yêu cầu khả năng pháp PPLM để sử dụng trong tiếng Việt. Khi đó việc tính toán lớn nên rất khó khăn trong việc trên thiết bị điều khiển sinh câu sẽ trở nên có thể triển khai hơn là phần cứng hiện nay. việc thực hiện một mô hình hoàn toàn với tiếng Việt. Phương pháp thứ hai cũng có kết quả tốt bằng thực hiện huấn luyện lại một mô hình ngôn ngữ có điều kiện III. MÔ HÌNH ĐỀ XUẤT để điều khiển sinh văn bản, đó là mô hình CTRL [8]. Trong phần này, chúng tôi mô tả mô hình đề xuất để Phương pháp được sử dụng trong mô hình này là mở điều khiển việc sinh văn bản tiếng Việt có đề tài xác ISBN 978-604-80-7468-5 447
  3. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) ra, GPT 2 sử dụng cơ chế của Transformer để tạo một tập hợp gồm các cặp khóa và giá trị. Với mỗi phần tử đại diện cho một lớp được sinh ra trong quá trình thực hiên mô hình. Tập hợp này được sử dụng để tạo ra xt và giá trị Ht là giá trị của phân lớp từ bước 0 đến bước t có thể tóm tắt bằng công thức sau. ot+1 , Ht+1 = LM (xt , Ht ) (2) Trong đó, Véc-tơ ot+1 được tạo ra thông qua việc đưa chuỗi giá trị đầu vào và giá trị phân lớp Ht qua mô hình ngôn ngữ LM . Với một ánh xạ tuyến tính W cho phép chuyển Véc-tơ thể hiện giá trị của gradient ot+1 thành Hình 1. Mô hình điều khiển câu Véc-tơ từ vựng thì lúc đó xt+1 = Sof tmax(W ∗ ot+1 ). Điều này cho phép tạo ra ngôn ngữ hiệu quả hơn mà định. Mô hình được trình bày theo ba phần: Hiệu chỉnh không cần phải lặp lại quá trình cho từng từ riêng biêt. giá trị của Mô hình Transformer được huấn luyện cho Từ đó, chúng tôi sử dụng GPT-2 trong việc triển khai việc sinh, Chiến lược điều khiển và Phương thức thiết trên bộ dữ liệu tiếng Việt. Thêm vào đó, nghiên cứu này lập điều kiện lần được mô tả sau đây. không thực hiện huấn luyện từ giá trị trọng số là 0 mà thực hiện tinh chỉnh lại bằng việc sử dụng mô hình đã A. Hiệu chỉnh giá trị của Mô hình Transformer được được huấn luyện và thực hiện thay đổi tinh chỉnh thuật huấn luyện trước cho việc sinh toán tách từ (tokenizer). Phương pháp tinh chỉnh ở GPT Phương pháp Transformer đã tạo tiền đề cho việc phát được thực hiện nhờ phương pháp cập nhật lại nguồn từ triển những mô hình ngôn ngữ rất lớn mà có thể tạo ra vựng, đưa nguồn dữ liệu từ ngữ của tiếng Việt vào trong nhờ lượng dữ liệu khổng lồ. Qua đó, Transformer đã đạt chuỗi từ của tiếng Anh. Tinh chỉnh cần phải giảm tối được những thành tựu rất nổi bật. Thứ nhất, nó tạo ra mô đa việc sử dụng dữ liệu nên phương pháp thường triển hình ngôn ngữ có độ chính xác cao tiêu biểu như BERT khai nhất đối với tiếng Việt là không thay đổi trọng số [16]. Đồng thời, Transformer đã cải thiện khả năng thực của các phân lớp đầu mà chỉ thay đổi ở các phân lớp hiện những nhiệm vụ liên quan đến ngôn ngữ tự nhiên sau của mô hình. Thực hiện BPE [19] trên toàn bộ dữ như là nhận dạng tiếng nói, dịch máy ngày càng hiệu liệu huấn luyện đi vào chuyển về dạng GPT. Đối với quả. Nó đã đưa ra hướng đi mới cho giao tiếp giữa người tiếng Việt có cặp từ ghép việc dùng mã hóa BPE giữ và máy tiến dần đến giai đoạn mà chúng ta sẽ không biết được tính nguyên vẹn của từ ghép so với việc dùng các là người hay máy nói chuyện với chúng ta. Tiếp theo, cách mã hóa đơn từ, cặp từ. Sau khi chuyển BPE sang trong nhiệm vụ tạo ra văn bản thì Mô hình Transformer GPT, mô hình thực hiện việc cập nhật gói từ vựng. Cuối được huấn luyện trước cho việc sinh (Generative Pre- cùng, nó thực hiện tinh chỉnh trên toàn bộ các thông số trained Transformer-GPT) là phương pháp được đánh trong mô hình GPT. giá hiệu quả nhất trong lĩnh vực này với lần lượt các B. Chiến lược điều khiển phiên bản GPT 1 [17], GPT 2 [6] và mới nhất là GPT Theo như đã trình bày ở trên thì GPT dù là phương 3 [18]. Tuy nhiên, trong nghiên cứu này, chúng tôi sử pháp hiệu quả nhất trong việc sinh câu hiện nay, nhưng dụng GPT 2 để thực hiện tạo mô hình ngôn ngữ và nó không có khả năng điều khiển được câu một cách điều khiển nó. Theo đó, khi đưa một chuỗi ký tự X = hiệu quả và vẫn chưa đạt được khả năng tạo câu theo {x1 ,x2 ,. . . xn } vào mô hình ngôn ngữ thì thu được xác điều kiện. Do đó, chúng tôi đề xuất phương pháp dựa suất của toàn bộ chuỗi ký tự đó p(X) như trong công trên Plug and play language model (PPLM) [13] trong thức (1). ngôn ngữ tiếng Anh và thực hiện nó trên ngôn ngữ tiếng n Y Việt. Để có thể điều khiển đầu ra cho một hệ thống sinh p(X) = p(xi |x0 , x1 , . . . , xi+1 ) (1) văn bản, ở bước thực hiện thứ t, ta cần phải biết được i=1 giá trị theo hướng là tổng của hai gradient bao gồm một Công thức ở trên biểu diễn xác suất một chuỗi có thể gradient biểu thị cho mô hình sinh có tính liên kết với tồn tại đối với mô hình ngôn ngữ và nó quyết định việc đề tài p(x|a) và một gradient biểu thị cho mô hình sinh mô hình tiếp tục sinh câu. Khi xác suất thấp mô hình sẽ cơ bản được thêm vào đầu tiên p(x). Sử dụng xác suất dừng việc tạo ra từ mới và lặp lại từ cũ trước đó. Ngoài p(x|a) đưa các từ thuộc đề tài được thêm giá trị về mặt ISBN 978-604-80-7468-5 448
  4. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Bảng I logit đưa các từ thuộc đề tài ở vị trí cao hơn trong véc-tơ CẤU HÌNH PHẦN CỨNG đầu ra, khi mà lấy mẫu có thể lấy được từ thuộc đề tài và thay đổi giá trị của gradient thay đổi không tạo ra câu STT Tên thiết bị Mô tả 1 CPU Intel Xeno Sivel 4210 vô nghĩa. Nguyên tắc dựa vào việc lấy mẫu của véc-tơ 2 GPU Nvidia Tesla T4 đầu ra thông qua giá trị của gradient sử dụng gradient 3 RAM 64GB mới đưa các từ thể hiện chủ đề có giá trị xác suất cao hơn. Khi qua một giai đoạn thì Ht sẽ được cập nhật vì Ht sẽ không cần cập nhật liên tục do nó dựa vào phần Trong đó, x là giá trị của token câu chữ và a là giá trị quá khứ đã được sinh ra để thực hiện điều chỉnh nên chỉ của chủ đề. Công thức trên giúp cho việc lấy các xác cần thay đổi một lượng phù hợp để thay đổi phân phối suất từ đó so với bộ từ đặc trưng của đề tài được xác của đầu ra sau khi được lấy mẫu, nên ta sử dụng giá trị định. p(x|a) là xác suất 1 từ có thuộc đề tài hay không. ∆H để cập nhật cho Ht sao cho Ht + ∆H làm thay Việc lấy log đưa ra giá trị để xác nhận. Từ đó tăng giá đổi được phân phối có khả năng chứa thuộc tính cho đề trị của các từ ở trong véc-tơ sinh ra của p(x) từ đó tăng tài mong muốn. ∆H sẽ được khởi tạo với giá trị là 0 tỉ lệ xuất hiện các từ thuộc đề tài. khi bắt đầu quá trình và được cập nhật bởi gradient của mô hình dùng để tạo ra thuộc tính mong muốn khi đó IV. THỰC NGHIỆM VÀ KẾT QUẢ thì p(x|a) sẽ được viết lại là p(x| Ht + ∆H) với giá trị A. Điều kiện kiểm thử ∆H sẽ được tính như công thức: Từ các giá trị ở trên thời gian thực hiện huấn luyện là ∇δHt ∗log(p(x|Ht +δH) 168 tiếng nhằm để đưa mô hình từ tiếng Anh sang mô ∆H ← ∆H + α ∗ (3) ||∇δHt ∗log(p(x|Ht +δH) ||γ hình tiếng Việt từ đó thực hiện bài toán. Trong nghiên cứu này, chúng tôi sử dụng bộ dữ liệu là các bài viết Với α là khoảng đã thực hiện γ , là hệ số được chuẩn trên Wikipedia cho việc thực hiện tinh chỉnh GPT tiếng hóa ∆H . sẽ được cập nhật một lượng nhất định. Sau khi Anh sang GPT tiếng Việt. Bộ dữ liệu này có dung lượng đã cập nhật lại Ht + ∆H + ta sẽ tính lại giá trị ⃗vot+1 và 2GB và bao gồm những đoạn văn ngắn mô tả về những thực hiện quá trình biến về véc-tơ từ vựng thực hiện sinh sự vật, sự việc. Thêm vào đó, nó bao gồm những câu câu. Giá trị của p(x) sẽ được tạo ra bởi hệ thống sinh câu nêu định nghĩa và viết theo nguyên tắc tách thông tin được với những phương pháp nhưng GPT hay là T5 và ta mà không sử dụng biện pháp nghệ thuật nên câu sẽ có biết là p(x) sẽ có độ lệch lớn vì nó không được cố định cấu trúc rõ ràng và không quá phức tạp. Từ đó, mô hình chủ đề để lựa chọn mà biến đổi theo dạng phù hợp với có thể giảm thiểu việc sử dụng vượt mức tài nguyên để giá trị xác suất tìm ra. Ta sẽ sử dụng Kullback–Leibler huấn luyện, thời gian và độ phức tạp tính toán. Ngoài ra, [20] nhằm giảm sự phân kì của p(x) bằng cách cập nhật đối với những câu phức tạp hơn, chúng tôi sử dụng bộ ∆H phù hợp với quá trình đó thực hiện nhờ cộng dồn dữ liệu thứ hai là A Large-scale Vietnamese News Text các đại lượng trước khi gradient. Classification Corpus cho việc thực hiện tạo ra mô hình C. Phương thức thiết lập điều kiện sinh câu văn theo chủ đề. Bộ dữ liệu này chứa những câu ở trong những tác phẩm văn học Việt Nam. Ta biết rằng việc đưa ra giá trị khuyên dùng là một Với bộ dữ liệu này, chúng thôi thực hiện mô hình trên phần quan trọng trong việc cập nhật nhằm tạo sự thay thiết bị được mô tả trong bảng I và thời gian thực hiện đổi trong phân phối xác suất từ đó tạo ra đường gradient huấn luyện là 168 tiếng. mới nhằm mở rộng. Bằng cách tạo ra giá trị đầu vào của các từ được cung cấp làm thanh điều khiển của đề B. Phương pháp kiểm thử tài. Có thể tạo ra một chuỗi từ làm từ khóa , hoặc sử Để đánh giá các mô hình sinh văn bản, hiện nay có dụng một bộ phân phối câu làm định tuyến để thực hiện hai phương pháp kiểm thử chính đó là dùng thuật toán tạo từ khóa để điều khiển mô hình ngôn ngữ với phân để kiểm thử tự động hoặc sử dụng khả năng kiểm thử phối là và Với các từ biểu hiện chủ đề là {w1 , . . . , wk } của con người bao gồm: cùng với phân phối đầu ra của mô hình ngôn ngữ pt+1 Sử dụng con người để kiểm thử: phương pháp này là một giá trị trong chuỗi từ khóa nhằm chỉ định chủ đề đánh giá thang điểm từ 1-5 của một câu sinh ra mang cần thực hiện theo : chủ đề đặc trưng từ đó sẽ cho điểm với 1 điểm là ‘rất tệ’ Xk và 5 điểm là ‘tốt’ để đánh giá mô hình [21]. Tuy nhiên, log(p(x|a)) = log( pt+1 [wi ]) (4) việc con người đánh giá chỉ mang tính chủ quan và khó 1 để xác định chính xác tính hiệu quả của mô hình. ISBN 978-604-80-7468-5 449
  5. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Bảng II Sử dụng thuật toán để kiểm thử: Sử dụng tiêu chí KẾT QUẢ SO SÁNH PHƯƠNG PHÁP ĐỀ XUẤT VỚI CÁC PHƯƠNG PHÁP về độ trôi chảy và ngữ pháp để tự động đánh giá hệ KHÁC thống. Hai hệ thống thường được dùng để đánh giá bao Độ Độ gồm BLEU [14]. Ngoài ra, để đánh giá ngữ pháp của Mô hình chính BLEU Dist bất ổn câu có thể sử dụng những hệ thống như là Dist-1 , Dist- xác (%) định 2, Dist-3 để tính 1-gram, 2-gram, 3-gram, với lần lượt 1 2 3 GPT2 19.3 0.92 0.37 0.70 0.91 38.9 giá trị của 1-gram, 2-gram, 3-gram là biểu diễn cho độ GPT2-H 21.8 0.90 0.54 0.91 0.92 217.0 chính xác khi mà các từ liên kết với nhau. CTRL 50.3 0.78 0.35 0.60 0.89 37.0 n WD 37.2 / 0.33 0.69 0.83 34.6 MLE+PG 64.2 0.95 / / 0.90 28.7 Y P (w1:n ) = P (wk |w1:k−1 ) (5) Proposed 56.8 0.93 0.34 0.72 0.90 13.1 1 count(w1 . . . wk ) P (wk |w1:k−1 ) = (6) w1 . . . wk−1 rơi vào những trường hợp có giá trị thấp, câu vô nghĩa Tiếp theo, để tính giá trị BLEU, trước tiên ta có giá trị và được theo công thức: của Geometric Average Precision được tính theo công 1 P P (W ) = p (10) thức sau. n P (w1 , w2 , . . . , wn ) N Y Giá trị độ bất ổn định biểu hiện khả năng gặp lỗi khi mà GAP (N ) = pw n n (7) thực hiện việc tạo ra các từ vào các vị trí tiếp theo của n=1 câu. Khác với kiểm tra lỗi chính tả là thêm một từ với giá trị wn là hằng số biến chuyển của bộ tính toán các từ xung quanh thì độ bất ổn định của mô hình sinh phụ thuộc vào số lượng N-gram được thực hiện. Giá văn bản là việc hạn chế sinh ra câu vô nghĩa khi càng trị Brevity Penalty (BP) xác định sự giống nhau về độ sinh văn bản ra, không tạo ra các câu bị chồng thông tin dài của câu sinh ra với câu đối chiếu. là lỗi liên kết từ. Với độ bất ổn định càng thấp thì việc  ước lượng biến và mẫu tiếp theo sẽ có độ chính xác cao 1, c
  6. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) ổn định thấp nhất là 13.07. Điều này xảy ra do phương [5] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, pháp để xuất có dựa vào việc thực hiện đặt lại thứ hạng M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” đề cử của các từ được tạo ra bởi mô hình ngôn ngữ kết 2019. [Online]. Available: https://arxiv.org/abs/1910.10683 hợp với những giá trị cũ của mô hình đã được sinh ra. [6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever Ngược lại, đối với những phương pháp khác như CTRL, et al., “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019. GPT2-H và WD dựa vào việc thiết lập sẵn giá trị của [7] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, đề tài để thực hiện điều khiển và MLE+PGL là mô hình A. Mohamed, O. Levy, V. Stoyanov, and L. Zettlemoyer, học tăng cường độ ổn định sẽ phụ thuộc hoàn toàn vào “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension,” 2019. việc môi trường thực hiện có ổn không. Với độ ổn định [Online]. Available: https://arxiv.org/abs/1910.13461 cao, phương pháp đề xuất có thể tránh được trường hợp [8] N. S. Keskar, B. McCann, L. Varshney, C. Xiong, and R. Socher, lỗi đặc trưng là việc sinh ra một câu chỉ chứa một vài “CTRL - A Conditional Transformer Language Model for Con- trollable Generation,” arXiv preprint arXiv:1909.05858, 2019. từ hoặc một từ duy nhất. [9] H. Shao, J. Wang, H. Lin, X. Zhang, A. Zhang, H. Ji, and T. Abdelzaher, “Controllable and diverse text generation V. KẾT LUẬN in e-commerce,” in Proceedings of the Web Conference Việc điều khiển sinh văn bản vẫn là một vấn đề được 2021, ser. WWW ’21. New York, NY, USA: Association for chú trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên nhằm Computing Machinery, 2021, p. 2392–2401. [Online]. Available: https://doi.org/10.1145/3442381.3449838 tạo ra mô hình sinh văn bản trong việc giao tiếp giữa [10] A. Nguyen, J. Clune, Y. Bengio, A. Dosovitskiy, and người và máy. Những phương pháp được nêu ở trên và J. Yosinski, “Plug amp; play generative networks: Conditional phương pháp đề xuất đều nhằm mục tiêu đưa ra một iterative generation of images in latent space,” 2016. [Online]. Available: https://arxiv.org/abs/1612.00005 đoạn văn với đề tài đã được cho trước. Phương pháp được [11] L. Yu, W. Zhang, J. Wang, and Y. Yu, “Seqgan: Sequence đề xuất có thể thực hiện việc điều khiển mà không cần generative adversarial nets with policy gradient,” 2016. [Online]. phải thay đổi giá trị của các siêu tham số. Việc không Available: https://arxiv.org/abs/1609.05473 [12] D. M. Ziegler, N. Stiennon, J. Wu, T. B. Brown, A. Radford, thay đổi này sẽ hạn chế được việc huấn luyện lại mô D. Amodei, P. Christiano, and G. Irving, “Fine-tuning language hình khi mà muốn thêm đề tài vào hệ thống điều khiển. models from human preferences,” 2019. [Online]. Available: Thêm vào đó, nó phù hợp để áp dụng vào những hệ https://arxiv.org/abs/1909.08593 [13] S. Dathathri, A. Madotto, J. Lan, J. Hung, E. Frank, P. Molino, thống mà khả năng xử lý của phần cứng thấp. Mô hình J. Yosinski, and R. Liu, “Plug and play language models: A đề xuất đã đạt được sự ổn định tốt hơn các phương pháp simple approach to controlled text generation,” in International hiện nay trong việc sinh văn bản tiếng Việt có đề tài xác Conference on Learning Representations, 2020. [Online]. Available: https://openreview.net/forum?id=H1edEyBKDS định. Hơn nữa, phương pháp đề xuất vì dựa vào giá trị [14] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a đầu ra của mô hình ngôn ngữ mà không thay đổi cách method for automatic evaluation of machine translation,” in thức hoạt động của mô hình ngôn ngữ nên có thể sử Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, dụng cho các mô hình trong tương lai mà không cần USA: Association for Computational Linguistics, Jul. 2002, pp. biến đổi quá nhiều. 311–318. [Online]. Available: https://aclanthology.org/P02-1040 [15] K. Ganesan, “Rouge 2.0: Updated and improved measures for TÀI LIỆU THAM KHẢO evaluation of summarization tasks,” 2018. [Online]. Available: [1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, https://arxiv.org/abs/1803.01937 A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all [16] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, you need,” Advances in neural information processing systems, “Bert: Pre-training of deep bidirectional transformers vol. 30, 2017. for language understanding,” 2018. [Online]. Available: [2] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, https://arxiv.org/abs/1810.04805 A. Ng, and C. Potts, “Recursive deep models for semantic [17] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever et al., compositionality over a sentiment treebank,” in Proceedings “Improving language understanding by generative pre-training,” of the 2013 Conference on Empirical Methods in Natural 2018. Language Processing. Seattle, Washington, USA: Association [18] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, for Computational Linguistics, Oct. 2013, pp. 1631–1642. P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell [Online]. Available: https://aclanthology.org/D13-1170 et al., “Language models are few-shot learners,” Advances in [3] Y. Elazar and Y. Goldberg, “Adversarial removal of demographic neural information processing systems, vol. 33, pp. 1877–1901, attributes from text data,” in Proceedings of the 2018 2020. Conference on Empirical Methods in Natural Language [19] R. Sennrich, B. Haddow, and A. Birch, “Neural machine Processing. Brussels, Belgium: Association for Computational translation of rare words with subword units,” 2015. [Online]. Linguistics, Oct.-Nov. 2018, pp. 11–21. [Online]. Available: Available: https://arxiv.org/abs/1508.07909 https://aclanthology.org/D18-1002 [20] J. M. Joyce, “Kullback-leibler divergence,” in International [4] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, Encyclopedia of Statistical Science. Springer Berlin “Bert: Pre-training of deep bidirectional transformers Heidelberg, 2011, pp. 720–722. [Online]. Available: for language understanding,” 2018. [Online]. Available: https://doi.org/10.1007/978-3-642-04898-23 27 https://arxiv.org/abs/1810.04805 ISBN 978-604-80-7468-5 451
  7. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) [21] G. Lample, S. Subramanian, E. Smith, L. Denoyer, M. Ranzato, and and N. A. Smith, “All that’s ’human’ is not gold: Evaluating Y.-L. Boureau, “Multiple-attribute text rewriting,” in International human evaluation of generated text,” 2021. [Online]. Available: Conference on Learning Representations, 2019. [Online]. Available: https://arxiv.org/abs/2107.00061 https://openreview.net/forum?id=H1g2NhC5KQ [24] M. Ghazvininejad, X. Shi, J. Priyadarshi, and K. Knight, “Hafez: [22] J. Li, M. Galley, C. Brockett, J. Gao, and B. Dolan, “A diversity- an interactive poetry generation system,” in Proceedings of ACL promoting objective function for neural conversation models,” 2015. 2017, System Demonstrations. Vancouver, Canada: Association for [Online]. Available: https://arxiv.org/abs/1510.03055 Computational Linguistics, Jul. 2017, pp. 43–48. [Online]. Available: [23] E. Clark, T. August, S. Serrano, N. Haduong, S. Gururangan, https://aclanthology.org/P17-4008 ISBN 978-604-80-7468-5 452
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
34=>1