YOMEDIA
ADSENSE
Báo cáo "Ngôn ngữ học khối liệu "
128
lượt xem 12
download
lượt xem 12
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Tham khảo bài viết 'báo cáo "ngôn ngữ học khối liệu "', luận văn - báo cáo phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Báo cáo "Ngôn ngữ học khối liệu "
- SỐ 7 (141)-2007 NGÔN NGỮ VÀ ĐỜI SỐNG 9 TIẾNG VIỆT VÀ CHỮ VIỆT Ngôn ngữ học khối liệu (Corpus) (Phần 1) Đào Hồng Thu (TS, Hà Nội) 1. Dẫn nhập điểm giữa khoa học ngôn ngữ hỏi nâng cao hơn chất lượng Thực tế đã chứng minh và khoa học máy tính, được nghiên cứu, nghĩa là số lượng rằng khoa học về ngôn ngữ hình thành vào cuối thế kỉ ví dụ tìm kiếm được cần đầy luôn gắn liền với các thành XX trên cơ sở kĩ thuật điện tử đủ hơn nhiều cho mỗi ngôn tựu của khoa học kĩ thuật và số, là khoa học nghiên cứu ngữ được nghiên cứu. Tuy công nghệ. Sự ra đời và phát xây dựng các khối liệu ngôn nhiên, làm việc với các văn triển của máy tính đã dẫn đến ngữ, nghiên cứu các phương bản trên file máy tính cũng sự hình thành và phát triển pháp xử lí dữ liệu và sử dụng không kém nhọc nhằn. Để có của nhiều lĩnh vực khoa học, khối liệu. thể khắc phục sự mệt nhọc trong đó có các lĩnh vực của Có thể dẫn chứng một ví không cần thiết trong công ngôn ngữ học ứng dụng. dụ đơn giản về vai trò và sức việc của nhà nghiên cứu, Trong những năm nửa sống của ngành khoa học khắp nơi trên thế giới đã cuối thế kỉ XX và đầu thế kỉ này. Bất kì nhà ngôn ngữ nào thành lập các chương trình về XXI, cùng với sự phát triển khi nghiên cứu cũng gặp phải khối liệu. Các chương trình của khoa học thông tin, khoa vấn đề về việc lựa chọn ngữ đặc thù này có thể đáp ứng học ngôn ngữ liên tục phát liệu cho đề tài nghiên cứu rất nhiều yêu cầu của người triển và hình thành các xu của mình, nghĩa là cần tham sử dụng, ví dụ, một chương hướng phát triển mới nhằm khảo rất nhiều loại văn bản trình về văn học Việt Nam đáp ứng nhu cầu hoạt động để tìm ra các ví dụ cần thiết, thế kỉ XX có thể đưa ra toàn của xã hội. Song song với sự và phải hài lòng với việc bộ các câu, tập hợp câu hoặc phát triển không ngừng của ngẫu nhiên lựa chọn được văn bản có chứa tập hợp từ các thế hệ công nghệ máy các ví dụ đó. May mắn là "văn học Việt Nam" được tính và dịch tự động, trong hiện nay đã có nhiều văn bản đăng trên các báo, tạp chí ngôn ngữ học ứng dụng hình bằng các ngôn ngữ khác nhau v.v. Nghiên cứu và tạo lập thành xu hướng phát triển có thể tìm kiếm được ở dạng các chương trình khối liệu mới - Ngôn ngữ học Corpus văn bản điện tử (file của máy như trên là nhiệm vụ của (Ngôn ngữ học khối liệu). tính). Khả năng sử dụng các Ngôn ngữ học khối liệu. Ngôn ngữ học Corpus nguồn ngữ liệu trên làm dễ 2. Các khái niệm cơ bản (Ngôn ngữ học khối liệu) là dàng rất nhiều quá trình tìm Từ "corpus" (với nghĩa là ngành khoa học trẻ, là giao kiếm thô sơ, đồng thời đòi “khối liệu”) lần đầu tiên được
- 10 NGÔN NGỮ VÀ ĐỜI SỐNG SỐ 7 (141)-2007 sử dụng như một thuật ngữ Theo tiếng La tin, khối liệu có được trình bày dưới dạng khoa học vào năm 1961 1 để nghĩa là "any body of text"3 model văn bản điện tử, theo chỉ khái niệm cơ bản của (khối văn bản bất kì - ĐHT các cấu trúc nhất định và Ngôn ngữ học khối liệu. dịch). Tuy nhiên, thuật ngữ được sử dụng để giải quyết Thuật ngữ này được dùng "khối liệu" khi được sử dụng các vấn đề ngôn ngữ cụ thể. trong tập hợp các văn bản trong ngữ cảnh cụ thể của Khối liệu trong ngôn ngữ học bằng các ngôn ngữ khác nhau ngôn ngữ học hiện đại, cụ thể máy tính bao gồm cả hệ dưới dạng văn bản điện tử là trong ngôn ngữ học máy thống điều chỉnh dữ liệu của (file của máy tính): khối liệu tính, sẽ có ý nghĩa đặc trưng văn bản nhằm giúp người sử Brown, khối liệu London- hơn nhiều so với định nghĩa dụng tìm kiếm được các Lund v.v. đơn giản vừa nêu trên. Nếu thông tin cần thiết một cách Các nhà nghiên cứu người nhìn nhận từ góc độ khối liệu Anh T. McEnery và A. Wilson nhanh chóng và dễ dàng. là cơ sở của Ngôn ngữ học đã đưa ra định nghĩa chung khối liệu - khoa học nghiên Khối liệu là công cụ để cho khái niệm khối liệu như cứu các phương pháp xây xây dựng, điều chỉnh và bổ sau: dựng và sử dụng khối liệu sung các hệ thống tự động a. (sử dụng tự do) khối với sự trợ giúp của công nghệ hóa khác nhau như dịch tự liệu là văn bản bất kì; máy tính, - thì có thể dựa vào động, nhận dạng lời nói, tìm b. (sử dụng thường xuyên) bốn đặc điểm cơ bản sau đây kiếm thông tin. Ví dụ, tìm khối liệu là văn bản điện tử; để định nghĩa khối liệu: kiếm trong khối liệu các dữ c. (sử dụng theo - Bao gồm các model điển liệu theo một từ bất kì có thể phong cách ngôn ngữ) khối hình. Nếu là khối liệu của hai tạo ra được cả một danh mục liệu là văn bản điện tử, được ngôn ngữ thì cần bao gồm liệt kê tất cả các trường hợp tập hợp sao cho có sự hiện các model tương đồng điển có sử dụng từ đó với đầy đủ diện của tất cả các phong hình; thông tin về nguồn gốc dữ cách ngôn ngữ chức năng.2 - Có kích cỡ xác định; liệu. Đối với các nhà nghiên Có thể coi một tập hợp bất - Ở dạng đọc được trên cứu ngôn ngữ, sử dụng khối kì các văn bản là khối liệu. máy tính; liệu sẽ tiết kiệm được rất - Có các chú giải chuẩn nhiều thời gian và công sức. 1 Thuật ngữ được sử dụng lần đầu về mặt ngôn ngữ. Khối liệu văn bản là cần tiên trong Brown khối liệu năm Căn cứ vào bản chất và thiết và hữu ích đối với giới 1961 với gần 1 triệu từ và cụm từ hoạt động ngôn ngữ của khối ngôn ngữ học hiện đại bởi vì Anh - Mĩ. liệu, có thể định nghĩa khối 2 Милчонока Э. Обзор ресурсов chúng tạo ra những khả năng liệu là tập hợp các dữ liệu латышского языка в Институте mới cho việc nghiên cứu của математики и информатики tương đồng về mặt ngôn ngữ, các nhà ngôn ngữ, làm tiết Латвийского университета// kiệm đáng kể thời gian và Сборник: Труды международной конференции đảm bảo cập nhật được lượng «Корпусная лингвистика – 3 Лингвистический lớn thông tin một cách rất 2002». - Издательство Санкт- энциклопедический словарь. nhanh chóng. Nhờ khối liệu Петербургского университета, Главн. ред. В.Н. Ярцев а. М. , có thể trong vài giây biết 2002. – С.97. 1990 . - 685 с.
- SỐ 7 (141)-2007 NGÔN NGỮ VÀ ĐỜI SỐNG 11 được tần số sử dụng của các làm cơ sở cho việc chuẩn bị lựa chọn văn bản và các nhiệm loại từ và cụm từ cần nghiên các loại từ điển hiện đại và lịch vụ được giải quyết trong khối cứu, theo dõi thường xuyên sử khác nhau một cách nhanh liệu. và điều chỉnh được tần số chóng và hiệu quả. Vai trò của Tiếp theo khối liệu Brown xuất hiện của chúng trên các Ngôn ngữ học khối liệu càng là sự ra đời của hàng loạt các phương tiện thông tin khoa khối liệu. Các nghiên cứu được khẳng định khi các công học và đại chúng. cho thấy rằng Ngôn ngữ học Tìm kiếm dữ liệu trong trình nghiên cứu về khối liệu khối liệu được hình thành như khối liệu cho phép trên cơ sở cho thấy khối liệu có thể sử một ngành khoa học độc lập một từ bất kì tạo ra được danh dụng để xây dựng các kĩ năng về ngôn ngữ văn bản là vào mục của tất cả các trường hợp và kiểm tra ngữ pháp trong những năm 90 thế kỉ XX. sử dụng của từ đó trong ngữ quá trình dạy học ngoại ngữ và Ngôn ngữ học khối liệu vẫn có cảnh với nguồn trích dẫn đầy dịch thuật. các mối quan hệ mật thiết với đủ. Các khối liệu có thể được 3. Lược sử quá trình Ngôn ngữ học máy tính qua sử dụng để nhận biết các thông hình thành và phát triển việc sử dụng các thành tựu của tin hướng dẫn, tham khảo và của Ngôn ngữ học khối liệu Ngôn ngữ học máy tính và số liệu thống kê về các đơn vị Xuất phát điểm của sự ngược lại, gây ảnh hưởng tích ngôn ngữ và lời nói. Khối liệu hình thành và ra đời Ngôn cực lên Ngôn ngữ học máy có thể cung cấp cho người sử dụng các thông tin về tần số ngữ học khối liệu có thể tính tính trong quá trình phát triển. hoạt động của từ và cụm từ, vào thời điểm đầu những Trong thập kỉ vừa qua, tại lexeme và v.v. năm 60 thế kỉ XX, khi xuất nhiều quốc gia đã và đang Khối liệu cho phép theo dõi hiện khối liệu văn bản ngôn tiến hành việc xây dựng các ngữ đầu tiên tại Mĩ và bắt khối liệu trên cơ sở bản ngữ. các thay đổi về tần số sử dụng đầu phát triển trong vòng hai Trong đó, mạnh mẽ hơn cả là các đơn vị từ vựng và các ngữ thập kỉ trở lại đây. Năm công trình xây dựng khối cảnh ở các giai đoạn phát triển 1963, lần đầu tiên khối liệu liệu tiếng Anh, xuất hiện lần khác nhau của lịch sử xã hội đầu tiên vào những năm 60 văn bản điện tử - khối liệu loài người. Khi nhận được các thế kỉ XX, điển hình sau khối Brown được xây dựng tại dữ liệu ngôn ngữ trong một liệu Brown University là trường đại học Brown (Mĩ) giai đoạn phát triển lịch sử khối liệu Lancaster/Oslo- do các tác giả là W. Francis nhất định từ khối liệu, người Bergen khối liệu (LOB). Mỗi và H. Kucera thiết kế và xây sử dụng có thể nghiên cứu các khối liệu chứa khoảng 1 triệu dựng bao gồm 1 triệu đơn vị quá trình biến đổi thành phần đơn vị từ và cụm từ sử dụng từ và cụm từ Anh - Mĩ từ các từ vựng của ngôn ngữ trên với sơ đồ hình thái học. văn bản in ấn được lựa chọn thực tế, có thể tiến hành các Ngoài ra, Lancaster/Oslo- vào năm 1961. Sự xuất hiện phân tích cú pháp ở các thể Bergen khối liệu còn chứa 2 của khối liệu Brown đã gây sự loại văn bản và của các tác giả khối liệu con là các khối liệu quan tâm lớn không những đối Leeds-Lancaster Treebank và khác nhau. với các nhà ngôn ngữ học, Lancaster Parsed khối liệu Khối liệu còn được sử dụng trước hết, về các nguyên tắc với sơ đồ cú pháp học. Khối
- 12 NGÔN NGỮ VÀ ĐỜI SỐNG SỐ 7 (141)-2007 liệu Anh Quốc (BNC) chứa Âu khác, trong số các khối sử dụng rất rộng rãi và hữu đến 100 triệu đơn vị từ và liệu, cần kể đến khối liệu hiệu, phục vụ đắc lực cho cụm từ sử dụng cũng được tiếng Đức. Đây là tập hợp lớn nền kinh tế phát triển của coi là một trong số các khối nhất các văn bản và ngôn bản Trung Quốc.7 liệu lớn nhất hiện nay. Khối bằng tiếng Đức, bao gồm Tại Liên bang Nga, ngôn liệu này được xây dựng vào khoảng 2 tỉ đơn vị từ và cụm ngữ học khối liệu được bắt những năm 90 thế kỉ XX trên từ sử dụng. Khối liệu này đầu nghiên cứu mới chỉ trong cơ sở sơ đồ hình thái học, chứa sơ đồ hình thái-cú pháp vòng hơn thập kỉ trở lại đây, bao gồm khoảng 90% đơn vị học dựa trên cơ sở SGML nhưng với tốc độ rất nhanh từ và cụm từ sử dụng ở dạng (Standard Generalized về thực hành, chuẩn xác về lí viết, 10% số đơn vị còn lại ở Markup Language). Hệ thống thuyết. Hiện nay, ngôn ngữ dạng nói. tự động hóa COSMAS II của học khối liệu đang được Ngày nay, việc dạy và học khối liệu tiếng Đức cho phép giảng dạy tại các trường đại tiếng Anh đạt hiệu quả, trong người sử dụng dễ dàng tìm học lớn và nghiên cứu tích đó một phần đáng kể là có sự trợ kiếm thống tin chứa trong cực tại các viện nghiên cứu giúp của công nghệ máy tính khối liệu này theo các dấu ngôn ngữ của Liên bang Nga với việc sử dụng các khối hiệu tình thái học của dạng nhằm phục vụ cho một nền liệu. Có thể kể đến các khối từ. Một hệ thống khác cũng kinh tế tăng trưởng. Trong liệu quan trọng như Bank of cần kể đến là khối liệu tiếng vòng 5-6 năm trở lại đây, English 1997 với 320 triệu Tiệp với 100 triệu đơn vị từ Ngôn ngữ học ở LB Nga đơn vị từ và cụm từ sử dụng và cụm từ sử dụng. Ở đây, khối liệu được đặc biệt quan hoặc ICLE 1997 với 200 chương trình ngôn ngữ hỗ trợ tâm nghiên cứu và phát triển. triệu đơn vị từ và cụm từ sử cho khối liệu là chương trình Khối liệu tại LB Nga được sử dụng dưới dạng viết dành cho tạo lập danh mục từ và cụm dụng rộng rãi trong các lĩnh người nước ngoài4. Ngoài các từ trong khối liệu cho phép vực của ngôn ngữ học ứng khối liệu kể trên, còn tồn tại cập nhật toàn bộ các ví dụ sử dụng, từ vựng học, dạy và hàng loạt khối liệu tiếng Anh dụng với đầy đủ trích dẫn, học ngoại ngữ, ngôn ngữ học khác được sử dụng cho việc tần số xuất hiện, phân tích máy tính và các lĩnh vực nghiên cứu bằng tiếng Anh, ngữ pháp từ hoặc cụm từ sử khoa học xã hội khác. Khối cho việc dạy và học tiếng dụng trong khối liệu.6 liệu tiếng Nga đến nay đã Anh như một ngoại ngữ.5 Đối với các nước châu Á, tăng đáng kể lượng các đơn Đối với các nước châu Trung Quốc và Nhật Bản là vị từ và cụm từ sử dụng, mở những nước có các khối liệu bản rộng phạm vi sử dụng ngôn 4 Рыков В.В. Корпус текстов как ngữ lớn nhất. Khối liệu tiếng ngữ trong nhiều lĩnh vực отражение состояния русского Trung chứa khoảng 1 tỷ đơn языка // Труды Международного khoa học khác nhau. конгресса "Русский язык: vị từ và cụm từ, đang được Ở Việt Nam, việc xây исторические судьбы и dựng khối liệu tiếng Việt trong современность" . – Москва: МГУ, 6 McEnery T., Wilson A. Khối liệu 2001 г. Linguistics. – Edinburgh: 5 7 http://www.viniti.ru Edinburgh University Press, 1999. http://ru.wikipedia.org
- SỐ 7 (141)-2007 NGÔN NGỮ VÀ ĐỜI SỐNG 13 quá trình hội nhập quốc tế của trò ngày càng quan trọng лингвистических данных // Việt Nam là vấn đề cần thiết trong nền kinh tế toàn cầu khi Сборник: Труды và cấp bách. các lĩnh vực khoa học và международной конференции Nhờ sự phát triển của các công nghệ phát triển mạnh. «Корпусная лингвистика – 2002». - Издательство Санкт- khối văn bản tương đương Có thể nói rằng khối liệu Петербургского университета. giữa các cặp ngôn ngữ, cuối đang được sử dụng rộng rãi 8. Милчонока Э. (2002). thế kỉ XX đã xuất hiện hệ bởi các nhà ngôn ngữ ứng Обзор ресурсов латышского thống dịch theo phương pháp dụng, các chuyên gia ngôn языка в Институте thống kê tự động đầu tiên, ngữ - lí luận, ngôn ngữ máy математики и информатики «…mặc dù vẫn còn những tính, các giảng viên và các Латвийского университета// hạn chế, phương pháp thống chuyên gia thuộc nhiều lĩnh Сборник: Труды kê đối với việc dịch tự động đã vực khoa học và đời sống международной конференции làm giảm nhẹ đáng kể so với khác nhau. «Корпусная лингвистика – việc xây dựng các hệ thống 2002». - Издательство Санкт- Tài liệu tham khảo theo phương pháp truyền Петербургского университета. 1. Brown, R. (1973) A 9. Рыков В.В. (2001). thống. Thành tựu không thể First Language: The Early Корпус текстов как отражение phủ nhận của các hệ thống này Stages, Cambridge, MA: состояния русского языка // là loại bỏ việc xây dựng các từ Harvard University Press. Труды Международного điển điện tử theo phương pháp 2. Chomsky, N. (1968) конгресса "Русский язык: thủ công …»8. Language and Mind, Harcourt исторические судьбы и Cho đến nay, ngôn ngữ Brace, New York. современность" . – Москва: 3. Mcenery, T. and Wilson, học khối liệu ngày càng có xu МГУ. A. (1996) Khối liệu Linguistics. hướng phát triển mạnh mẽ 10. Лингвистический Edinburgh University Press. cùng với sự phát triển của энциклопедический словарь. 4. Barnbrook, G. (1996). Главн. ред. В.Н. Ярцева. М., công nghệ thông tin. Là một Language and Computers: a bộ phận của ngôn ngữ học 1990. - 685 с. practical introduction to the 11. Розенталь М.А., ứng dụng, Ngôn ngữ học khối computer analysis of language. Теленкова М.А. (1985). liệu hiện nay đang được nâng Edinburgh University Press. Словарь – справочник cao hiệu quả về thực hành và 5. Woods, A., Fletcher, лингвистических терминов. hoàn thiện về lí thuyết. Ngôn P., and Hughes, A. (1986). М., “Просвещение”. – 399 с. ngữ học khối liệu đóng vai Statistics in Language Studies. 12. Дао Хонг Тху (2006). Cambridge. Cambridge Корпус параллельных текстов University Press. в аспекте корпусной 8 Марчук Ю.Н. Корпус текстов лингвистики. // Проблемы и сверхбольшие базы 6. McEnery T., Wilson A. (1999). Khối liệu Linguistics. современной филологии и лингвистических лингводидактики, сб. научных данных // Сборник: Труды – Edinburgh: Edinburgh международной конференции трудов, СПб, изд.РГПУ им. University Press. А.И.Герцена, c.23-28. «Корпусная лингвистика – 7. Марчук Ю.Н. (2002). 2002». - Издательство Санкт- Петербургского университета, Корпус текстов и (Bài này gửi đến Ban biên tập 2002. – С.96. сверхбольшие базы ngày 06-06-2007)
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn