intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Báo cáo công trình nghiên cứu khoa học sinh viên năm 2009: Xếp hạng các trường đại học dựa trên độ đo web và áp dụng vào bài toán xếp hạng các trường đại học Việt Nam

Chia sẻ: Lê Na | Ngày: | Loại File: PDF | Số trang:36

101
lượt xem
14
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xếp hạng các trường đại học (university ranking) nhận được rất nhiều sự quan tâm của các tổ chức xã hội và tổ chức giáo dục trên thế giới. Hiện nay, nhiều hệ thống xếp hạng dựa trên các phương pháp định tính cũng như định lượng đã được công bố. Trong đó, xếp hạng trường đại học dựa trên độ đo web được khởi xướng bởi phòng nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC - trung tâm nghiên cứu lớn nhất của Tây Ban Nha - công bố vào tháng 1 và thang 7 hàng năm. Báo cáo đưa ra mô hình thực nghiệm áp dụng phương pháp “xếp hạng dựa trên độ đo web” vào bài toán xếp hạng các trường đại học Việt Nam. Thực nghiệm ban đầu cho kết quả khả quan của mô hình. 

Chủ đề:
Lưu

Nội dung Text: Báo cáo công trình nghiên cứu khoa học sinh viên năm 2009: Xếp hạng các trường đại học dựa trên độ đo web và áp dụng vào bài toán xếp hạng các trường đại học Việt Nam

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM 2009 Đề tài: XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC DỰA TRÊN ĐỘ ĐO WEB VÀ ÁP DỤNG VÀO BÀI TOÁN XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC VIỆT NAM Người thực hiện: Trần Nam Khánh – K50HTTT Phùng Văn Huy – K50HTTT Nguyễn Tiến Thanh – K51CA Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Cử nhân Nguyễn Thu Trang Hà Nội, 2009
  2. Tóm tắt nội dung Xếp hạng các trường đại học (university ranking) nhận được rất nhiều sự quan tâm của các tổ chức xã hội và tổ chức giáo dục trên thế giới. Hiện nay, nhiều hệ thống xếp hạng dựa trên các phương pháp định tính cũng như định lượng đã được công bố. Trong đó, xếp hạng trường đại học dựa trên độ đo web được khởi xướng bởi phòng nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC - trung tâm nghiên cứu lớn nhất của Tây Ban Nha - công bố vào tháng 1 và thang 7 hàng năm. Báo cáo đưa ra mô hình thực nghiệm áp dụng phương pháp “xếp hạng dựa trên độ đo web” vào bài toán xếp hạng các trường đại học Việt Nam. Thực nghiệm ban đầu cho kết quả khả quan của mô hình. 1
  3. Mục lục 1. Giới thiệu ................................................................................................................ 4 2. Khái quát về Webometrics ...................................................................................... 5 2.1. Xếp hạng trang web........................................................................................... 5 2.2. Xếp hạng các thực thể trên web ........................................................................ 7 2.3. Khái quát về Webometrics .............................................................................. 10 3. Một số hệ thống xếp hạng trường đại học điển hình ............................................ 13 3.1. Phương pháp chung ......................................................................................... 13 3.1.1. Thu thập dữ liệu .................................................................................... 13 3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu chí. ............................................................................................................... 13 3.1.3. Tổng hợp và công bố kết quả ................................................................ 15 3.2. Các hệ thống xếp hạng quốc gia...................................................................... 15 3.2.1. Mỹ - US News and World Report (USNWR) ...................................... 15 3.2.2. Anh - Times Higher Education Supplement (THES) ........................... 15 3.2.3. Australia - Good Universities Giude (GUG) ........................................ 16 3.2.4. Canada - Macleans Raking ................................................................... 16 3.3. Các hệ thống xếp hạng quốc tế........................................................................ 17 3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) ....... 17 3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher Education Supplemen (THES).............................................................................. 18 4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web ....................................... 19 4.1. Giới thiệu ......................................................................................................... 19 4.2. Phương pháp luận ............................................................................................ 20 4.2.1. Thu thập dữ liệu .................................................................................... 20 4.2.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số .......................... 21 5. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại học Việt Nam ................................................................................................................ 22 5.1. Xác định các chỉ số.......................................................................................... 23 5.1.1. Chỉ số nhận diện (V – Visibility) .......................................................... 23 5.1.2. Chỉ số kích thước (Size – S) ................................................................. 26 5.1.3. Chỉ số phong phú tài liệu (Rich files - R) ............................................. 26 5.1.4. Chỉ số bài báo khoa học (Scholar – Sc) ................................................ 26 5.2. Xác định trọng số cho các chỉ số ..................................................................... 27 6. Bảng xếp hạng - Phân tích đánh giá ..................................................................... 28 7. Kết luận và định hướng nghiên cứu ...................................................................... 30 2
  4. Danh sách hình vẽ Hình 1. Đồ thị biểu diễn liên kết web Hình 2. Mô hình chung của tìm kiếm thực thể Hình 3. Một thuật toán xếp hạng thực thể. Hình 4. Mô hình thực nghiệm chung Hình 5. Đồ thị web các trường đại học Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks) Hình 7. Mô hình mở rộng phương pháp 2 Danh sách bảng biểu Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008) Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008) Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics Bảng 6: Các câu truy vấn trong xác định chỉ số V Bảng 7. Các câu truy vấn xác định chỉ số S Bảng 8: Câu truy vấn xác định chỉ số R Bảng 9: Trọng số cho các chỉ số S, V, R, Sc Bảng 10. Bảng xếp hạng các trường đại học Việt Nam Bảng 11. Danh sách các trường Việt Nam được Webometrics xếp hạng Danh sách biểu đồ Biểu đồ 1: Mối quan hệ giữa các độ đo Biểu đồ 2. So sánh kết quả kết quả thực nghiệm và webometrics 3
  5. 1. Giới thiệu Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục trên thế giới. Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001) cũng lần lượt đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20, các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương Quốc Anh (2004) và của Webometrics (2004). Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục và Đào tạo Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54 khu vực và 2850 thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học: Xu thế toàn cầu và quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đại học Việt Nam” với mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại học tại Việt Nam [Nga08]. Báo cáo này tập trung vào việc nghiên cứu phương pháp sử dụng độ đo web trong xếp hạng các trường đại học trên thế giới, được Phòng nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC (Tây Ban Nha) khởi xướng. Cuối cùng là áp dụng phương pháp trên để xây dựng mô hình thực nghiệm cho việc xếp hạng các trường đại học Việt Nam. Dữ liệu về website các trường đại học Việt Nam được lấy về từ trang chủ của Bộ Giáo dục và Đào tạo Việt Nam (có bổ sung sửa đổi). Phần còn lại của báo cáo sẽ được chức thành năm mục. Mục đầu sẽ trình bày khái quát về Webometrics. Mục thứ hai sẽ giới thiệu về phương pháp chung thực hiện trong xếp hạng trường đại học và các hệ thống xếp hạng quốc gia, quốc tế. Tiếp theo 4
  6. báo cáo trình bày phương pháp xếp hạng trường đại học dựa trên độ đo web - webometrics. Mục thứ tư sẽ trình bày mô hình thực nghiệm áp dụng phương pháp trong xếp hạng các trường đại học tại Việt Nam. Mục cuối cùng sẽ đưa ra kết quả - bảng xếp hạng- phân tích đánh giá kết quả và định hướng nghiên cứu 2. Khái quát về Webometrics 2.1. Xếp hạng trang web Ngày nay với sự phát triển của Internet, người dùng đã có được một nguồn tài nguyên tri thức phong phú, đa dạng. Tuy nhiên, do số lượng các trang web quá lớn, con người không có đủ thời gian cũng như kiên nhẫn để mà có thể ghé thăm qua từng trang cho tới khi tìm ra thông tin mình mong muốn. Chính vì lý do đó máy tìm kiếm ra đời với cách thức hoạt động khá đơn giản và thân thiện: người dùng đưa ra từ khóa về thông tin mong muốn, máy sẽ liệt kê ra các trang liên quan. Song thực sự thì lượng kết quả máy cho là phù hợp với truy vấn của người dùng cũng không hề nhỏ! Do đó, đặt ra yêu cầu xếp hạng các trang để máy hiển thị kết quả trả về tốt hơn cho người dùng. Các trang web trên Internet được xây dựng và liên kết với nhau. Nếu coi mỗi trang web là một điểm, và mỗi liên kết từ một trang web này tới một trang web khác là một tia, thì ta có thể biểu diễn được tập hợp các trang web, mối quan hệ giữa chúng bằng một đồ thị G - gọi là đồ thị Web. Đồ thị G là đồ thị có hướng. Mỗi đỉnh pi của G tương ứng với một trang. Cung pi -> pj cho biết rằng trang ứng với đỉnh pi có liên kết tới trang ứng với đỉnh pj. Kí hiệu N(p) là số liên kết vào p. B(p) là số liên kết ra từ p. Trong tính toán, G được biểu diễn bằng ma trận. Có hai dạng ma trận thường được sử dụng đó là ma trận kề A và ma trận chuyển P. Dưới đây là một ví dụ của đồ thị G để minh họa, làm rõ cách biểu diễn G bằng ma trận P P P P Hình 1. Đồ thị biểu diễn liên kết web 5
  7. Ma trận kề A: aij = 1 nếu trang i có liên kết tới j, bằng 0 trong các trường hợp khác (ko tính tự liên kết, tức aii = 0 với mọi i)  a11 a12 a13 a14  0 1 0 1 a a22 a23 a24  1 0 0 1   21 =  a31 a32 a33 a34  0 0 0 0      a41 a42 a43 a44  0 0 0 0 Ma trận chuyển P: pij = 1/B(i) nếu trang i có liên kết trỏ tới j, bằng 0 trong các trường hợp khác  p11 p12 p13 p14   0 1 2 0 1  2 p p22 p23 p24   1 2 0 0 1   21 = 2  p31 p32 p33 p34   0 0 0 0      p41 p42 p43 p44   0 0 0 0 Do tính chất đặc thù có khả năng liên kết giữa các trang web, nên sự xếp hạng các trang web ở mức toàn cục luôn có việc phân tích liên kết trên đồ thị web. Nội dung dưới đây sẽ trình bày khái quát về 2 phương pháp xếp hạng dựa trên liên kết phổ biến PageRank và HITS Phương pháp PageRank Là phương pháp tính hạng được phát triển tại đại học Stanford bởi Lary Page (cũng bởi vậy mà có tên PageRank) và tiếp đó bởi cùng Sergey Brin. Sau này trở thành thương hiệu của Google [PBMW98]. Ý tưởng: Độ quan trọng của một trang thừa hưởng một phần độ quan trọng từ trang liên kết đến nó. Công thức tính hạng trang pi Trong đó: N là tổng số trang, d là hệ số hãm (qua thực nghiệm, tác giả công bố chọn 0.85), M(pi) là tập các trang liên kết tới pi, L(pj) là số trang pj liên kết đến. Ưu điểm của PageRank: đơn giản, tính toán nhanh, đáng tin; không phụ thuộc vào truy vấn của người dùng, nội dung của trang web; có thể tính toán ngoại tuyến với đầu vào là cấu trúc đồ thị web. Dĩ nhiên trên thực tế Google không chỉ sử dụng nguyên PageRank “cổ điển” để xếp hạng trang. Phương pháp HITS (Hyperlink-Induced Topic Search – KleinBerg) Ý tưởng: Độ quan trọng của một trang web được xác định dựa trên 2 trọng số authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt 6
  8. là trang có nhiều liên kết tới. 2 trọng số này có quan hệ qua lại với nhau: trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao. Quá trình tính toán: Từ câu truy vấn, xác định tập nhân, mở rộng thành tập cơ sở S gồm n trang. Ban đầu khởi tạo trọng số hub và authority cho mỗi trang bằng 1. ai=hi=1. Sau đó tiến hành tính ai và hi theo công thức ai = ∑ j∈B ( i ) h j và hi = ∑ j∈N ( i ) aj Ưu điểm: Áp dụng với tập nhỏ, tính toán trực tuyến Minh họa áp dụng PageRank vào xếp hạng các blog ở Việt Nam Bài toán: Blog ngày càng phát triển và trở nên phổ biến đối với mọi người. Xếp hạng các blogger để đánh giá sự “nổi tiếng”, “đóng góp” của họ với cộng đồng, ưu tiên hiển thị các bài viết mới “chất lượng” của họ trên máy tìm kiếm blog. Nhận xét: Mạng blog là một loại của mạng xã hội. Chúng ta có thể mô hình hóa bằng đồ thị G có hướng. Mỗi đỉnh ứng với một blogger. Cung AB chỉ ra rằng blogger A có lời bình - nhận xét cho bài viết của B, và được đánh trọng số là tổng số lời bình, nhận xét của A cho các bài viết của B. Khi đó dễ dang nhận thấy “liên kết thông qua comment” giữa các blogger khá giống “liên kết” giữa các trang web. Vì thế chúng ta có thể áp dụng PageRank sửa đổi để tính toán phục vụ việc xếp hạng. Sự sửa đổi ở đây chính là ở trọng số lời bình - nhận xét. Công thức áp dụng tính hạng cho blogger i PR(i) = Trong đó: N là tổng số blogger, α là hệ số hãm (0.85), Nj,i là số lời bình - nhận xét của j cho i, Nj là số lời bình – nhận xét của j cho tất cả các blogger 2.2. Xếp hạng các thực thể trên web Các máy tìm kiếm hiện nay: Google, Yahoo hay Live Search đều tâp trung tìm kiếm dựa từ khóa mà không quan tâm đến dữ liệu. Cụ thể hơn thì các máy tìm kiếm hiện nay có 2 hạn chế chính: § Indirect Input and Output. Người dùng không thể miêu tả chính xác những gì họ cần do đó khi tìm kiếm người dùng có thể tìm vào những trang web mà không có thông tin họ mong muốn. Tiếp đó, người dùng không thể trực tiếp lấy những gì họ muốn. Vì họ phải chọn lọc qua một danh sách các trang để tìm kết quả. § Singular Matching Mechanism. Máy tìm kiếm hiện nay tìm mỗi trang một cách rất đơn giản chỉ bằng cách so sánh văn bản (text) 7
  9. trên từng trang. Mặc dù thực thể kết quả có thể chứa trong nhiều trang khác nhau. Do đó, tìm kiếm thực thể được đưa ra để giải quyết các giới hạn trên: § Input: Người dùng có thể đưa ra một cách rõ ràng loại dữ liệu nào mà họ đang tìm kiếm. Họ chỉ đơn giản chỉ rõ thực thể đích là gì và từ khóa nào xuất hiện trong ngữ cảnh đó. Eg: o Q1: (amazon customer service #phone) o Q2: (#professor #university #research=’database’) o Q3 ow (sigmod 2006 #pdf_file #ppt_file) o Q4 (title=’hamlet’ #image #price) Có 2 phần chính trong câu truy vấn: o Context pattern (Mẫu ngữ cảnh)– thực thể đích xuất hiện như thế nào? Q1: #phone sẽ xuất hiện trong các từ khóa với pattern mặc định. Chúng ta cũng có thể chỉ rõ ra các mẫu như Q3 sử dụng ow (order window)- từ khóa phải xuất hiện trước #pdf_file #ppt_file. o Content restriction (Giới hạn về nội dung). Chúng ta có thể giới hạn domain cho vùng tìm kiếm như Q2 chỉ nghiên cứu trong lĩnh vực database (sử dụng “=” hoặc “contain”) Output: Người dùng nhận được kết quả như họ mong đợi. Hình 2. Mô hình chung của tìm kiếm thực thể 8
  10. Xếp hạng thực thể là cốt lõi của máy tìm kiếm thực thể. Do đó, xếp hạng thực thể đang nhận được sự quan tâm nghiên cứu của các nhà khoa học. Các nhân tố chung ảnh hưởng đến việc xếp hạng: - R-Contextual: Xác suất (từ khóa, thể hiện) sẽ khác nhau trong các ngữ cảnh khác nhau.Chúng phụ thuộc vào các yếu tố: o Pattern: Từ khóa và các thể hiện sẽ có một quan hệ thông thường nhât định. Ví dụ: Tên công ty thường xuất hiện trước số điện thoại. o Proximity: (Từ khóa và thể hiện) sẽ có xác suất không giống nhau trong trang web. Sự kết hợp sẽ mạnh hơn khi chúng ở gần nhau hơn. Ví dụ hình trên hiển nhiên thể hiện e1 sẽ là thích hợp hơn với từ khóa Amazon so với thể hiện e6 - R-Holistic: Một thể hiện có thể xuất hiện cùng với từ khóa nhiều lần trong một trang. Tất cả việc matchings sẽ được tổng hợp lại cho việc đánh giá xác suất sự thích hợp của chúng - R-Uncertainty: Việc trích chọn thực thể luôn luôn là không hoàn hảo. Do đó luôn phải có một xác suất cho chúng. - R-Associative: Chúng ta phải cẩn thận để phân biệt giữa việc kết hợp đúng (từ khóa, thể hiện) và sự ngẫu nhiên. Do đó chúng ta cũng cần phải kiểm tra lại tính hợp lệ của các kết hợp R-Discriminative: Các thể hiện match trên trang phổ biến hơn sẽ được đánh giá cao hơn so với các thể hiện trên trang ít phổ biến hơn. Giả sử chúng ta có tập tài liệu D = {d1, d2,…,dn} và câu truy vấn q(t). T là khoảng thời gian quan sát và nghiên cứu câu truy vấn q(t) trong tập tài liệu. Chúng ta có công thức xác định xác suất tính độ phù hợp của q(t) trong D: Dựa vào Score(q(t)) chúng ta đưa ra xếp hạng cho kết quả trả về. Tao Cheng, Xifeng Yan, Kevin Chen-Chuan Chang [TXK07] đã đưa ra mô hình Impression để xác định công thức (1) và đưa ra thuật toán cho việc xác định xếp hạng thực thể 9
  11. Hình 3. Một thuật toán xếp hạng thực thể. 2.3. Khái quát về Webometrics Bắt đầu từ một mạng tài liệu toàn cầu phục vụ cho các mục đích học thuật, ngày nay Web đã trở thành một lĩnh vực nghiên cứu quan trọng của bibiometrics, scientometrics và infometrics. Biểu đồ 1: Mối quan hệ giữa các độ đo Webometrics và Cybermetrics hiện tại là hai thuật ngữ được sử dụng rộng rãi nhất trong trong lĩnh vực nghiên cứu khoa học thư viện và thông tin (LIS). Mối quan hệ giữa chúng được thể thiện trên Biểu đồ 1 nhưng thường được sử dụng với nghĩa tương đương nhau. Cần phân biệt giữa nghiên cứu về Web và nghiên cứu về tất cả những ứng dụng Web. Theo đó, thuật ngữ “webometrics” được định nghĩa bởi Björneborn and Ingwersen [BI04] là “Nghiên cứu các thống kê định lượng của việc xây dựng và sử 10
  12. dụng các tài nguyên thông tin, cấu trúc và công nghệ trên Web trên cơ sở của phương pháp bibliometric và informetrics” (nguyên văn tiếng Anh "The study of the quantitative aspects of the construction and use of information resources, structures and technologies on the Web drawing on bibliometric and informetric approaches"). Định nghĩa này vì vậy bao trùm tất các các thống kê định lượng cả về mặt xây dựng (construction side) và mặt sử dụng (usage side) của Web bao gồm 4 lĩnh vực chính của các nghiên cứu webometric hiện tại: (1) Phân tích nội dung trang Web; (2) Phân tích cấu trúc liên kết Web; (3) Phân tích sử dụng Web (bao gồm các file log các hành vi tìm kiếm và truy cập trang web của người sử dụng); (4) Phân tích công nghệ Web (bao gồm hiệu năng, hoạt động của các máy tìm kiếm). Định nghĩa trên đây đặt webometrics như là một thuật ngữ LIS đặc trưng song song với bibliometrics và informetrics [BI04]. Điều này được nhấn mạnh bởi công thức “Web drawing on bibliometric and informetric approaches” bởi “drawing on” chỉ rõ một sự kế thừa không giới hạn sự phát triển bất cứ một phương pháp Web đặc biệt nào, bao gồm sự hợp nhất các phương pháp nghiên cứu về Web trong khoa học máy tính, phân tích mạng xã hội (social netwwork analysis), nghiên cứu siêu văn bản, đa phương tiện và hơn thế nữa. Trong [BI04], hai ông cũng đề xuất định nghĩa cho cybermetrics là một thuật ngữ dùng để chỉ: “Nghiên cứu các thống kê định lượng của việc khởi tạo và sử dụng các tài nguyên, cấu trúc và công nghệ thông tin trên toàn bộ Internet theo hướng tiếp cận bibliometric và informetric” (nguyên văn tiếng Anh "The study of the quantitative aspects of the construction and use of information resources, structures and technologies on the whole Internet drawing on bibliometric and informetric approaches"). Theo [BI04, Payn08, Rous08], cybermetrics vì vậy bao gồm các phương pháp nghiên cứu thông kê của một nhóm thảo luận, danh sách địa chỉ email và các giao tiếp máy tính gián tiếp khác trên mạng bao gồm cả Web. Bên cạnh việc bao phủ tất cả các phương tiện giao tiếp gián tiếp khác sử dụng các ứng dụng Internet, định nghĩa này cũng bao trùm cả các đo lường định lượng đối với công nghệ đường truyền Internet (Internet backbone technology), topology, và lưu lượng. Các nghiên cứu [Ailr05, Ailr06, BI04, Rous08, Payn08] khẳng định rằng mức độ bao phủ của cybermetrics và webometrics chồng lên các phương pháp khoa học máy tính cơ sở với một sự gia tăng nhanh chóng trong các phân tích nội dung Web, cấu trúc liên kết, sử dụng Web và công nghệ Web. Một loạt các phương pháp nổi lên trong giữa những năm 1990 như cyber geography và cyber cartography, Web ecology, Web mining, Web graph analysis, Web dynamics, và Web intelligence. Có một vài khác biệt về mặt khái niệm trong informetrics, bilbiometrics và scientometrics. Theo định nghĩa được thừa nhận rộng rãi của, ví dụ, Brookes (1990), 11
  13. Egghe và Rouseau (1990), Tague-Sutcliffe (1992), lĩnh vực informetrics bao trùm các lĩnh vực của bibliometrics và scientometrics Theo Tague-Sutcliffe, “informetrics là nghiên cứu các thống kê định lượng của thông tin ở bất cứ một dạng nào, không chỉ các bản ghi hay sách, và trong bất cứ một nhóm xã hội nào, không chỉ nhóm các nhà khoa học ” (nguyên văn tiếng Anh "the study of the quantitative aspects of information in any form, not just records or bibliographies, and in any social group, not just scientists"). Còn bibliometrics được định nghĩa là “nghiên cứu các thống kê định lượng về sự sản xuât, sự phổ biến và sử dụng các thông tin đã được mã hóa” (nguyên văn tiếng Anh "the study of the quantitative aspects of the production, dissemination and use of recorded information"). Và, scientometrics là “nghiên cứu các thống kê định lượng của khoa học như là một ngành hay hoạt động kinh tế” (nguyên văn tiếng Anh "the study of the quantitative aspects of science as a discipline or economic activity") Theo các thống kê thuộc kinh tế - chính trị thì scientometrics và bibliometrics có phần giao nhau như minh họa trên biểu đồ 1. Tuy nhiên, hiện nay, sau khi Pritchard và Nalimov, Mulchenko đưa ra các định nghĩa của mình về bibliometrics và sciencometrics, hai khái niệm này đã được dùng đồng nhất với một ý nghĩa là “sử dụng các phương pháp toán học và thống kê cho việc phân tích các dữ liệu khoa học bao gồm sách và các dữ liệu khác” [Payn08, Rous08]. Biểu đồ 1 hơn nữa chỉ rõ, webometrics hoàn toàn nằm trong bibliometrics, bởi vì các văn bản Web, cho dù là dạng văn bản hay đa phương tiện, đều là các thông tin đã được mã hóa (theo như định nghĩa) lưu trữ trên các Web server. Các bản ghi này có thể chỉ lưu trữ tạm thời, chỉ đơn giản vì không phải tất cả các bản ghi được lưu trữ. Webometrics có một phần giao với scientometrics, vì rất nhiều các hoạt động học thuật ngày nay diễn ra trên Web, trong khi đó, lại có các hoạt động khác thậm chí vượt ra ngoài bibliometrics, ví dụ, những thứ không được ghi lại, chảng hạn các giao tiếp giữa người với người. Hơn nữa, webometrics hoàn toàn nằm trong cybermetrics như theo định nghĩa. Trong biểu đồ 1, lĩnh vực cybermetrics nằm ngoài bibliometrics bởi vì một vài hoạt động trong vùng của cybermetrics thông thường không được lưu trữ nhưng đúng hơn là được giao tiếp đồng thời, chẳng hạn trong phòng chat. Cybermetrics nghiên cứu các hoạc động mà nó vẫn nằm trong lĩnh vực thông thưởng của infometrics như là sự nghiên cứu thống kê định lượng của thông tin ở bất cứ dạng nào và bất cứ nhóm xã hội nào. Một cách tự nhiên, ý tưởng lấy bibliometrics, scientometrics và informetrics là điểm bắt đầu của việc phân tích trên web đã mở rộng lĩnh vực bibliometrics. Trên cơ sở coi web như là một thư viện số, các công cụ và thủ thuật sử dụng trong phân tích 12
  14. các cấu trúc tri thức trong thư viện giấy truyền thống được sử dụng trong môi trường mới này. Các trang web được nhóm thành các miền (domain) có cùng thuộc tính cần khảo sát, mỗi một miền được coi như là một node của hệ thống mạng và sau đó, sử dụng các máy tìm kiếm phân tích các trích dẫn, liên kết (links) giữa các node rồi từ đó sử dụng các phương pháp xác suất thống kê để tạo nên các độ đo giữa các node domain này. Chính nhờ việc nhóm thành các domain mà webometrics trở thành một phần quan trọng trong các bài toán về tìm kiếm và xếp hạng các đối tượng trên web. Như vậy, webometrics là độ đo về hạng các đối tượng trên web mà trường đại học là một đối tượng trong đó. 3. Một số hệ thống xếp hạng trường đại học điển hình 3.1. Phương pháp chung Vấn đề xếp hạng khá đa dạng về cách tiếp cần nhưng đều có một quy trình chung, gồm 4 bước: Ø Thu thập dữ liệu về các trường Ø Xác định và tiêu chuẩn hóa các tiêu chí đánh giá Ø Phân tích và tính trọng số cho từng tiêu chí trên dữ liệu thu về Ø Tổng hợp và công bố bảng xếp hạng Tùy thuộc vào cách thực hiện các bước khác nhau mà ta có các bảng xếp hạng khác nhau 3.1.1. Thu thập dữ liệu Có nhiều phương pháp thu thập dữ liệu, trong đó có 3 dạng chính: Thu thập dữ liệu theo phương pháp khảo sát, sử dụng các bảng hỏi (Bản tin thế giới và tin tức Hoa Kỳ - USNWR; Xếp hạng các trường đại học Canada – Maclean; Xếp hạng các trường đại học trên thế giới của AsiaWeek…). Thu thập dữ liệu từ tổ chức chính phủ hay tổ chức có chức năng thích hợp (Xếp hạng trường đại học của Vương Quốc Anh). Thu thập dữ liệu từ các nguồn trên Internet (Xếp hạng webometrics). Hay thu thập dữ liệu kết hợp giữa khảo sát và số liệu quốc gia. 3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu chí. Việc xác định, lựa chọn và đánh trọng số các tiêu chi đánh giá thể hiện quan điểm (phương pháp luận) của các bảng xếp hạng cũng như mục tiêu mà nó hướng tới. Có những bảng xếp hạng sử nhiều chỉ số tập trung vào một phạm trù nào đó và có những loại nhiều chỉ số dàn trải trên các phạm trù khác nhau . Các loại chỉ số thường được dùng nhiều nhất gồm có 7 loại (phạm trù): 13
  15. Ø Các đặc điểm bắt đầu (đại diện cho các đặc điểm, phẩm chất và năng lực của sinh viên khi họ bắt đầu nhập học) Ø Đầu vào của việc học – nguồn lực tài chính, cơ sở vật chấtvà nhân viên Ø Môi trường học tập; Ø Sản phẩm của việc học tập (kỹ năng hoặc phẩm chất khác của sinh viên có được sau khi tốt nghiệp) Ø Các kết quả cuối cùng (mục đích cuối cùng mà hệ thống giáo dục đóng góp) Ø Nghiên cứu Ø Danh tiếng Chẳng hạn bảng xếp hạng các trường đại học nghiên cứu của Hoa Kì (ĐH Florida) cho rằng “không một chỉ số hay con số đơn lẻ nào có thể mô tả một cánh chính xác một trường đại học đã đạt được những gì, có thê làm gì và sẽ làm gì” mà cần có “một tập các chỉ số gôp chung lại có thể phản ánh rõ nét nhất những kết quả, năng lực và điểm mạnh của trường”. Họ cho rằng, nghiên cứu là yếu tố quan trọng nhất để chứng minh đại học nào là đại học tốt nhất và họ đã lựa chọn các chỉ số liên quan tới nghiên cứu khoa học như tổng chi cho nghiên cứu và phát triển khoa học, tổng kinh phí từ chính phủ liên bang cho các đề tài nghiên cứu, các giảng viên (số lượng viện sỹ, tiến sĩ, giáo sư…), sinh viên, và thêm một vài chỉ số khác cho các nguồn lực khác hay bảng xếp hạng Iberoamericano – Toàn bộ các nước thuộc Tây Ban Nha và Bồ Đào Nha chỉ sử dụng một trọng số duy nhất: nghiên cứu. Cũng có những bảng xếp hạng quan tâm tới yếu tố đầu vào như các đặc điểm bắt đầu; đầu vào của việc học: nhân viên, nguồn lực…(như các bảng xếp hạng của Hoa Kỳ, Anh Quốc, bảng xếp hạng của đại học Ukranian, La repubblica, Rzezcspospolita, Exellencia, the Times, Maclean’s,….) Trong khi đó các bảng xếp hạng quan tâm nhiều tới đóng góp cho lĩnh vực nghiên cứu (bảng xếp hạng của ĐH Giao thông Thượng Hải dành tới 90% cho lĩnh vực nghiên cứu với các trọng số có được từ việc đếm các trích dẫn trong hệ đo sách và dành rất ít trọng số cho các nguồn lực đầu vào). Có những bảng xếp hạng quan tâm tới danh tiếng của trường xếp hạng, coi đó là một trọng số quan trọng (chẳng hạnTHES dành 50% trọng số cho điều này) trong khi đó các bảng xếp hạng ở Anh lại tránh sử dụng chỉ số này. Nếu chỉ số này thường ít được sử dụng, nhưng nếu được dùng thì lại có trọng số rất cao Có những bảng lại quan tâm tuyệt đối tới yếu tố đầu ra như bảng xếp hạng của Chile dành 100% cho chỉ số các kết quả cuối cùng Có những bảng dành mối quan tâm đặc biệt tới môi trường học tập (như bảng xếp hạng của Hà Lan hay của Viện Khoa học Quản lý Quảng Đông) 14
  16. Tuy có nhiều điểm khác biệt, nhưng có một chỉ số luôn được đánh giá cao tại hầu hết trong tất cả các bảng đó là chỉ số về thực hiện nghiên cứu và kết quả nghiên cứu (trung bình chiếm trong số > 1/3 trên tổng số) 3.1.3. Tổng hợp và công bố kết quả Việc tổng hợp và công bố các bảng xếp hạng cũng diễn ra với nhiều hình thức khác nhau, trong đó, có 2 hình thức chính: Ø Dữ liệu được tổng hợp và trình bày dưới dạng một chỉ số duy nhất. Kết quả của nó là một sự sắp xếp thứ tự từ cao xuống thấp cho các trường đại học, xuất hiện các trường đại học hàng đầu (top) Ø Sử dụng sự tương tác trên trang web, cho phép người dùng xếp hạng các trường đại học dựa trên sự lựa chọn các chỉ số của chính mình. Kết quả là không có trường đại học “tốt nhất”, chỉ có kết quả của các chỉ số được trình bày© 3.2. Các hệ thống xếp hạng quốc gia 3.2.1. Mỹ - US News and World Report (USNWR) Hệ thống xếp hạng các trường đại học ở Mỹ được nhắc đến nhiều nhất là ấn phẩm tờ thời báo Tin Tức nước Mỹ và thế giới (US News and World Report – USNWR). Xuất hiện lần đầu tiên năm 1983 tại Mỹ, thông tin xếp hạng thường niên của tờ báo này là một nguồn tham khảo quan trọng không chỉ dành riêng cho người học mà còn cho cả các giới hàn lâm, cũng như quản lý các trường đại học. Việc xếp hạng được phân theo các ngành học – Kinh doanh, Luật, Y, Giáo dục, Kỹ thuật, Thư viện học, và các chương trình đào tạo Tiến sĩ. Các chỉ tiêu (indicators) được USNWR sử dụng để xếp hạng bao gồm 6 loại chính là danh tiếng học thuật, chọn lọc sinh viên, nguồn lực đội ngũ, nguồn lực tài chính, tỷ lệ tốt nghiệp, và sự hài lòng của cựu sinh viên. Việc “chấm điểm” của hệ thống USNWR chủ yếu dựa trên hai nguồn thông tin chính: ý kiến của các học sinh tốt nghiệp trung học, những người thường đã cân nhắc rất nhiều trước khi quyết định chọn học tại một trường cụ thể nào đó, và ý kiến đánh giá của các nhà quản lý các trường đại học khác (không phải là trường được xếp hạng). US News and World Report khẳng định rằng: mục đích của họ là giúp cho sinh viên và phụ huynh xác định trường nào là phù hợp với họ về mặt học thuật, xã hội và tài chính. 3.2.2. Anh - Times Higher Education Supplement (THES) Hệ thống xếp hạng trường đại học phổ biến nhất ở Anh được thực hiện bởi báo Times qua ấn phẩm phụ trương giáo dục đại học (Times Higher Education Supplement – THES) bắt đầu năm 2001. HES sử dụng các nguồn dữ liệu được công bố chính thức để thực hiện việc xếp hạng bao gồm: 15
  17. * Cơ quan thống kê giáo dục đại học (Higher Education Statistics Agency) * Hội đồng Ngân sách giáo dục đại học (Higher Education Funding Council) * Cơ quan Đảm bảo chất lượng (Quality Assurance Agency) * Cục Tiêu chuẩn giáo dục (Office for Standards in Education) * Kết quả khảo sát riêng đối với một số trường đại học Những tiêu chí được THES sử dụng để xếp hạng trường đại học bao gồm 10 loại như sau: điểm thi đầu vào, tỷ lệ giảng viên và sinh viên, dịch vụ nhà ở cho sinh viên, tỷ lệ tốt nghiệp, số lượng sinh viên đạt điểm A, giá trị tăng thêm của nhà trường, chi tiêu cho thư viện, số lượng sinh viên sau đại học, và việc làm của sinh viên sau khi ra trường. So với các chỉ tiêu của USNWR, có thể thấy THES chú trọng nhiều hơn đến quá trình đào tạo của nhà trường, và vì vậy có thể là một nguồn tham khảo đầy đủ hơn cho người học so với hệ thống của USNWR. 3.2.3. Australia - Good Universities Giude (GUG) Cẩm nang các trường đại học đạt chất lượng (Good Universities Guide - GUG) do tờ nhật báo The Australian thực hiện là hệ thống xếp hạng phổ biến được biết đến ở Austrailia. GUG sử dụng các thông tin chính thức từ 5 nguồn cung cấp sau đây: * Bộ Giáo dục, Khoa học và Đào tạo (Department of Education, Science and Training) * Ấn phẩm “Nghề nghiệp của sinh viên tốt nghiệp” (Graduate Careers Australia) * Trung tâm tuyển sinh đại học ở từng tiểu bang (tertiary admissions centres in each state) * Các bộ dữ liệu quốc gia khác * Kết quả khảo sát riêng với các trường đại học Các chỉ tiêu được GUG sử dụng để xếp hạng gồm 16 loại, trong đó có uy thế và vị trí của nhà trường, các hoạt động hợp tác quốc tế, giảng dạy và các khóa học, việc làm sau tốt nghiệp, và đặc điểm của sinh viên. Những chỉ tiêu này cũng phản ánh quan điểm chú trọng đến người học và quá trình học tập tại nhà trường hơn hệ thống xếp hạng của USNWR. 3.2.4. Canada - Macleans Raking Một sản phẩm khác của giới truyền thông là việc xếp hạng các trường do tạp chí phổ thông của Canada mang tên Macleans thực hiện. Kết quả xếp hạng do Macleans thực hiện được công bố lần đầu tiên vào năm 1991. Macleans thu thập 22 chỉ tiêu về chất lượng trường đại học bằng cách gửi các phiếu hỏi đến các trường đề nghị cung cấp thông tin. Các chỉ tiêu dùng để xếp hạng gồm có sinh viên, lớp học, giảng viên, tài chính, thư viện, và danh tiếng của nhà trường. Những chỉ tiêu này cho 16
  18. thấy ảnh hưởng khá lớn của USNWR đối với Macleans, hay có thể nói cách khác là phản ánh khuynh hướng xếp hạng trường đại học của các nước Bắc Mỹ (Mỹ và Canada) so với các nước Anh và Australia. 3.3. Các hệ thống xếp hạng quốc tế 3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) Theo N.C. Liu, and Y. Cheng [LC06], SJTU sử dụng 4 tiêu chí cho việc xếp hạng bao gồm chất lượng cựu sinh viên (tính bằng số lượng cựu sinh viên đoạt các giải thưởng và huy chương đặc biệt như giải Nobel), chất lượng giảng viên (tính theo cùng phương pháp đo lường chất lượng cựu sinh viên), kết quả nghiên cứu (tính bằng số bài báo đăng trên các tạp chí khoa học), tầm cỡ của nhà trường (tính bằng kết quả hoạt động so với quy mô của nhà trường). Tham số Tiêu chí Trọng số Chất lượng giáo Số lượng cựu sinh viên đoạt các giải thưởng Nobel 10% dục và Fields Số các nhà nghiên cứu giành giải Nobel từ 1911 20 % Chất lượng giảng đến 2007 viên Số các nhà nghiên cứu có nhiều trích dẫn trong các ngành khoa học tự nhiên và xã hội 20% Số các bài báo được công bố tại Nature and 20% Kết quả nghiên Science từ 2003 – 2007 cứu Số các bài báo được liệt kê trong Thomson Scientific’s Science Citation Index Expanded 20% Tầm cỡ nhà Điểm trọng số của 2 tiêu chí trên chia cho số giảng 10% trường viên biên chế Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU Với các chỉ tiêu vừa nêu, có thể thấy rõ đây là một hệ thống xếp hạng nghiêng về đại học nghiên cứu, chú trọng các thành tích nghiên cứu của cựu sinh viên và giảng viên của nhà trường nhưng không quan tâm đến các yếu tố khác như sự hài lòng của sinh viên, hoặc chương trình giáo dục. Đây là một đặc điểm thường xuyên bị chỉ trích của ARWU, vì như đã nêu ở phần mở đầu, nhiệm vụ của một trường đại học trước hết là cung cấp các chương trình giảng dạy cho người học. 17
  19. Mặc dù vẫn còn những nhược điểm, bảng xếp hạng ARWU của SJTU vẫn là một trong những hệ thống xếp hạng trường đại học có tầm ảnh hưởng lớn đến công chúng cũng như những nhà lãnh đạo các quốc gia cũng như các nhà quản lý các trường đại học, và kết quả xếp hạng ARWU hàng năm vẫn được các đối tượng có liên quan nóng lòng chờ đợi Xếp hạng Tên trường Quốc gia 1 Harvard University Americas 2 Stanford University Americas 3 University California – Berkeley Americas 4 Cambridge University Europe 5 Massachusetts Institution Technology Americas Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008) 3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher Education Supplemen (THES) Các chỉ tiêu được THES sử dụng cho việc xếp hạng bao gồm 5 loại: kết quả khảo sát đồng nghiệp (các giảng viên, nhà khoa học) (40%), đánh giá của nhà tuyển dụng (10%), sự hiện diện của giảng viên/ nhà khoa học quốc tế (5%), sự hiện diện của sinh viên quốc tế (5%), tỷ lệ giảng viên trên sinh viên (20%), và tỷ lệ bài báo khoa học trên giảng viên (20%). So với ARWU vốn rất chú trọng đến các yếu tố bên ngoài trường đại học (các bài báo, các công trình nghiên cứu, các giải thưởng, vv) THES chú trọng nhiều hơn đến chính cộng đồng giảng viên và sinh viên và vì vậy được xem là một hệ thống bổ sung rất tốt cho ARWU 18
  20. Xếp hạng Tên trường Quốc gia 1 Harvard University Americas 2 Yale University Americas 3 Cambridge University Europe 4 Oxford University Europe 5 California Institution of Technology Americas Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008) 4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web 4.1. Giới thiệu Năm 2004, “Webometrics Ranking of World Universities”, một sáng kiến của phòng thí nghiệm Cybermetrics, một trung tâm nghiên cứu thuộc Consejo Superior de Investigaciones Científicas (CSIC) (Tây Ban Nha) đã cung cấp các thông tin về hơn 4000 trường đại học trên toàn thế giới được xếp hạng theo thứ tự các chỉ số Web. Từ năm 2006, bảng xếp hạng được cập nhật và công bố trên trang web http://www.webometrics.info vào tháng 1 và tháng 7 hàng năm. Mục tiêu ban đầu của việc xếp hạng là khuyến khích việc xuất bản trên Web chứ không phải là việc xếp hạng các học viện, trường đại học. Sáng kiến hỗ trợ truy cập mở, cho phép truy cập điện tử tới các công bố khoa học và các tài nguyên học thuật khác là mục tiêu ban đầu. Tuy nhiên, các chỉ số web rất hữu dụng trong mục đích xếp hạng vì chúng không biểu diễn dựa trên số lần truy cập hay kiểu thiết kế của trang web mà dựa trên các kết quả tổng thể và khả năng nhận diện của một trường đại học. Các bảng xếp hạng khác, tập trung chủ yếu vào một vài các lĩnh vực có liên quan, đặc biệt là các kết quả nghiên cứu, thì các nhân tố web (web indicators) là cơ sở của các xếp hạng sẽ phản ánh tốt hơn bức tranh toàn cảnh của một trường đại học, bởi rất nhiều các hoạt động của các giáo sư và những nhà nghiên cứu được chỉ ra bởi sự hiện diện trên web của họ. Web không chỉ bao trùm các trao đổi học thuật chính thức (formal) (như báo điện tử, tạp chí) mà còn chứa đựng các trao đổi không chính thức nữa. Hơn nữa, việc xuất bản Web thì rẻ hơn, giúp cho việc duy trì một chuẩn cao chất lượng các hoạt động phê bình. Ngoài ra, các xuất bản web có thể tiếp cận tới nhiều độc giả tiềm năng, cung cấp khả năng truy cập các tri thức khoa học cho các nhà nghiên cứu, các cơ sở giáo dục ở các nước đang phát triển hay các bên thứ ba (về kinh tế, công nghiệp, chính trị, văn hóa…). 19
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1