intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC

Chia sẻ: Vo Tran Nhat Minh | Ngày: | Loại File: PDF | Số trang:167

153
lượt xem
28
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”. Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu...

Chủ đề:
Lưu

Nội dung Text: Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC

  1. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011
  2. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011
  3. MỞ ĐẦU Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”. Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu chí nhất định. Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam.
  4. LỜI CẢM ƠN Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn, góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức. Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức và những kinh nghiệm quý báu cho em suốt những năm học vừa qua. Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin đã tạo điều kiện cho em thực hiện đề tài này. Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện đề tài này. Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất. Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy cô. Tp. Hồ Chí Minh, tháng 12 năm 2011 Sinh viên thực hiện Trần Hưng Nghiệp
  5. NHẬN XÉT (Của giảng viên hướng dẫn) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ...........................................................................................................
  6. NHẬN XÉT (Của giảng viên phản biện) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ...........................................................................................................
  7. NHẬN XÉT (Của hội đồng) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ...........................................................................................................
  8. MỤC LỤC MỞ ĐẦU ......................................................................................................i LỜI CẢM ƠN ............................................................................................... ii MỤC LỤC .................................................................................................... vi DANH MỤC CÁC BẢNG ............................................................................ix DANH MỤC CÁC BIỂU ĐỒ ......................................................................xi DANH MỤC CÁC HÌNH .......................................................................... xii DANH MỤC CÁC SƠ ĐỒ ......................................................................... xiv Chương 1: TỔNG QUAN VỀ ĐỀ TÀI ......................................................... 1 1.1 Đánh giá hiện trạng ...............................................................................1 1.2 Phát biểu bài toán .................................................................................. 2 1.3 Mục tiêu đề tài ....................................................................................... 3 1.4 Cấu trúc báo cáo .................................................................................... 3 Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN...............4 2.1 Giới thiệu ................................................................................................ 4 2.2 Web crawler ........................................................................................... 4 2.3 Các phương pháp xếp hạng phổ biến .................................................. 5 2.3.1 Giới thiệu ......................................................................................... 5 2.3.2 PageRank ......................................................................................... 6 2.3.3 PopRank ........................................................................................ 13 2.4 Các chỉ số xếp hạng phổ biến ............................................................. 19 2.4.1 Giới thiệu ....................................................................................... 19 2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) 19 2.4.3 H-type indexes ............................................................................... 22 2.4.4 A-type indexes ............................................................................... 29
  9. 2.5 Các hệ thống liên quan ........................................................................33 2.5.1 Giới thiệu ....................................................................................... 33 2.5.2 IEEEXplore ................................................................................... 33 2.5.3 Association for Computing Machinery (ACM) ............................ 36 2.5.4 SpringerLink .................................................................................. 40 2.5.5 Microsoft Academic Search (MAS) ..............................................43 2.5.6 Google Scholar ..............................................................................49 2.5.7 CiteSeerX ...................................................................................... 52 Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI .............................................56 3.1 Mở đầu ..................................................................................................56 3.2 Thảo luận về các chỉ số xếp hạng ....................................................... 56 3.3 Thảo luận về các phương pháp xếp hạng ..........................................57 3.4 Phân tích cải tiến các hệ thống thư viện điện tử ............................... 58 3.5 Cách tiếp cận của đề tài ......................................................................60 Chương 4: HIỆN THỰC HỆ THỐNG ...................................................... 62 4.1 Mở đầu ..................................................................................................62 4.2 Chương trình thu thập dữ liệu ........................................................... 62 4.2.1 Khảo sát hiện trạng ........................................................................62 4.2.2 Phân tích thiết kế ...........................................................................63 4.2.3 Cài đặt ............................................................................................ 82 4.2.4 Kết quả........................................................................................... 86 4.3 Chương trình tính toán các chỉ số xếp hạng .....................................87 4.3.1 Khảo sát hiện trạng ........................................................................87 4.3.2 Phân tích thiết kế ...........................................................................87 4.3.3 Cài đặt ............................................................................................ 96 4.3.4 Kết quả........................................................................................... 97 4.4 Hệ thống thư viện điện tử .................................................................102 4.4.1 Khảo sát hiện trạng ......................................................................102
  10. 4.4.2 Phân tích thiết kế .........................................................................102 4.4.3 Cài đặt ..........................................................................................104 4.4.4 Kết quả.........................................................................................107 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .........................................110 5.1 Mở đầu ................................................................................................110 5.2 Thu thập danh sách giảng viên ........................................................110 5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu .....................................113 5.4 Chương trình thu thập dữ liệu chỉ mục ..........................................114 5.4.1 Khảo sát hiện trạng ......................................................................114 5.4.2 Phân tích thiết kế .........................................................................115 5.4.3 Cài đặt ..........................................................................................122 5.4.4 Kết quả.........................................................................................124 5.5 Kiểm tra dữ liệu .................................................................................125 5.6 Tính toán các chỉ số xếp hạng...........................................................127 5.6.1 Mở đầu .........................................................................................127 5.6.2 Phân tích thiết kế .........................................................................127 5.6.3 Cài đặt ..........................................................................................131 5.7 Đánh giá kết quả ................................................................................131 5.7.1 Kết quả tính toán .........................................................................131 5.7.2 Nhận xét và đề xuất một số cải tiến ............................................143 Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..............................146 6.1 Kết quả đạt được ...............................................................................146 6.2 Hạn chế và hướng phát triển ............................................................146 6.2.1 Hạn chế ........................................................................................146 6.2.2 Hướng phát triển ..........................................................................147 DANH MỤC TÀI LIỆU THAM KHẢO ..................................................148
  11. DANH MỤC CÁC BẢNG Bảng 2.1 – Thông tin chi tiết IEEEXplore. ..................................................... 34 Bảng 2.2 – Thông tin chi tiết ACM. ................................................................ 36 Bảng 2.3 – Thông tin chi tiết về SpringerLink. ............................................... 40 Bảng 2.4 – Thông tin chi tiết về MAS............................................................. 43 Bảng 2.5 – Thông tin chi tiết về Google Scholar. ........................................... 50 Bảng 2.6 – Thông tin chi tiết về CiteSeerX..................................................... 53 Bảng 3.1 – So sánh các hệ thống thư viện điện tử. ......................................... 58 Bảng 4.1 – Các mẫu url được dùng trong crawler........................................... 66 Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu. ...................... 67 Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS. ............................. 70 Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler. .......................... 74 Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012. .......... 86 Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng............................. 87 Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số................ 91 Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. .................. 97 Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. .................. 98 Bảng 4.10 – Cấu hình phần cứng 1 ................................................................. 98 Bảng 4.11 – Cấu hình phần cứng 2 ................................................................. 99 Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. ....................................... 99 Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương ứng. .............................................................................................. 111 Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. ................................... 117
  12. Bảng 5.3 – Các mẫu url được dùng trong crawler......................................... 119 Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. .................... 120 Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. ............................................... 125 Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng........................... 127 Bảng 5.7 – Kết quả tính toán số lượng giảng viên. ....................................... 131 Bảng 5.8 – Kết quả tính toán số lượng bài báo. ............................................ 132 Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. .......................................... 134 Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. ...... 135 Bảng 5.11 – Kết quả tính toán chỉ số H-index. ............................................. 137 Bảng 5.12 – Kết quả tính toán chỉ số G-index. ............................................. 138 Bảng 5.13 – Tổng hợp kết quả tính toán. ...................................................... 140 Bảng 5.14 – Tổng hợp kết quả xếp hạng. ...................................................... 142
  13. DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số. .................................... 101 Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. ............................... 132 Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức............................... 133 Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức. ............ 135 Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức.............................................................................................. 136 Biểu đồ 5.5 – Biểu đồ H-index các tổ chức. .................................................. 138 Biểu đồ 5.6 – Biểu đồ G-index các tổ chức. .................................................. 139 Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức...................... 141 Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức. .................... 143
  14. DANH MỤC CÁC HÌNH Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn. ............................... 5 Hình 2.2 – Mô phỏng nguyên lý PageRank. ..................................................... 7 Hình 2.3 – Các loại liên kết với bài báo khoa học. ......................................... 14 Hình 2.4 – Giải thuật SAFA. ........................................................................... 17 Hình 2.5 – Giải thuật xác định khoảng cách k. ............................................... 18 Hình 2.6 – Mô phỏng định nghĩa h-index. ...................................................... 23 Hình 2.7 – Trang chủ thư viện số IEEEXplore. .............................................. 35 Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”. ....................... 36 Hình 2.9 – Trang chủ của thư viện số ACM. .................................................. 38 Hình 2.10 – Tìm kiếm chi tiết của ACM. ........................................................ 39 Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”. ............... 40 Hình 2.12 – Trang chủ thư viện số SpringerLink............................................ 42 Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink............................... 42 Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”. ..... 43 Hình 2.15 – Khung tìm kiếm cơ bản của MAS. .............................................. 45 Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS................................................... 45 Hình 2.17 – Khung tìm kiếm nâng cao MAS. ................................................. 45 Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS. ............... 46 Hình 2.19 – Chức năng quản lý các “call for paper” MAS. ............................ 46 Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị MAS. .............................................................................................. 47 Hình 2.21 – Xem nội dung trích dẫn MAS. .................................................... 48
  15. Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực MAS. .............................................................................................. 49 Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. .................. 49 Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar............................... 51 Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. .......................... 52 Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data”. ............................................................................................ 52 Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. ...................................... 54 Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. .................................. 55 Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. ........................ 55 Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS. .......................... 63 Hình 4.2 – Màn hình chính của hệ thống PubGuru. ...................................... 108 Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru. ................. 108 Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data”. .......................... 109 Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. .... 115 Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. ...................... 118 Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. ........................ 118
  16. DANH MỤC CÁC SƠ ĐỒ Sơ đồ 4.1 – Mô hình hoạt động của crawler.................................................... 64 Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình. ............................ 73 Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ..................... 83 Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ..................... 90 Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru. ............................................. 103 Sơ đồ 4.6 – Kiến trúc MVC Model 2 của hệ thống. ...................................... 105 Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình. .......................... 121 Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ................... 123 Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ................... 130
  17. Khóa luận tốt nghiệp CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Đánh giá hiện trạng Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12 năm 2011 là vào khoảng 54 triệu. Số lượng bài báo khoa học đang ngày càng tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352 bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài. Tỉ lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng 3%. Scopus1, một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực, cho biết mình có khoảng 46 triệu chỉ mục (7/2011). ISI - Web of Knowledge2, một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011). Microsoft Academic Research (MAS)3 chứa khoảng 36,7 triệu bài báo khoa học với hơn 18,8 triệu tác giả (12/2011). Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có Institute of Electrical and Electronics Engineers (IEEE) 4, thể kể đến như Association for Computing Machinery (ACM)5, SpringerLink6… Những thư viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar7, 1 http://www.scopus.com/home.url 2 http://wokinfo.com/realfacts/qualityandquantity 3 http://academic.research.microsoft.com 4 http://ieeexplore.ieee.org 5 http://dl.acm.org 6 http://www.springerlink.com 7 http://scholar.google.com Th.S Huỳnh Ngọc Tín Trang 1 Trần Hưng Nghiệp T.S Lương Phúc Hiệp
  18. Khóa luận tốt nghiệp CiteSeer8… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng như các tính năng và sự hiệu quả khi sử dụng. Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho người dùng. Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và khó đưa ra quyết định [Sch2003]. Quyết định lựa chọn thư viện điện tử nào quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như chất lượng công việc của họ. Việc sử dụng nhiều thư viện điện tử một lúc có thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này. Sự lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí. 1.2 Phát biểu bài toán Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho một hệ thống thư viện điện tử phục vụ người dùng Việt Nam. Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng. Vì vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này là một vấn đề hay và vẫn đang được quan tâm nghiên cứu. Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng. Sau đó chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở 8 http://citeseerx.ist.psu.edu Th.S Huỳnh Ngọc Tín Trang 2 Trần Hưng Nghiệp T.S Lương Phúc Hiệp
  19. Khóa luận tốt nghiệp Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam. 1.3 Mục tiêu đề tài Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin. Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam. Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. 1.4 Cấu trúc báo cáo Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II, chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến. Phần kết luận và một số hướng phát triển được trình bày trong chương V. Th.S Huỳnh Ngọc Tín Trang 3 Trần Hưng Nghiệp T.S Lương Phúc Hiệp
  20. Khóa luận tốt nghiệp CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN 2.1 Giới thiệu Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng. Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ số xếp hạng và các phương pháp xếp hạng. Các chỉ số này có thể là thô sơ như số lượng các bài báo của một tác giả, số trích dẫn của một bài báo. Nó cũng có thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá tổng hợp. Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank, PopRank. Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng và các chỉ số từ đơn giản đến phức tạp. Chương này cũng sẽ khảo sát một số thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học. Để phục vụ cho việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu. 2.2 Web crawler Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant, automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương thức tự động được cài đặt trước. Web Crawler thường được sử dụng để thu thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập nhật [TC2011]. Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering. Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng. Web Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông tin. Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi Th.S Huỳnh Ngọc Tín Trang 4 Trần Hưng Nghiệp T.S Lương Phúc Hiệp
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2