Báo cáo xử lí intel Itanium

Chia sẻ: Vu Thanh Tuan | Ngày: | Loại File: DOC | Số trang:34

Thêm vào BST

Báo xấu

127
lượt xem 23
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Itanium là bộ xử lý 64 bit đầu tiên của Intel được xuất xưởng đúng 10 năm trước để cạnh tranh với nền tảng RISC đang thống trị thị trường máy chủ doanh nghiệp thời kỳ đó. Hợp tác cùng HP đưa ra thị trường dòng CPU dùng cho máy chủ trung và lớn.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Báo cáo xử lí intel Itanium

BÁO CÁO BÀI TẬP LỚN KỸ THUẬT VI XỬ LÝ ĐỀ TÀI VI XỬ LÝ INTEL ITANIUM 9000 NHÓM THỨ : 12 LỚP: D09CN1 HỌC KỲ: HỌC KỲ 1 NĂM HỌC 2011-2012 Thành viên: 1. Nguyễn Sơn Tùng – CEO 2. Nguyễn Mạnh Tuấn – Giám đốc kỹ thuật 3. Nguyễn Mạnh Tưởng – Giám đốc công nghệ 4. Lê Văn Việt – Giám đốc tập lệnh 5. Vongsakda
Mục lục A. Giới thiệu ...................................................................................................................2 I. Giới thiệu chung II. Các thông số chính III. Lịch sử B. Kiến trúc ...................................................................................................................7 I. Sơ đồ chung II. Các thành phần và thông số chính III. Kiến trúc tập lệnh C. Đặc tính – Công nghệ ...........................................................................................17 I. Công nghệ thuật toán song song II. Công nghệ siêu phân luồng III. Chức năng đa phương tiện IV. Thanh ghi cải tiến tập tin V. Floating-Point ứng dụng kỹ thuật chuyên sâu VI. Modulo theo dự kiến vòng lặp Pipelines VII. Những cải tiến về nhánh VIII. Độ trễ bộ nhớ giảm D. Tổng kết – Đánh giá hiệu năng ...............................................................................28 E. Nguồn – Trích dẫn ........................................................................................................30
A. Giới thiệu I. Giới thiệu chung Itanium là bộ xử lý 64 bit đầu tiên của Intel được xuất xưởng đúng 10 năm trước để cạnh tranh với nền tảng RISC đang thống trị thị trường máy chủ doanh nghiệp thời kỳ đó. Hợp tác cùng HP đưa ra thị trường dòng CPU dùng cho máy chủ trung và lớn. Với tham vọng lật đổ nền tảng RISC đồng thời nắm gọn thị trường vi xử lý, itanium được coi như một huyền thoại của intel. 10 năm phát triển từ itanium tới itanium-2 với nhiều cải tiến vượt bậc, và cũng vô vàn khó khăn. Itanium 2 là bộ xử lý thứ 2 thuộc dòng Itanium, các máy chủ và máy trạm chạy Itanium 2 có tốc độ nhanh gấp 2 lần những hệ thống chạy Itanium hiện hành. Bộ xử lý Itanium 2 hỗ trợ giao dịch khối lượng lớn, tính toán phức tạp. Điểm đáng lưu ý là các chip Itanium 2 đều xử lý ứng dụng 64 bit. Itanium 2 9000 series là dòng vi xử lý được Intel Itanium phát triển dưới codename Monecito, đưa ra vào ngày 18 tháng 7 năm 2006. Vi xử lý Monecito, dựa trên công nghệ 90nm, có xung nhịp 1,6 GHz tốc độ FSB 667 MHz với bộ nhớ đệm 3 MB. EPIC cải thiện thông lượng lệnh song song. Với công nghệ EPIC, bộ xử lý bớt đi được gánh nặng phải nhận dạng các cơ hội xử lý song song giúp Itanium 2 đạt mức băng thông xử lý dữ liệu 6G/s. II. Các thông số chính • Codename: Monecito • Process: 90nm • Clock: 1.4 – 1.6 GHz • L2 Cache: 256 kB + 1 MB • L3 Cache: 6-25 MB • Bus: 400/533 MHz • Cores: 2 • Watts/device: 104 • Support: Virtualization, Multithread, no HW IA-32
III. Lịch sử Vào cuối những năm 90, HP nhận định rằng máy tính sử dụng RIC đã đạt đến giới hạn xử lý 1 lệnh/1 chu kỳ và đã phát triển một mới kiến trúc được gọi là toán lệnh song song (EPIC), cho phép các vi xử lý thực thi nhiều hơn một lệnh trong một chu kỳ đồng hồ. HP và Intel đã trở thành đối tác vào năm 1994 và phát triển kiến trúc IA-64. Intel nỗ lực phát triển IA-64 với hi vọng các bộ vi xử lý của hãng sẽ được sử dụng bởi phần lớn các hãng sản xuất máy tính lớn. HP và Intel đã khởi xướng một cuộc thay đổi lớn, trước tiên là việc cung cấp sản phẩm đầu tiên có tên mã là Merced, vào năm 1998. Intel công bố tên chính thức của bộ vi xử lý Itanium vào 04 tháng 10 năm 1998. Bộ vi xử lý Itanium thời kỳ đầu: 2001-2002
Itanium đã được phát hành vào tháng Sáu năm 2001, nó đã không hiệu quả hơn RISC và CISC. Chỉ có một vài nghìn sản phẩm được bán, do sản lượng kém, hiệu suất tương đối thấp, và chi phí cao. Tuy nhiên, các máy này rất hữu ích cho việc phát triển Itanium 2 - bộ vi xử lý sau đó. IBM đã cho ra đời một siêu máy tính dựa trên xử lý này. Itanium 2: 2002-hiện tại Itanium 2 được phát hành vào năm 2002, và chủ yếu hướng tới thị trường máy chủ. Itanium 2 ban đầu có tên mã là McKinley. McKinley sử dụng công nghệ 180 nm, nhưng nó ít xảy ra vấn đề về hiệu suất hơn Itanium đời đầu. Năm 2003, AMD đã phát hành Opteron, sử dụng kiến trúc x86-64. Opteron được chấp nhận nhanh chóng trong thị trường máy chủ doanh nghiệp bởi vì nó cung cấp một bản nâng cấp dễ dàng từ x86. Intel phản ứng bằng cách sử dụng x86-64 trong bộ vi xử lý Xeon được phát hành năm 2004.
Intel phát hành một thành viên mới trong họ Itanium 2, được đặt tên Madison, vào năm 2003. Madison sử dụng công nghệ 130 nm và là cơ sở của tất cả các vi xử lý Itaniums sau này, cho đến khi Montecito được phát hành trong tháng sáu năm 2006. Các dòng vi xử lý Itanium đã cho thấy những tiến bộ vượt bậc về hiệu năng. Merced đã là một bằng chứng về mặt khái niệm. McKinley đã cải thiện rất nhiều về phân cấp bộ nhớ và giúp Itanium trở nên khá cạnh tranh trên thị trường. Madison, với sự chuyển đổi sang công nghệ 130nm, được cung cấp đủ không gian cache để vượt qua các điểm tắc nghẽn cơ bản trong quá trình thực thi chính. Monecito, với công nghệ 90nm, cho phép sự thực thi của công nghệ lõi kép và cải tiến chủ yếu trong công năng mỗi watt.Monvale thêm 3 tính năng: core-level lockstep, demand-based switching và front-side bus frequency of up to 667MHz.
B. Kiến trúc I. Sơ đồ chung • Dual-Core: Theo Intel, với kiến trúc dual-core, Monecito có hiệu năng gấp đôi phiên bản trước nó, vi xử lý Itanium 2 một lõi, và giảm thiểu tiêu thụ điện năng tới 20%. Ngoài ra, nó còn có khả năng xử lý đa luồng ( 2 luồng mỗi lõi), hệ thống cache mở rộng (12 MB một lõi) và hỗ trợ silicon cho ảo hoá. Bộ vi xử lý Intel Itanium hai lõi 64-bit trên một bộ xử lý có đến 24 MB bộ nhớ cache L3 có độ trễ thấp, cung cấp băng thông rộng cho cả hai lõi. Bộ nhớ cache cao, cùng với Hyper-Threading (HT), tính năng cung cấp tăng gấp hai lần hiệu suất của bộ xử lý lõi kép so với các dòng trước đó.
Dual Core là gì và tại sao sử dụng Dual Core với Monecito ? Dual-core ( Lõi kép) là một kiến trúc mà một CPU với 2 nhân xử lý hoàn chỉnh trong một vi xử lý. Hai nhân này, cache của chúng và các bộ điều khiển cache đều được tích hợp vào cùng một IC. Chúng đều có thể được coi là 2 vi xử lý mà làm việc cùng nhau nhằm giúp mỗi bên trong quá trình xử lý và thi hành. Có nhiều điểm phân biệt giữa Dual-core và Dual-core CPU. Dual-core là khái niệm dùng để chỉ 2 nhân riêng biệt mà được đặt cùng nhau trong một chip. Còn Dual-processor là khái niệm để chỉ việc sử dụng 2 vi xử lý, không nhất thiết trên cùng một chip, thậm chí có thể không cùng trên 1 mainboard. Có nhiều lý do giải thích việc dual-core đang phổ biến hiện nay, thực tế là khá thành công. Một số người nói nó là sự san bằng đường cong của clock speed mà đã buộc AMD và Intel phải chịu thua trước công nghệ này. Rào chắn clock speed đã bị đánh bại bởi hai người khổng lồ trong lĩnh vực microprocessor và họ đã chọn một lộ trình thay thế cho hiệu năng tiên tiến hơn, để “ thật hài long với việc ra những sản phẩm mới.” Vấn đề với việc đẩy clock speed lên rất cao là nhiệt năng toả ra. Xung nhịp đồng hồ cao dẫn đến nhiệt năng toả ra lớn, điều này gây ra vô số ảnh hưởng xấu. Nguồn nhiệt năng này phát ra do sự tiêu hao của nguồn điện. Vận hành một vi xử lý tại một xung nhịp cao yêu cầu một lượng khổng lồ điện năng chạy quanh các vi mạch, làm chúng dễ bị ảnh hưởng gây nhiễu. Từ lúc những mạch kẻ trên vi xử lý được đặt trong khoảng cách cực nhỏ, sự rò rỉ điện từ mạch kẻ này sang mạch khác có thể huỷ hoại toàn bộ dữ liệu trên mạch kẻ đó. Những dữ liệu bị huỷ hoại này là nguyên nhân gây ra các lỗi. Một vi xử lý lõi kép là sự kết hợp của vi xử lý 1 lõi và hệ thống 2 nhân. “Một vi xử lý lõi kép sẽ không nhanh gấp đôi vi xử lý 1 nhân hay ngang hệ thống 2 nhân.” Hiệu năng của lõi kép sẽ nằm giữa 2 hệ thống đó, nhưng nó chắc chắn tốt hơn là vi xử lý 1 nhân. Khi có tới 2 hệ thống ống lệnh thì 2 lệnh hoàn toàn được xử lý song song. Ngoài ra, 2 cache của 2 vi xử lý cho phép xử lsy nhiều dữ liệu hơn trên mạch nhằm đẩy tốc độ truy cập. Vấn đề duy nhất là 2 vi xử lý phải chia sẻ cùng một hệ thống bus và bộ nhớ, đây cũng chính là 1 trong nhiều trở ngại của vi xử lý lõi kép. Kết luận, công nghệ lõi kép cung cấp hiệu năng lớn hơn nhiều so với vi xử lý 1 nhân. Nó mang lại nhiều lợi ích, đặc biệt với những người mong muốn vận hành nhiều công việc 1 lúc. Vi xử lý lõi kép mang lại cho các nhà sản xuất một cách không quá đắt để đưa ra những sản phẩm có năng suất cao. Sơ đồ khối
II. Các thành phần và thông số chính So sánh giữa Monecito và Madison Madison Monecito Công Nghệ 130nm 90nm Số lượng nhân 1 2 Tần số đồng hồ 1600MHz 1600MHz Số đơn vị INT 6 6 Số đơn vị MM 6 6 Số đơn vị FP 2(*,+) 2(*,+) Số đơn vị ADDR 2L+2S or 4L 2L+2S or 4L Cache L1 16/16KB 16/16KB Cache L2 256KB 1MB/256KB Cache L3 9MB 24MB ngay trên mạch kẻ Hệ thống BUS 6.4GB/s 8.5GB/s -Tần số - 400MHz - 533MHz -Độ rộng - 128 bit - 128 bit
• Là vi xử lý đầu tiên chứa tới 1.72 tỷ transistor • Phần cứng rộng, song song cho năng suất cao: Itanium chứa 128 thanh ghi tổng quát và 128 thanh ghi số thực dấu phẩy động luân phiên hỗ trợ. Ngoài ra, một công cụ ngăn xếp được sử dụng để cải tiến quản lý việc xử lý tài nguyên. Một tính năng được giới thiệu trong Itanium 2 là sự hỗ trợ của việc suy đoán giúp cải thiện hiệu suất xử lý. • Bus hệ thống băng thông cao: Bộ xử lý sử dụng băng thông 8,53 GB/s. Nó có một bus dữ liệu 128-bit (64 bit dành riêng cho mỗi lõi). Nó cũng cung cấp 50-bit địa chỉ vật lý và 64-bit địa chỉ ảo. • Tính năng hỗ trợ các môi trường nền tảng linh hoạt: Một lớp thực hiện IA-32 là có sẵn trong Itanium 2 để hỗ trợ cho các ứng dụng trên IA-32. • Thông số kỹ thuật sơ đồ chân: Intel Itanium 2 có 611 chân được sử dụng cho đầu vào, đầu ra, hoặc cả hai đầu vào ra.
• Cấu trúc bộ nhớ Bộ nhớ cache của Itanium 2 có 3 cấp độ. Bộ nhớ cache L1 có dung lượng 16KB dành cho tập lệnh và dữ liệu. Bộ nhớ cache L2 có dung lượng 256KB dành cho cả tập lệnh và dữ liệu. L3 khoảng từ 1,5 MB đến 24MB. Bus Itanium 2, có khả năng mở rộng cổng, có khả năng thay đổi 2x128 bit trên mỗi nhịp đồng hồ lên 533 MHz (chuyển tải 17,056 GB / s). L1l L1D L2 L3 Size 16K 16K 256K 1.5/3/6M/9M on die Line size 64B 64B 128B 128B Ways 4 4 8 12 Replacement LRU NRU NRU NRU Latency (Load to I-Fetch:1 INT:1 INT:5 12/13 use) INT: 6 Write Policy - WT (RA) WB(WA +RA) WB (WA) Bandwith R: 32GBs R: 16GBs R:32GBs R:32GBs W:16GBs W:32GBs W:32GBs III. Kiến trúc tập lệnh Itanium là dòng chip tiên phong của intel trong nền tảng IA-64 Kiến trúc IA-64 giới thiệu một sự khởi đầu mới quan trọng của kỹ thuật siêu vô hướng - kỹ thuật xử lý lệnh song song . Itanium 9000 được tích hợp các tập các tập lệnh MMX, SSE, SSE2 tăng cường khả năng xử lý về số học hình ảnh đa phương tiện. Tập lệnh MMX: Mục đích chính của MMX là nâng cao hiệu quả xử lý các lệnh lặp về âm thanh, hình ảnh và đồ họa. Máy đạt được điều này phần nào do một dòng lệnh đơn có thể xử lý đồng thời một số mục dữ liệu. Công nghệ MMX bao gồm 8 thanh ghi từ MM0 đến MM7, tích hợp 4 kiểu dữ liệu kiểu bye kiểu word, kiểu doubleword và quadword, và các tập lệnh MMX. Các tập lệnh MMX bao gồm các nhóm lệnh cơ bản - Lệnh truyền dữ liệu - Lệnh số học - Lệnh so sánh - Lệnh chuyển đổi
- Lệnh logic Bão hòa số học và chế độ bao quanh MMX hỗ trợ khả năng tinh toán số học mới được gọi là chế độ bão hòa số học. Có nghĩa là kết quả của phép tính được đặt trong một phạm vi giới hạn giữa giá trị tối đa và giá trị tối thiểu. Ví dụ với một phép tính khi kết quả trả về vượt quá giá trị kiểu bye khai báo ban đầu nó sẽ được mặc định về 127 với giá trị lớn hơn 127 hoặc -128 với kết quả nhỏ hơn 128. Xét về tính toán nó có vẻ không được phù hợp cho lắm tuy vậy nó lại có ứng dựng quan trọng xử lí lân cận ví dụ xử lí ảnh tính toán báo hòa làm một vật giữ nguyên màu sắc trắng hoặc đen mà không cho phép đảo ngược. Nhóm lệnh truyền dữ liệu với khả năng truyền các khối lệnh 32bit 64bit Nhóm lệnh số học với các phép tính cộng trừ nhân chia Nhóm lệnh so sánh so sánh bằng so sánh lớn hơn Nhóm lệnh chuyển đổi với khả năng chuyển đổi các kiểu dữ liệu bye, word, doubleword.... Nhóm lệnh logic AND OR NOT. Tập lệnh SSE : Trong máy tính, Stream SIMD Extensions (SSE) là một tập lệnh SIMD mở rộng cho kiến trúc x86, được thiết kế bởi Intel và giới thiệu nắm 1999 trong dòng vi xử lý Pentium III như một câu trả lời cho 3DNow! của AMD (đã ra mắt một năm trước đó). SSE chứa 70 tập lệnh mới, phần lớn trong số đó làm việc trên độ chính xác đơn dữ liệu dấu chấm động. Tập lệnh SIMD có thể tăng đáng kể hiệu suất khi các thao tác tương tự được thực hiện trên nhiều đối tượng dữ liệu. Ứng dụng điển hình là xử lý tín hiệu số và xử lý đồ hoạ. Nỗ lực đầu tiên của IA-32 SIMD của Intel là tập lệnh MMX. MMX gặp 2 vấn đề chính là tát sử dụng các thanh ghi dấu chấm động hiện có khiến CPU không thể hoạt động trên cả dấu chấm động và dữ liệu SIMD cùng lúc, và MMX cũng chỉ làm việc với số nguyên. Dấu chấm động của tập lệnh SSE hoạt động trên một thanh ghi mới độc lập (thanh ghi XMM), và thêm vào một vài tập lệnh với số nguyên làm việc với các thanh ghi MMX. SSE sau đó được Intel mở rộng thành SSE2, SSE3, SSSE3 và SSE4. Vì nó hỗ trợ các phép toán với dấu chấm động, nên được áp dụng rộng rãi hơn MMX và dần trở nên phổ biến. Việc bố sung các hỗ trợ số nguyên trong SSE2 khiến MMX trở nên dư thừa, mặc dù hiệu suất hoạt động có thể tăng lên trong một số trường hợp sử dụng MMX song song với các hoạt động SSE. SSE ban đầu thêm vào tám thanh ghi 128-bit mới, từ XMM0 đến XMM7. AMD64 mở rộng từ AMD (ban đầu được gọi là x86-64) đã bổ sung thêm 8 thanh ghi XMM8 đến XMM15. Và phần mở rộng được nhân đôi trong kiến trúc Intel 64. Ngoài ra còn có một thanh ghi kiểm soát/ trạng thái 32-bit mới, MXCSR. Các thanh ghi XMM8 đến XMM15 chỉ có thể truy cập trong chế độ điều hành 64-bit
SSE chỉ sử dụng một kiểu dữ liệu đơn cho các thanh ghi XMM: - Bốn số 32-bit chấm động độ chính xác đơn . SSE2 sau đó mở rộng việc sử dụng của các thanh ghi XMM bao gồm: - Hai số 64-bit chấm động độ chính xác đôi, hoặc - Hai số nguyên 64-bit, hoặc - Bốn số nguyên 32-bit, hoặc - Tám số nguyên ngắn 16-bit, hoặc - Mười sáu số nguyên kiểu byte 8-bit, hoặc kí tự. Bởi các thanh ghi 128-bit này bổ sung chương trình trạng thái mà hệ điều hành phải bảo quản trên nhiệm vụ chuyển mạch, chúng bị vô hiệu hoá theo mặc định cho đến khi hệ thống cho phép chúng hoạt động. Điềy này có nghĩa là hệ điều hành phải biết sử dụng tập lệnh FXSAVE và FXRSTOR, đó là cặp tập lệnh mở rộng có thể lưu trữ tất cả các thanh ghi x86 và SSE cùng một lúc. Sự hỗ trợ này đã nhanh chóng được bổ sung cho tất cả các hệ điều hành IA-32. CPU đầu tiên hỗ trợ SSE, Pentium III, chia sẻ các tài nguyên thực hiện giữa SSE và FPU (Floating-Point Unit). Trong khi một ứng dụng biên dịch có thể xen kẽ các tập lệnh FPU và SSE cạnh nhau, sẽ không có vấn đề với Pentium III với mộp tập lênh FPU và SSE trong cùng một chu kì đồng hồ. Sự hạn chế này làm giảm hiệu quả của các hệ thống pipeline, nhưng các thanh ghi XMM riêng biệt cho phép SIMD và các thao tác chấm động vô hướng được trộn lẫn mà không thực hiện hit từ MMX cho phép / chuyển đổi chế độ dấu chấm động. SSE bao gồm tập lệnh hướng và dấu chấm động có hướng. Tập lệnh dấu chấm động: + Chuyển dữ liệu Ô nhớ đến Thanh ghi / Thanh ghi đến Ô nhớ / Thanh ghi đến Thanh ghi. - Vô hướng: MOVSS - Đóng gói: MOVAPS, MOVUPS, MOVLPS, MOVHPS, MOVLHPS, MOVHLPS + Số học. - Vô hướng: ADDSS, SUBSS, MULSS, DIVSS, RCPSS, SQRTSS, MAXSS, MINSS, RSQRTSS - Đóng gói: ADDPS, SUBPS, MULPS, DIVPS, RCPPS, SQRTPS, MAXPS, MINPS, RSQRTPS + So sánh. - Vô hướng: CMPSS, COMISS, UCOMISS - Đóng gói: CMPPS + Dữ liệu ngẫu nhiên và giải nén. - Đóng gói: SHUFPS, UNPCKHPS, UNPCKLPS + Chuyển đổi kiểu dữ liệu. - Vô hướng: CVTSI2SS, CVTSS2SI, CVTTSS2SI - Đóng gói: CVTPI2PS, CVTPS2PI, CVTTPS2PI + Bit hoạt động logic.
- Đóng gói: ANDPS, ORPS, XORPS, ANDNPS Tập lệnh với số nguyên: SSE bao gồm tập lệnh hướng và dấu chấm động có hướng. + Số học. - PMULHUW, PSADBW, PAVGB, PAVGW, PMAXUB, PMINUB, PMAXSW, PMINSW + Chuyển dữ liệu. - PEXTRW, PINSRW + Khác. - PMOVMSKB, PSHUFW Các tập lệnh khác: SSE bao gồm tập lệnh hướng và dấu chấm động có hướng. + Quản lý MXCSR. - LDMXCSR, STMXCSR + Cache và quản lý bộ nhớ. - MOVNTQ, MOVNTPS, MASKMOVQ, PREFETCH0, PREFETCH1, PREFETCH2, PREFETCHNTA, SFENCE Các vấn đề về phần mềm và phần cứng. Với tất cả các phần mở rộng của tập lệnh x86, với BIOS, hệ điều hành và lập trình ứng dụng để kiểm tra và phát hiện sự tồn tại và hoạt động thích hợp. - Intel và AMD cung cấp ứng dụng để phát hiện những phần mở rộng mà CPU của bạn hỗ trợ. - CPUID opcode là một bộ vi xử lý bổ sung tập lệnh (tên của nó bắt nguồn từ CPU Identification) cho kiến trúc x86. Nó được giới thiệu bởi Intel năm 1993 khi giới thiệu Pentium và các bộ vi xử lý 486 SL-Enhanced. Người sử dụng hấp thụ các phần mở rộng của x86 bị chậm cơ bản do MMX và SSE (trong một số trường hợp) không được hỗ trợ bởi các ứng dụng khoảng 10 năm sau khi các phần mở rộng đã trở thành phổ biến. Tính toán phân tán đã tăng tốc việc sử dụng các phần mở rộng trong cộng đồng khoa học và nhiều ứng dụng khoa học từ chối chạy – trừ khi CPU hỗ trợ SSE2 hay SSE3. Việc sử dụng nhiều phiên bản của một ứng dụng để đối phó với nhiều thiết lập khác nhau của phần mở rộng có sẵn là cách đơn giản nhất xung quanh vấn đề tối ưu hoá phần mở rộng x86. Thư viện phần mềm và một số ứng dụng đã bắt đầu hỗ trợ các kiểu mở rộng ám chỉ rằng sử dụng đầy đủ các tập lệnh x86 có sẵn có thể trở nên phổ biến khoảng 5 – 15 năm sau khi các tập lệnh ban đầu được giới thiệu.
Tập lệnh SSE2 SSE2, Streaming SIMD Extensions 2, là một trong những tập lệnh nằm trong Intel SIMD (Single Instruction, Multiple Data) lần đầu được giới thiệu bởi Intel với phiên bản ban đầu của Pentium 4 vào năm 2001. Nó được mở rộng từ tập lệnh SSE trước đó, được dự định để thay thế đầy đủ tập lệnh MMX . Intel mở rộng SSE2 để tạo ra SSE3 vào năm 2004. SSE2 bổ sung thêm 144 lệnh mới so với SSE (chỉ với 70 lệnh). Đối thủ sản xuất chip AMD đã bổ sung tập lệnh trong vi xử lý Opteron và Athlon 64 (AMD64 64-bit) vào SSE2. Những thay đổi SSE2 mở rộng tập lệnh MMX để hoạt động trên thanh ghi XMM, cho phép người sử dụng hoàn toàn tránh khỏi việc các thanh ghi MMX 64-bit bị chồng trong các thanh ghi stack dấu chậm đọng chính thức IA-32. Điều này cho phép trộn phần nguyên SIMD với cơ cấu điểm nổi vô hướng mà không có chế độ chuyển đổi giữa MMX và x87. Tuy nhiên, điều này là over-shadowed giá trị của việc có thể thực hiện các hoạt động MMX trên các thanh ghi SSE lớn hơn. Những sự bổ sung khác trong SSE2 bao gồm một bộ các lệnh điều khiển bộ nhớ cache nhằm mục đích chủ yếu để giảm thiểu cache pollution khi xử lý dòng thông tin vô hạn định, và một sự bổ sung phức tạp của các lệnh chuyển đổi định dạng số. Sự khác biệt giữa x87 FPU và SSE2 Tập lệnh FPU (x87) thường lưu trữ kết quả trung gian với độ chính xác 80 bit. Khi các thuật toán của FPU được chuyển sang SSE2, kết hợp một số biểu thức toán học hoặc các bộ dữ liệu đầu vào có thể dẫn đến sai lệch số đo lường: Điều này quan trọng trong tính toán khoa học, nếu kết quả tính toán phải được so sánh với kết quả tạo ra từ một kiến trúc máy tính khác. Tùy thuộc vào trình biên dịch hay là thông dịch viên được sử dụng , kết quả trung gian khác nhau của một biểu thức toán học nhất định hoặc thuật toán chứa vòng lặp có thể cần phải được tạm thời lưu lại, và nạp lại sau. SSE2 làm việc với độ chính xác 32 hoặc 64 bit (4 hoặc 8 byte) trong khi tập lệnh x87 thông thường cho kết quả trong 80-bit trong các thanh ghi 80-bit của nó (10 byte).. Tất cả 80 bit kết quả của x87 có thể được lưu trữ trong bộ nhớ, nhưng vẫn thường làm tròn đến 64 hoặc 32 bit cho khả năng tương thích với các loại dữ liệu dấu chấm động phổ biến nhất. Tùy thuộc vào độ chính xác khi làm tròn, kết quả có thể khác nhau. Sự khác biệt tương tự có thể thấy khi so sánh kết quả từ độ chính xác 32 hoặc 64-bit mã SSE2 với kết quả tương ứng với độ chính xác 32, 64, hoặc 80-bit mã x87 . Đoạn mã Fortran sau đây được biên dịch với G95 như một ví dụ, giá trị chính xác của số thứ ba và cuối cùng được in ra là 0.
Sự khác biệt giữa MMX và SSE2 SSE2 mở rộng tập lệnh MMX để hoạt động trên các thanh ghi XMM. Vì vậy, nó có thể chuyển đổi tất cả các mã trong MMX tương đương sang SSE2. Kể từ khi thanh ghi XMM lớn gấp đôi thanh ghi MMX, các bộ đếm vòng lặp và truy cập bộ nhớ cần phải được thay đổi để phù hợp với điều này. Mặc dù một lệnh SSE2 có thể hoạt động với gấp đôi lượng dữ liệu so với một lệnh MMX, nhưng hiệu suất không tăng đáng kể. Hai lý do chính là: truy cập dữ liệu SSE2 trong bộ nhớ không phù hợp với giới hạn 16-byte sẽ có nguy cơ chịu nhiều lỗi nguy hiểm, và thông lượng của tập lệnh SSE2 trong hầu hết triển khai của x86 thường nhỏ hơn so với tập lệnh MMX. Intel gần đây đã giải quyết vấn đề đầu tiên bằng cách thêm một lệnh vào SSE3 để giảm sự quá tải khi truy cập dữ liệu không phù hợp, và vấn đề thứ 2 bằng cách mở rộng các engine trong vi kiến trúc Core. Kết Luận: Itanium là dòng CPU dùng cho máy chủ trung và lớn với yêu cầu tốc độ tính toán cao đòi hỏi CPU phải có khả năng xử lí nhanh các yêu cầu, với việc hỗ trợ 3 tập lệnh MMX,SSE,SSE2 itanium 9000 hoàn toàn có thể đáp ứng được các yêu cầu đó một cách hoàn hảo. Với dòng CPU dùng cho máy chủ, yêu cầu đăt ra khi thiết kế đó là tốc độ, nó không đòi hỏi quá nhiều phép tính phức tạp nhưng bù lại nó cần đáp ứng yêu cầu tốc độ khi đồng thời xử lý nhiều luồng dữ liệu. 3 Tập lệnh mà intel hỗ trợ cho Itanium 9000 tăng cường khả năng xử lý của CPU qua đó cải thiện rất lớn về mặt tốc độ, độ chính xác. Việc intel tấn công vào thị trường IA-64 là một bước đi mạo hiểm, bởi trước đó nền tảng IA-64 hoàn toàn do AMD nắm dữ, trong thời gian gần đây itanium đang mất dần đi vị trí của mình. Liệu nền tảng IA-64 có đem lại thành công cho in tel chúng ta hãy chờ đợi thêm một thời gian nữa. C. Đặc tính – Công Nghệ 1. Công nghệ thuật toán song song ( Explicity Parallel Instruction Computing) Công nghệ thuật toán song song (EPIC - Explicitly Parallel Instruction Computing) là cốt lõi của kiến trúc vi xử lý Itanium 2, được cùng phát triển bởi Intel và HP. EPIC thực ra được bắt nguồn từ các phòng phát triển của HP dựa trên những nghiên cứu từ năm 1989. Kiến trúc toán tử song song là một tiến bộ mới mở ra khả năng của vi xử lý nhằm vượt qua các giới hạn của RISC. Kiến trúc này mang lại cho các trình biên dịch khả năng kiểm soát được các lợi ích của xử lý song song ( Instruction Level Parallelism – ILP) thoát ra khỏi các giới hạn của những thiết kế out- of- order RISC.
Công nghệ thuật toán song song cung cấp khả năng thực hiện song song, dự báo, và suy đoán tốt cho một lệnh song song (ILP). Tính năng này giúp giải quyết các yêu cầu cao của doanh nghiệp và khối lượng công việc lớn. Những thiết kế EPIC đã chuyển sự rắc rối của Out-of-Order RISC từ phần cứng sang phần mềm. Những bước ngoặt về mặt kiến trúc gần đây xuất phát từ mong muốn giảm bớt sự rắc rối cồng kềnh của phần cứng nhằm giảm thời gian cần thiết để thiết kế và kiểm tra một vi xử lý mới hay tăng tần số hoạt động của vi xử lý. RISC là giải pháp để giảm sự phức tạp của những thiết kế CISC. Những kỹ thuật về vi kiến trúc thông thường đưa những kiến trúc đó vào một phương cách phức tạp hơn để nâng cao hiệu suất mà không cần thay đổi kiến trúc tập lệnh. Đây chính là hiện trạng của những thiết kế Out-of-Order ( OoO) RISC. Kiến trúc EPIC là một phần của giải pháp nhằm tăng sự phức tạp của những thiết kế OoO RISC, và nhằm tái khởi động toàn bộ phần cứng tới một mức ít rắc rối hơn. OOO RISC thiết kế rất phức tạp và đòi hỏi nỗ lực xử lý xác nhận thời gian tiêu thụ rộng lớn. Thiết kế RISC OOO hiện tại rất khó để mở rộng vượt ngưỡng 4 hướng dẫn rộng và cải tiến hiệu suất chính đáng mà không cần thêm nhiều chủ đề thực hiện trong phần cứng. Các nhà thiết kế EPIC công nhận rằng nếu các trình biên dịch đã được sự hỗ trợ đúng kiến trúc, sau đó trình biên dịch có thể làm nhiều của OOO phần cứng hiện nay. Những khái niệm này sẽ được thảo luận chi tiết sau này, nhưng đây là một vài ví dụ: - EPIC cho phép trình biên dịch xác định trình tự chỉ thị độc lập, cho phép phần cứng để bỏ qua kiểm tra sự phụ thuộc giữa các chỉ thị. Chức năng này cùng một phần cứng trong các thiết kế RISC OOO rất tốn kém và phức tạp.
- Rõ ràng số nguyên lớn hơn và các tập tin thanh ghi FP trong các gia đình bộ xử lý Itanium thay thế các thanh ghi đổi tên và các tập tin thanh ghi ngầm trong thiết kế RISC OOO. Những tập tin thanh ghi lớn hơn rõ ràng cho phép Itanium có các trình biên dịch để thay thế các chức năng của đổi tên thanh ghi và cho phép hoạt động nhiều hơn để được thực hiện song song bởi vì kiến trúc thanh ghi có sẵn. - Chức năng truyền trong EPIC cho phép explicitex ecution để tiến hành inparallel trên cả hai con đường của một bài kiểm tra chi nhánh, bỏ qua các kết quả trên con đường không chính xác khi các kiểm tra chi nhánh được giải quyết. - EPIC, tải và lưu trữ có thể được thực hiện hỏng do để kiểm soát và đầu cơ tính năng dữ liệu OOO RISC này phải được thực hiện với sự đặc biệt, phần cứng (và ẩn từ trình biên dịch) phức tạp. Tải Bảng Địa chỉ nâng cao (ALAT) EPIC được sử dụng để giải quyết xung đột bộ nhớ nhỏ hơn và đơn giản hơn so với các phần cứng cần thiết trong các thiết kế OOO điển hình. Điều này không có nghĩa phần cứng EPIC là đơn giản. EPIC là không đơn giản như thiết kế vi xử lý RISC ban đầu. Đó là chính xác hơn để nói rằng một số sự phức tạp của các thiết kế RISC OOO có thể được giao cho phần mềm tạo ra trình biên dịch đã được chuyển đến các phần mềm. Các chức năng khác, mà không thể được thực hiện trong phần mềm, được yêu cầu của phần cứng. Một số ví dụ về các chức năng phần cứng mới là vị điều khiển bit, NAT điều khiển bit, thanh ghi tập tin lưu và phục hồi động cơ (RSE), và ALAT phần cứng (nâng cao tải Bảng địa chỉ). Chúng sẽ được thảo luận trong các phần sau đây. Tóm lại, EPIC là một kiến trúc "tao nhã" hơn bởi vì nó làm một công việc tốt hơn phân vùng phức tạp và chức năng giữa phần cứng và phần mềm. MOVING COMPLEXITY BETWEEN HARDWARE & SOFTWARE Bằng việc thiết lập môi trường dẫn các lệnh song song có thông lượng lớn, tạo khả năng xử lý song song, khả năng mở rộng và độ tin cậy đối với cơ sở dữ liệu, công nghệ EPIC được thiết kế đặc biệt
cho chế độ xử lý song song hiệu quả cao - khả năng xử lý nhiều lệnh hoặc tiến trình đồng thời. Chế độ song song làm tăng khối lượng công việc được hoàn tất đối với mỗi bộ vi xử lý trong một chu kỳ xung nhịp do đó làm tăng đáng kể hiệu năng của các phần mềm ứng dụng. Bằng việc thiết lập một nền tảng tiên tiến cho chế độ song song, tăng thông lượng lệnh song song EPIC cho phép mở rộng hiệu năng bộ vi xử lý. Với các kiến trúc truyền thống, bộ vi xử lý phải tự xác định được khả năng xử lý song song; EPIC có một bộ lệnh tăng cường cho phép các khả năng xử lý song song được xác lập một cách rõ ràng bởi chương trình dịch trước khi các đoạn mã phần mềm được chuyển tới bộ vi xử lý. Chương trình dịch hoàn toàn phù hợp với nhiệm vụ này vì nó có thể quan sát và phân tích toàn bộ đoạn mã phần mềm để đưa ra biện pháp xử lý song song hiệu quả nhất. Về mặt hiệu quả: cả phần cứng và phần mềm tự do thực hiện việc xử lý dữ liệu theo phương thức tốt nhất. Chương trình dịch định hướng chương trình ứng dụng theo hướng tối ưu hoá hiệu năng. Bộ vi xử lý chỉ đơn gián xử lý các lệnh song song ở tốc độ nhanh nhất. Sự phân công công việc không chỉ đem lại lợi ích về hiệu năng mà còn tạo cơ hội cho việc mở rộng hoạt động trong tương lai. Về phần mềm, các bộ chương trình dịch sẽ ngày càng phát triển, tiến bộ hơn trong việc tối ưu hoá mã phần mềm nhằm làm tăng thông lượng xử lý song song. Về phần cứng, những nỗ lực phát triển sẽ tiếp tục tập trung vào việc gia tăng số lượng các lệnh có thể xử lý được trong một chu kỳ xung nhịp. 2. Công nghệ siêu phân luồng ( Hyper Threading) Với công nghệ HT trong bộ xử lý Itanium, số lượng các thread trong các hệ thống được tăng gấp đôi trong mỗi lõi, nên đã tăng bốn lần thread mà hệ điều hành sử dụng. Điều này sẽ cho hiệu suất cao hơn nhiều so triển khai như trước. HT không được giới thiệu trước khi họ Itanium ra đời, nó được giới thiệu lần đầu tiên trong bộ xử lý Intel Itanium2. HyperThreading là tên của Intel đặt cho công nghệ SMT (Simultaneous Multi-Threading). Công nghệ này cho phép một nhân xử lý có thể thực sự xử lý song song các thread do các ứng dụng tạo ra, bằng cách trang bị thêm một số thành phần của nhân xử lý, khiến hệ điều hành nghĩ rằng nó đang làm việc với nhiều nhân xử lý. Như vậy, với một hệ điều hành tương thích bộ xử lý nhiều nhân hay nhiều bộ xử lý, nó sẽ sắp xếp để nhiều thread cùng được gửi đến các bộ xử lý “ảo” đó.