Ngày 5/4/2011, tại SANTA CLARA, bang California Mỹ, tập đoàn Intel đã công bố họ bộ vi xử lý dành cho máy chủ mới giúp tăng tốc những ứng dụng đòi hỏi khả năng xử lý cao đồng thời cũngtă
Trang 1Báo cáo môn Vi X Lý ử Lý
Đề tài : Tìm hiểu kiến trúc vi xử lý Intel Xeon E7 Family
Trang 2M c L c ục Lục ục Lục
I Giới Thiệu Chung 2
II Kiến Trúc Vi Xử Lý 3
1 Khái quát vi xử lý 3
Các thành phần chính : 5
Cổng Intel® SMI: 6
Cổng Intel® QPI: 6
2 Intel Xeon E7 Family được xây dựng với nền tảng vi kiến trúc Nehalem với bộ xử lý Westmere-EX 7
Kiến trúc Nehalem 7
3 Tập lệnh 15
MMX – Multimedia Extentions: 15
SSE2(Streaming SIMD Extensions 2 ): 16
SSE3( Streaming SIMD Extensions 3): 16
SSSE3(Supplemental Streaming SIMD Extentions): 17
SSE 4.1 : 17
SSE 4.2: 18
Tập chỉ lệnh AES-NI (Advanced Encryption Standard New Instructions): 18
4 Công nghệ 32nm 19
5 Công nghệ siêu phân luồng : (Intel Hyper-Threading ) 19
6 Công nghệ ảo hóa : virtualization technology 21
7 Công nghệ Intel Intelligent Power 22
8 Công nghệ Turbo Boost: tự động ép xung 23
9 Phiên bản 10 nhân : 23
10 30MB cho L3 Cache : 24
11 Các công nghê bảo mật : 24
12 Intel® 64 Architecture : 25
13 Công nghệ Enhanced Intel SpeedStep 27
14 Sử dụng Intel® QuickPath Interconnect : 27
+ Giới thiệu: 27
Trang 3+ Phương thức hoạt động: 28
So sánh QPI với FSB: 29
Cấu trúc 05 lớp của QPI: 31
Sơ đồ khối sử dụng QPI kết nối giữa những CPU với I/O HUB 33
III Những cải tiến kĩ thuật so với các dòng máy trước đó 36
Trang 4Ngày 5/4/2011, tại SANTA CLARA, bang California (Mỹ), tập đoàn Intel đã công bố họ bộ vi xử lý dành cho máy chủ mới giúp tăng tốc những ứng dụng đòi hỏi khả năng xử lý cao đồng thời cũngtăng độ tin cậy và bảo mật dữ liệu cho doanh nghiệp.
BXL Xeon thế hệ mới nhất dành cho máy chủ của Intel có hiệu năng cải thiện đáng kể và giảm chí phí điện năng so với thế hệ trước
Những họ bộ vi xử lý Intel Xeon E7-8800/4800/2800 tiếp nối các dòng Xeon thế hệ trước của Intel và đặt ra một tiêu chuẩn mới cho những ứng dụng điện toán cao cấp bao gồm bảo mật, phân tích dữ liệu thời gian thực và ảo hóa
Để đơn giản hóa cách gọi tên và giúp dễ nhớ hơn, có thể phân dòng chip Xeon E7 mới ra thành
2 lớp nhỏ hơn: E7-2800 series và E7-4800 series L3 cache sẽ được trải dài từ 18MB đến 30MB tùy từng phiên bản cụ thể trong khi công suất thiết kế của tản nhiệt tiêu chuẩn TDP sẽ nằm trong khoảng 95W đến 130W
Loại chip 6 nhân có 2 phiên bản bao gồm Xeon E7-2803 và Xeon E7-4807 với xung nhịp vàTDP lần lượt là 1.73GHz -105W và 1.86GHz-95W Cả 2 đều có L3 cache 18MB và chỉ số đường truyềnQuick Path Interconnect (QPI) là 4.8GT/s
CPU 8 nhân có 4 phiên bản, 2 thuộc lớp SKU 2800 và 2 thuộc SKU 4800 2820 và
E7-4820 có tốc độ 2GHz và hỗ trợ 18MB L3 cache Trong khi đó, E7-2830 và E7-4830 sở hữu xung nhịp 2.13GHz với L3 cache là 24MB
Cuối cùng là mảng chip 10 nhân với 7 đại diện, có tốc độ xung nhịp trải dài từ 2GHz đến 2.4GHz trong khi bộ nhớ L3 cache cũng thay đổi là 24MB hoặc 30MB tùy thuộc vào từng phiên bản cụ thể Trong số đó có con chip này đều có TDP là 130W và chỉ số QPI là 6.4 GT/s Đó là Xeon E7-
2850, Xeon E7-2860, Xeon E7-2870, Xeon E7-4850, Xeon E7-4860 và Xeon E7-4870 Một phiên bản chip 10 nhân tiêu thụ ít điện năng hơn là Xeon E7-8867L với 105W TDP, tốc độ 2.13 GHz, L3cache 30MB và 6.4GT/s QPI
1 Khái quát vi xử lý
Phạm vi xử lý Xeon E7 bao gồm không ít hơn 18 mô hình CPU được chia thành ba loạt bộ xử lý khác nhau, được gọi là các E7-2800, 4800 và 8800, có thể được cài đặt trong các hệ thống kép, bốn và tám, tương ứng
Trang 6 Các thành phần chính :
- Bộ vi xử lý được xây dựng trên quy trình 0,032 micron High-K
- 10 nhân với 20 luồng xử lý
- Sở hữu mức bộ nhớ đệm (cache) rất lớn, từ thấp nhất là 18MB và cao nhất lên đến 30MB cùng khả năng quản lý bộ nhớ RAM đến 2TB
- Dựa trên nền tảng thêm 2 Terabyte lớn của bộ nhớ trong một hệ thống bốn-socket
hỗ trợ bởi bộ xử lý mới
- Sử dụng socket LGA1567
- Kiến trúc chip vi xử lý lên đến 10 lõi trên 1 socket
- Các lõi siêu phân luồng, 2 luồng
- Hỗ trợ 48-bit địa chỉ ảo và vật lý 44-bit địa chỉ vật lý
- 32 KB Level 1 hướng dẫn bộ nhớ cache với chỉnh sửa lỗi đơn bit, bộ nhớ cache dữ liệu và L1: 32-KB Level 1 bộ nhớ cache dữ liệu với bảo vệ tính chẵn lẻ, hoặc 16 Cấp
KB 1 với sửa lỗi ECC và phát hiện trên dữ liệu và trên TAG
- 256 bộ đệm chỉ dẫn/ dữ liệu kB L2, ECC bảo vệ (SECDED)
- 30-LLC MB, bộ đệm chỉ dẫn/ dữ liệu, ECC được bảo vệ
Trang 7- Hai chip điều khiển bộ nhớ cung cấp băng thông bộ nhớ phong phú và dung lượng
bộ nhớ cho các ứng dụng doanh nghiệp đòi hỏi Tổng số bốn kênh Intel SMI + Hỗ trợ lên đến 16 DDR3 DIMM trên mỗi một socket
+ Hỗ trợ cho DDR III 800, 978, 1067 MHz tốc độ bộ nhớ+ Hỗ trợ cho 1, 2 và 4 công nghệ Gigabit DRAM
+ Hỗ trợ lên đến 32 GB Quad Rank DIMM
- Bộ nhớ RAS bao gồm các tính năng:
+ Hỗ trợ cho x4 double chip-fail+ Bộ nhớ ECC hỗ trợ bao gồm sửa chữa x4, x8 chip-fail+ Chế độ chuyển đổi dự phòng để hoạt động với một sự thất bại làn đường duy nhấtcho mỗi kênh trong một hướng
+ Hỗ trợ cho việc chuyển đổi bộ nhớ
- Intel QuickPath Interconnect RAS
- Bảo mật nền tảng khả năng sử dụng công nghệ Intel ® Trusted Execution
- Intel® AES New Instructions (Intel® AES-NI)
Cổng Intel® SMI:
- Phát SB Failover Muxing logic mở rộng từ 40-bit 80-bit
- Nhận đường dữ liệu tăng gấp đôi từ 52-bit đến 104-bit
- Thế hệ logic Frame Boundary trên Tx và Rx thay đổi với chiều rộng
Cổng Intel® QPI:
- Phát Nibble Muxing (điều chế độ rộng liên kết) mở rộng từ 40-bit 80-bit
Trang 8Hình 8-1 cho thấy giao diện của mỗi trường hợp với các hộp uncore khác Pbox PZ0 và PZ1 các cổng trường hợp FBD Pbox và pr0 PR3 Pbox Intel QPI cổng trường Không được hiển thị ở đây là PMISC giao diện với uncore.
2 Intel Xeon E7 Family được xây dựng với nền tảng vi kiến trúc Nehalem với bộ xử lý Westmere-EX
Kiến trúc Nehalem
Trang 9Sơ đồ khối kiến trúc Nehalem Cấu tạo:
- 4 nhân nằm chung trên 1 die
- Bộ nhớ đệm L3 cache dạng Smart Cache được dùng chung cho 4 nhân,tùy nhu cầu từng nhân từng thời điểm.
- Die xử lý tích hợp bộ điều khiển bộ nhớ MC
- Trên die còn có đường truyền tôc độ cao QPI(Intel QuickPath Interconnect) liên lạc với chipset.Thay thế FSB.
Những CPU dựa trên cấu trúc này sẽ tích hợp bộ phận điều khiển bộ nhớ hỗ trợ tới Channel DDR3 , 03 mức Cache và quay trở lại với công nghệ HyperThreading và có Bus ngoài mới có tên gọi QPI ( QuickPath )
Triple-*Dựa vào Vi cấu trúc Intel Core
*Có 02 tới 08 lõi
*Tích hợp Bộ phận điều khiển bộ nhớ , có thể hỗ trợ Triple-Channel DDR3
*256KB Cache L2 cho mỗi lõi
Trang 10*8MB Cache L3
*Tập lệnh SSE 4.2 mới với 07 lệnh mới
*Hỗ trợ công nghệ HyperThreading
*Turbo Mode ( tự động Overclock )
*Nâng cấp vi cấu trúc ( hỗ trợ Maro-Fusion 64-bit , cải tiến Loop Stream Detector , 06 cổng gửi
dữ liệu – Dispatch …)
*Cải tiến Bộ phận Dự đoán rẽ nhánh bằng cách thêm BTB thứ hai ( Branch Target Buffer )
*Tối ưu hoá những lệnh SSE không thẳng hàng
*Cải thiện hiệu suất ảo hoá Theo Intel thời gian trễ giảm đi 65% so với bộ vi xử lí 65nm Core 2
và giảm 20% so với 45nm Core 2
*Bus ngoài QPI ( QuickPath Interconnect ) mới
*Bộ phận điều khiển năng lượng mới
*Công nghệ sản xuất hiện tại là 45nm và những Model tương lai sẽ là 32nm có tên mã
“Westmere”
*Socket mới với 1366 chân
Một điều quan trọng nên nhớ đó là những bộ vi xử lí Core 2 được sản xuất dựa trên công nghệ dưới 45nm sẽ có nhiều tính năng hơn những bộ vi xử lí được sản xuất trên công nghệ 65nm Tất cả những tính năng này đều có mặt trong bộ vi xử lí Nehalem đáng chú ý nhất đó là :
*Tập lệnh SSE 4.1 với 47 lệnh SSE mới
*Công nghệ Deep Power Down ( chỉ có trong những CPU Mobile và được gọi là Trạng thái C6 – State )
* Công nghệ Enhanced Intel Dynamic Acceleration Technology ( chỉ có trong những CPU
Trang 11*Công nghệ Ảo hoá nâng cao “Enhanced Virtualization Technology” ( hiệu suất tăng 25 – 75% khi chuyển trạng thái sang máy ảo )
Ngay từ khi bắt đầu những CPU của Intel sử dụng Bus ngoài có tên gọi FSB ( Front Side Bus ) để chia xẻ việc truyền thông tin giữa Bộ nhớ và những yêu cầu I/O Những bộ vi xử lí mới dựa trên lõi Nehalem sẽ tích hợp Bộ phận điều khiển bộ nhớ bên trong và như vậy sẽ cung cấp hai Bus ngoài : Bus bộ nhớ để nối CPU tới bộ nhớ và Bus I/O để nối CPU với thế giới bên ngoài
Việc thay đổi này sẽ nâng cao hiệu suất làm việc của hệ thống vì hai lí do
*Có hai đường dữ liệu riêng biệt cho việc truy cập những thiết bị I/O và bộ nhớ
*Truy cập bộ nhớ nhanh hơn vì CPU không cần trao đổi thông tin với bất kì những linh kiện bên ngoài CPU
*Được thiết kế hướng tới Hiệu năng
Được thiết kế hướng tới Sự linh hoạt
Trang 12 Kiến trúc Westmere-EX
Trang 14• Làm mới Boxboro-EX nền tảng tương thích với Xeon ® ® 7500 7500
• 10 lõi WSM, 20 chủ đề, chết bằng đá nguyên khối shared
• 10 lát Cấp Lần chia sẻ bộ nhớ cache
• 2 bộ điều khiển bộ nhớ tích hợp
• 4 con đường nhanh Interconnect (QPI) hệ thống interconnect links kết nối liên
• Khả năng mở rộng bộ nhớ hỗ trợ lên đến 8 kênh DDR
• Hỗ trợ 2, 4 và 8 trong ổ cắm configs glueless and larger systems using Node Controller (NC) và lớn hơn hệ thống sử dụng điều khiển Node (NC)
• Intel 32nm quy trình công nghệ
• Phân phối 10 lát, chia sẻ LLC (bộ nhớ cache L3)
- 10 cách vật lý Địa chỉ băm để tránh các điểm nóng
- 5 song song LLC truy cập yêu cầu cho mỗi đồng hồ
- 32B (một nửa bộ nhớ cache-line) rộng đường dữ liệu
• Khả năng mở rộng kết nối vòng
- Ring dừng lại treo lên một phần cốt lõi / LLC, CA vòng
- LLC bỏ lỡ lưu lượng truy cập đổ qua CA0/CA1 – CA0 proxies slice0-4 and CA1 proxies slice5-9 - CA0 proxy slice0-4 và CA1 proxy slice5-9
- BW quy mô với lõi thêm / LLC vòng dừng
• Lên đến 120 yêu cầu xuất sắc được hỗ trợ
- Hỗ trợ lập bản đồ tất cả các yêu cầu bộ nhớ ổ cắm địa phương cho Numa tối ưu hóa khối lượng công việc
• Lên đến 96 nổi bật yêu cầu bộ nhớ trên 2 bộ nhớ Controllers (MCs) Bộ điều khiển (MC)
- MC hỗ trợ Out-of-Theo lịch trình trên các yêu cầu không mâu thuẫn
- Lập kế hoạch thực hiện tại granularity xếp hạng, mỗi quầy mất điện ngạch thực thi DDR tuân thủ thời gian suy nghi
- Cặp khóa-Liên kết tăng cường kết nối giữa các khả năng mở rộng bộ nhớ mỗi MC
- Khóa kênh bước cho phép bộ nhớ tiên tiến RAS
• Core / Cache rộng thông qua một kiến trúc mô-đun, khả năng mở rộng kết nối
- Kích thước bộ nhớ cache để giảm thiểu nhu cầu tăng bộ nhớ BW từ lõi thêm
• Cho phép phục hồi từ 2 thất bại chip DRAM mỗi bộ nhớ X4 rank xếp hạng
• Native 6 lõi và 10 cores
Một tập mới hướng dẫn cho hơn tỷ lệ mã hóa và giải mã 3x (AES) các quy trình so với trước
Cung cấp các hướng dẫn mới (AES hướng dẫn thiết lập hoặc AES-NI) sẽ được sử dụng bởi các thuật toán AES Ngoài ra một lệnh gọi là PCLMULQDQ sẽ thực hiện thực hiện ít nhân để
Trang 15sử dụng trong mật mã học cho phép bộ vi xử lý để thực hiện tăng tốc phần cứng mã hóa, không chỉ kết quả thực hiện nhanh hơn mà còn bảo vệ chống lại phần mềm nhắm mục tiêu tấn công.
Đồ họa tích hợp, thêm vào các gói bộ vi xử lý(lõi kép Arrandale và Clarkdale )
Cải thiện ảo hóa độ trễ
Khả năng ảo hóa mới: "vmx không bị giới hạn chế độ hỗ trợ," cho phép khách hàng để chạy 16-bit (thực tế chế độ và phương thức thực sự lớn)
Hỗ trợ cho "Các trang khổng lồ" có kích thước 1GB
Trang 163 Tập lệnh
MMX – Multimedia Extentions:.
Nâng cao hiệu quả về âm thanh hình ảnh và đồ họa
Gồm các lệnh:
- Lệnh quản lý trạng thái(State Management): enums
- Lệnh trao đổi dữ liệu(Data movement): movd,movq
- Lệnh logic
- Lệnh tính toán số học
- Lệnh so sánh
- Lệnh đóng gói dữ liệu
SSE- Streaming SIMD Extensions: là một SIMD mới mở rộng bộ vi xử lý Intel Pentium III
và AMD AthlonXP Không giống như MMX và 3DNow! phần mở rộng, chiếm không gian giống như các thanh ghi FPU bình thường, SSE thêm một không gian riêng biệt để bộ vi
xử lý Bởi vì điều này, SSE chỉ có thể được sử dụng trên hệ điều hành hỗ trợ nó
SSE được giới thiệu vào năm 1999, và còn được gọi là "Katmai New Hướng dẫn" (hoặc KNI) sau khi tên mã là cốt lõi của Pentium III
SSE thêm 8 mới 128-bit, chia thành 4 32-bit (độ chính xác duy nhất) giá trị dấu chấm động.Những thanh ghi này được gọi là XMM0 - XMM7 Một đăng ký kiểm soát bổ sung, MXCSR , cũng có sẵn để kiểm soát và kiểm tra tình trạng của các hướng dẫn SSE
SSE có chứa 70 hướng dẫn mới nhất của làm việc trên độ chính xác duy nhất điểm nổi
dữ liệu SIMD hướng dẫn rất có thể tăng hiệu suất chính xác khi nào hoạt động tương tựđược thực hiện trên nhiều đối tượng dữ liệu Ứng dụng điển hình là xử lý tín hiệu số và
xử lý đồ họa
SSE sử dụng chỉ là một kiểu dữ liệu duy nhất cho đăng ký XMM:
- 32-bit duy nhất chính xác dấu chấm động số
Hỗ trợ khả năng thực hiện tính toán dáu chấm động và hình học , hiện thị và di chuyển hình ảnh 3 chiều
Kiến trúc t p l nh SSE gồm : ập lệnh SSE gồm : ệnh SSE gồm :
Trang 17 SSE2(Streaming SIMD Extensions 2 ):
SSE2 mở rộng các hướng dẫn MMX để hoạt động trên sổ đăng ký XMM, cho phép các lập trình để hoàn toàn tránh tám MMX đăng ký 64-bit "biệt hiệu" trên IA-32 ngăn xếp nổi điểm đăng ký ban đầu Điều này cho phép trộn số nguyên SIMD và hoạt động vô hướng nổi mà không có chế độ của điểm chuyển đổi giữa MMX và x87 hoạt động điểm nổi Tuy nhiên, điều này là quá mờ giá trị của việc có thể thực hiện các hoạt động MMX đăng ký SSE rộng lớn hơn
SSE2 mở rộng hướng dẫn MMX để hoạt động trên sổ đăng ký XMM Vì vậy, nó có thể chuyển đổi tất cả các mã hiện có MMX SSE2 tương đương Kể từ khi một đăng ký XMM là gấp đôi thời gian đăng ký MMX, quầy vòng lặp và truy cập bộ nhớ có thể cần phải được thay đổi để phù này
Mặc dù một trong SSE2 hướng dẫn có thể hoạt động trên hai lần như nhiều dữ liệu như một lệnh MMX, hiệu suất có thể không tăng đáng kể Hai lý do chính là: truy cập SSE2 dữliệu trong bộ nhớ không phù hợp với một ranh giới 16-byte sẽ phải chịu hình phạt đáng
kể, và thông lượng của SSE2 hướng dẫn trong hầu hết x86 triển khai thường nhỏ hơn so với các hướng dẫn MMX Intel gần đây đã giải quyết vấn đề đầu tiên bằng cách thêm một hướng dẫn trong SSE3 để giảm chi phí truy cập dữ liệu unaligned, và vấn đề cuối cùng bằng cách mở rộng các công cụ thực hiện trong họ vi kiến trúc Core
SSE2 sau đó sẽ mở rộng việc sử dụng của XMM đăng ký bao gồm:
- 64-bit chính xác hai số điểm nổi hoặc
- hai số nguyên 64-bit hoặc
- bốn số nguyên 32-bit hoặc
- tám 16-bit số nguyên ngắn hoặc
- mười sáu byte 8-bit hoặc ký tự
Tăng cường thêm 144 lệnh hỗ trợ đồ họa truyền thông đa phương tiện,kết nối mạng trực tuyến Cáclệnh này bao gồm các tác vụ số Nguyên SIMD 128-bit (128-bit SIMD integer arithmetic operations) vàcác tác vụ dấu chấm động với độ chính xác gấp đôi SIMD 128-bit (128-bit SIMD double-precisionfloating-point operations) Các lệnh mới này làm tối ưu hóa khả năng thực hịên các ứng dụng như phim video, xử lý âm thanh - hình ảnh, mã hóa, tài chính, thiết kế và nghiên cứu khoa học, kết nốimạng trực tuyến…Thiết kế cho Pentium 4
SSE3( Streaming SIMD Extensions 3):
Trang 18Là tập lệnh mở rộng của SSE2 với 13 lệnh mới : các câu lệnh dành riêng cho việc tăng tốccác ứng dụng tốn bộ VXl như biên tập video hay chơi game
Sự thay đổi đáng chú ý nhất là khả năng làm việc theo chiều ngang trong một đăng ký, như trái ngược với hoạt động nhiều hơn hoặc ít hơn đúng theo chiều dọc của tất cả các hướng dẫn SSE trước Cụ thể hơn, hướng dẫn để thêm và trừ đi nhiều giá trị được lưu trữ trong một sổ đăng ký duy nhất đã được thêm vào Những hướng dẫn này đơn giản hóa việc thực hiện một số hoạt động DSB và 3D Ngoài ra còn có một hướng dẫn mới đểchuyển đổi các giá trị dấu chấm động phải là số nguyên mà không cần phải thay đổi chế
độ làm tròn số toàn cầu, do đó tránh tốn kém đường ống quầy hàng Cuối cùng, mở rộng thêm LDDQU, một sự thay thế lệch số nguyên vector tải có hiệu suất tốt hơn trên nền tảng dựa trên NetBurst cho tải vượt qua ranh giới cacheline
Cải thiện hoạt động của công nghệ HT, tăng cường chức năng multimedia và kết nối InternetNgoài các lệnh của SSE2, còn có các lệnh điều khiển tiến trình
SSSE3(Supplemental Streaming SIMD Extentions):
Phiên bản thứ 4 của công nghệ SSE SSE3 chỉ thêm 13 hướng dẫn mới, nhưng cho phép tính năng mới như hoạt động ngang (hoạt động trên một đăng ký duy nhất thay vì xuống thông qua đăng ký nhiều) và hướng dẫn truy cập một số unaligned Ngoài ra còn
có một vài quá trình hướng dẫn kiểm soát để tăng hiệu suất với HyperThreading tính năng của Intel
SSSE3 lần đầu tiên được giới thiệu với các bộ vi xử lý Intel dựa trên vi kiến trúc Core vào ngày 26 Tháng Sáu, 2006 với "Woodcrest "Xeons
SSSE3 đã được giới thiệu đến các Hướng dẫn mới tên mã Tejas(TNI) Hướng dẫn mới Merom(MNI) cho thiết kế bộ vi xử lý đầu tiên nhằm mục đích hỗ trợ nó
Gồm 16 lệnh.Mỗi lệnh có thể hoạt động trên MMX-64 bit hoặc trên 128 bit XMM đăng kí
SSE 4.1 :
Những lệnh này đã được giới thiệu với vi kiến trúc Penryn 45 nm thu nhỏ của vi kiến trúc Core của Intel Hỗ trợ được chỉ định thông qua các CPUID.01H: ECX.SSE41 [Bit 19] cờ
Là một nhóm gồm 70 lệnh được thiết kế thêm trên Bộ xử lý Pentium III nhằm tăng cườngchất lượng thực thi các tác vụ đồ họa 3 chiều (3D graphics) Nó hỗ trợ khả năng thực hiện tính toándấu chấm động và hình học - các tính năng cần thiết để hiển thị và di chuyển hình ảnh 3 chiều trênmàn hình Đây là tập hợp các lệnh tăng cường thứ 2 của Intel nhằm cải tiến khả năng đồ họa của cácbộ vi xử lý (tập hợp đầu tiên chính là MMX) SSE còn được gọi là KNI (Katmai New Instruction) do tênmã trước đây của CPU Intel Pentium III là Katm
Trang 19Mở rộng kiến trúc tập lệnh Intel 64, giành ưu thế trong sản xuất silicon 45nm
Mang lại hiệu năng cao hơn cho các phần mềm SIMD
Gồm 7 lệnh:
- CRC32 : Accumulate CRC32 Value Tích lũy CRC32 giá trị gia tăng
- PCMPESTRI: Đóng gói So sánh chuỗi Length rõ ràng, Quay trở lại Index
- PCMPESTRM: Đóng gói So sánh chuỗi Length rõ ràng, Quay trở lại Mask
- PCMPISTRI: Đóng gói So sánh chuỗi Length Implicit, Quay trở lại Index
- PCMPISTRM: Đóng gói So sánh chuỗi Length Implicit, Quay trở lại Mask
- PCMPGTQ: So sánh dữ liệu đóng gói Lớn hơn
- POPCNT: Quay trở lại đếm số bit là 1
SSE 4.2:
Những lệnh này lần đầu tiên được thực hiện trong các Nehalem dựa trên vi xử lý Intel Core i7 dòng sản phẩm và hoàn thành các tập lệnh SSE4 Hỗ trợ được chỉ định thông quacác CPUID.01H: ECX.SSE42 [Bit 20] cờ
Tập chỉ lệnh AES-NI (Advanced Encryption Standard New Instructions):
Là một phần mở rộng để thiết lập kiến trúc x86 hướng dẫn cho các bộ vi xử lý từ Intel vàAMD đề xuất của Intel tháng 3 năm 2008 Nó cho biết thêm 7 hướng dẫn mới để cải thiện tốc độ của các ứng dụng thực hiện mã hóa và giải mã bằng cách sử dụng AdvancedEncryption Standard (AES)
Số học:
- PCLMULQDQ - nhân, một hình thức đơn giản của nhân được sử dụng cho mật
mã
- Encryption/Decryption: Mã hóa / giải mã:
- AESENC -Thực hiện một vòng mã hóa AES
- AESDEC - Thực hiện một vòng giải mã AES
- AESENCLAST - Thực hiện vòng cuối cùng mã hóa AES
- AESDECLAST - Thực hiện vòng cuối cùng giải mã AES
- AESKEYGENASSIST - vòng chính thế hệ
- AESIMC - Cột Mix Inverse AES
Thực thi 1 số bước trong phần cứng
Gồm 1 số lệnh của AES để tối ưu hóa hiệu suất mã hóa