Nói một cách khác , bên cạnh bộ nhớ Cache L1 32KB thông thường cho những lệnh như trong hầu hết các bộ vi xử lí x86 , Sandy Bridge còn có thêm Cache L0 để lưu trữ những kết quả đã được g
Trang 1Sandy Bridge
Hằng năm, Intel đều đưa ra sản phẩm mới của họ ra thị trường theo chu trình Tick-Top: nâng cấp quy trình sản xuất hoặc cho ra kiến trúc mới
Bộ vi xử lý Sandy Bridge ra đời năm 2011 là sự nâng cấp(Tock) tiếp theo của Westmere, bằng công nghệ 32nm Đây là sản phẩm chiến lược của Intel nhằm tuyên chiến với vi xử lý Bulldozer của đối thủ AMD
Trang 2Sandy Bridge
Trang 3Sandy Bridge
• Thông tin chung về Sandy Bridge
• Sandy Bridge đã làm công việc cuối cùng trong chuỗi thành công của công nghệ 32nm là tích hợp hết các chức năng ưu việt vào cùng một bộ vi xử lý Cụ thể
Tích hợp mạch điều khiển bộ nhớ của Bloomfield
Tích hợp Bus điều khiển PCIe của Lynnfield
Tích hợp lõi đồ hoạ của Clackdale
Trang 4Sandy Bridge
Khuôn bán dẫn của Sandy Bridge có kích thước là 225nm2, nhỏ hơn Lynnfield và
Bloomfield.
CPU Sandy Bridge có 2 hoặc 4 lõi, hỗ trợ công nghệ Hyper Threading., 8mb cache L3, hỗ trợ
bộ nhớ DDR3-2 kênh, hỗ trợ 16 Lance PCIe, lõi đồ hoạ hỗ trợ Directx11
Trang 5Sandy Bridge
Dưới đây là biểu đồ so sánh bộ vi
xử lí Sandy Bridge với Lynnfield ,
có cùng số lõi x86 , làm việc với cùng tốc độ xung nhịp , cho thấy
vi cấu trúc mới có hiệu suất làm việc cao hơn từ 5-10%
Trang 6• Sandy Bridge thừa hưởng nhiều trên cấu trúc Nelahem và Pentium 4
• Thay đổi quan trọng đầu tiên nằm ở cơ chế ống lệnh (pipeline): những lệnh x86 được giải mã thành những vi lệnh(micro-oop) đơn giản hơn những lệnh xử lí chuyển thành vi lệnh không chỉ được chuyển tới tầng xử lí tiếp theo mà nó còn được giữ lại ở mức độ Cache L0 Nói một cách khác , bên cạnh bộ nhớ Cache L1 32KB thông thường cho những lệnh như trong hầu hết các bộ vi xử lí x86 ,
Sandy Bridge còn có thêm Cache L0 để lưu trữ những kết quả đã được giải mã
Trang 8• Cache vi lệnh đã được giải mã có dung lượng 6KB và có thể lưu trữ được 1500 vi lệnh , trợ giúp rất nhiều cho Bộ phận giải mã ( Decoder ) Nếu như Decoder phát hiện ra những lệnh đã được giải mã trước đó và bây giờ đang được lưu trữ trong Cache L0 thì nó sẽ không cần phải thực thi quá trình giải mã mới Bộ nhớ đệm Cache L0 này hỗ trợ rất nhiều để giảm bớt tải công việc Decoder , đó là phần tiêu thụ nhiều điện năng trong CPU Bên cạnh đó khi Decoder trong Sandy Bridge nghỉ nó sẽ bị tạm thời vô hiệu hóa để tiết kiệm điện năng
Trang 9• Cải tiến quan trọng thứ hai trong những tầng Pipeline đầu tiên đó chính là Bộ phận dự đoán rẽ nhánh - BPU ( Branch Prediction Unit )
• Mỗi khi dự đoán rẽ nhánh bị sai nó sẽ yêu cầu dừng lại và xóa hoàn toàn Pipeline Kết quả là dự đoán rẽ nhánh sai không chỉ ảnh hưởng tới hiệu suất làm việc mà lại tốn điện năng để thực hiện lại toàn bộ Pipeline
• Intel đã thiết kế BPU để nó có thể làm việc cực kì hiệu quả trong những bộ vi xử
lí mới Tuy nhiên Intel đã thay đổi tất cả những bộ đệm của Sandy Bridge dùng
để lưu trữ những Địa chỉ Rẽ nhánh và những Lịch sử Dự đoán bằng cách tăng thêm khoảng trống để lưu trữ dữ liệu này
Trang 11• Nhưng bộ phận quan trọng nhất trong tất cả các bộ vi xử lý OOO(Out-of-order) chính là OOO Cluster
• Intel đã mang PRF quay lại trong Sandy Bridge:
Trước kia , khi chúng sắp xếp lại những vi lệnh , chúng dùng để lưu trữ tất cả thanh ghi sao lưu lại của mỗi hoạt động trong bộ đệm
Bây giờ chúng dùng liên kết tới những giá trị thanh ghi lưu trữ trong PRF
Ưu điểm: hạn chế truyền dữ liệu thừa, ngăn chặn việc sao lưu những thanh ghi có cùng nội dung và như vậy tiết kiệm được không gian
Trang 13• Tuy nhiên việc thay thế giá trị thực tế bằng những liên kết tới đó cũng có mặt hạn chế đó là : Pipeline thực hiện cần có thêm tầng mới cho con trỏ ( Pointer )
để quả lí những liên kết
• Trong vi cấu trúc x86 mới lại hỗ trợ những lệnh AVX (Advanced Vector
Extensions) mới , được sử dụng nhiều trong những thuật toán của Multimedia , tài chính hoặc khoa học AVX mới tăng thực thi những lệnh song song thông qua những tính toán vector
Trang 14• Những lệnh AVX mới cho phép thực hiện lệnh mà không phá hủy có nghĩa là dữ liệu đầu tiên trong thanh ghi không bị mất Kết quả là tập lệnh AVX , như là một
sự cải tiến của cấu trúc được coi như là sự sáng tạo để tăng hiệu suất làm việc
và tiết kiệm điện năng bởi vì chúng cho phép thực hiện nhiều thuật toán đơn giản và dùng vài lệnh để hoàn thành nhiệm vụ Những lệnh AVX hoàn toàn có lợi với những tính toán nặng tính dấu phảy động như Multimedia , những ứng dụng khoa học và tài chính
Trang 15• Những Bộ phận thực hiện ( Execution Unit ) cũng đã được thiết kế lại nhất là để cho những lệnh 256-bit thực hiện một cách hiệu quả Thiết kế lại chủ yếu làm việc với hai cặp Execution 128-bit để xử lí gói dữ liệu 2567-bit một cách hiệu
quả Mỗi cổng ( Port ) thực thi trong ba cổng trong Sandy Bridge ( như
Nehalem ) có những bộ phận để làm việc cùng một lúc với ba kiểu dữ liệu 64-bit , 128-64-bit nguyên và 256-64-bit thực Và điều quan trọng nhất đó là sự sắp xếp lại này không ảnh hưởng tới băng thông của Execution Unit
Trang 17• Sandy Bridge được thiết kế để làm việc với những lệnh Vector 256-bit vì thế Intel
đã phải chú tâm tới hiệu suất của những Bộ phận chức năng thực hiện việc Tải và Lưu trữ dữ liệu Trong Nehalem có 03 cổng và chúng cũng vẫn được dùng trong Sandy Bridge , tuy nhiên để tăng hiệu quả công việc , Intel đã hợp nhất hai trong
ba cổng này ( màu vàng trong hình dưới ) dùng để phục vụ Tải và Lưu trữ dữ
liệu Cổng thứ ba không thay đổi chỉ làm nhiệm vụ lưu trữ dữ liệu
• Mỗi cổng có thể cho phép 16-byte / chu kì đồng hồ và tất cả đều qua bộ nhớ Cache L1 dữ liệu Kết quả là Sandy Bridge cho phép tải 32-byte dữ liệu và lưu trữ 16-byte dữ liệu trong một chu kì đồng hồ