Tìm hiểu kiến trúc VXL intel core i5 i7 dựa trên vi kiến trúc sandy bridge
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
- -TIỂU LUẬN
KỸ THUẬT VI XỬ LÝ
Chủ đề số 5:
“Tìm hiểu kiến trúc VXL Intel Core i5/i7
dựa trên vi kiến trúc Sandy Bridge”
Giảng viên hướng dẫn : TS Hoàng Xuân Dậu
Hà Nội 10-2013
Trang 2
LỜI NÓI ĐẦU
Tập đoàn Intel (Integrated Electronics) được thành lập năm 1968 tại SantaClara, California của Hoa Kỳ Ngày nay, Intel luôn được coi là "gã khổng lồ" trong lĩnh vực sản xuất vi xử lý cho máy vi tính, bo mạch cùng hàng loạt các linh kiện phục vụ cho máy tính xách tay, thiết bị di động Kể từ năm 2007, Intel luôn vượt trước đối thủ của mình trong lĩnh vực chip xử lý là AMD với những bước nhảy tick-tock “nhịp nhàng” Tại IDF 2010 (Hội nghị của các nhà phát triển Intel), lại một lần nữa tiếng "tock" của Intel được vang lên Đó chính
là “Sandy Bridge” - người kế nhiệm kiến trúc Nehalem "nổi đình đám" trong năm 2008 Có thể nói, Sandy Bridge chính là con bài chiến lược của hãng trong năm 2011
Nội dung của bài tiểu luận sẽ giới thiệu về kiến trúc của VXL
Intel® Core™ i7-2600K dựa trên vi kiến trúc Sandy Bridge, gồm 5 phần :
Phần 1 - Giới thiệu : Giới thiệu khái quát về vi xử lý – xuất xứ và các thông số chính
Phần 2 - Kiến trúc vi xử lý : nêu sơ đồ khối của vi xử lý, các thành phần
chính và mô tả văn tắt tập lệnh của VXL
Phần 3 - Các đặc tính và công nghệ mới : trình bày các đặc tính nổi bật, các công nghệ mới được áp dụng mà các dòng VXL đi trước chưa có
Phần 4 - Kết luận : Tóm tắt những thông tin đã trình bày
Phần 5 - Tài liệu tham khảo : Liệt kê các tài liệu được sử dụng.
Trang 3Chu trình phát triển tick-tock của Intel
Sandy Bridge là giai đoạn "tock" mới nhất trong chiến lược phát triển tock" nổi tiếng của Intel: cứ hai thế hệ sản phẩm sẽ có chung một kiến trúc Tick
"tick-là quy trình sản xuất mới (45 mm, 32 mn ) nhưng vẫn giữ kiến trúc cũ Tock có quy trình sản xuất cũ nhưng được trang bị kiến trúc mới Sandy Bridge vẫn đượcsản xuất theo quy trình 32 nm như Westerme năm 2009 nhưng có vi kiến trúc hoàn toàn mới, mang lại hiệu suất cao và tiêu thụ ít điện năng hơn
Tương tự các VXL dựa trên kiến trúc Nehalem, Intel vẫn sử dụng tên gọi Core i3, Core i5 và Core i7 ứng với các dòng VXL phổ thông, trung cấp và cao cấp của Sandy Bridge Tuy nhiên, Sandy Bridge là vi kiến trúc hoàn toàn mới và Intel đã có sự thay đổi về socket của VXL này, cụ thể là sử dụng socket
1155LGA thay vì 1156LGA như các VXL Nehalem Do đó, Sandy Bridge chỉ tương thích với những bo mạch chủ chipset 6-Series (Q67, H67, H61, P67…) Cũng chính vì điều đó nên sự xuất hiện của Sandy Bridge không được suôn sẻ cho lắm khi vào đầu năm nay, Intel đã phải thu hồi và khắc phục lỗi trong thiết
kế chipset 6-Series (tên mã Cougar Point) dành cho VXL này Intel cho biết vấn
đề nằm ở cổng SATA-II bị thoái hóa theo thời gian, làm ảnh hưởng đến tốc độ truy xuất hay chức năng của những thiết bị lưu trữ như ổ cứng, ổ quang sử dụng cổng này Hiện tại, lỗi đã được khắc phục và Intel đã đưa ra các điều khoản cho các nhà sản xuất bo mạch chủ để ngăn việc khách hàng gặp phải lỗi
Trang 4Nhận biết VXL Sandy Bridge
Như đã đề cập trên, tuy vẫn sử dụng tên gọi Core i3, Core i5 và Core i7 tương tự như Nehalem nhưng tên mã (SKU) của Sandy Bridge có đến 4 chữ số
và bắt đầu bằng số “2” để giúp nhận biết VXL Core thế hệ 2 Bên cạnh đó là các hậu tố K, S, T của VXL để bàn và M, QM, XM của VXL di động
Hậu tố K để chỉ VXL không khóa hệ số nhân và có TDP 95W, thích hợp cho việc ép xung S để chỉ VXL tiết kiệm điện (TDP 65W), xung nhịp mặc định thấphơn K nhưng không hề kém cạnh khi tăng tốc với Turbo Boost Hậu tố T để chỉ VXL siêu tiết kiệm điện (TDP 35W hay 45W tùy sản phẩm), xung nhịp mặc định và ở chế độ Turbo Boost đều thấp hơn so với các VXL kể trên Ngoài ra, VXL để bàn còn có một dòng không có hậu tố để chỉ VXL đã khóa hệ số nhân
và có TDP 95W, xung nhịp mặc định và ở chế độ Turbo Boost tương đương dòng K
Tương tự với VXL di động, hậu tố M để chỉ VXL di động, trong đó xxx9M
là VXL tiết kiệm điện (TDP 25W) và xxx7M là VXL siêu tiết kiệm (TDP 17W)
QM để chỉ VXL di động 4 nhân (quad-core mobile) và XM (extreme quad-core mobile) để chỉ VXL di động 4 nhân, không khóa hệ số nhân
1.2 Vi xử lý Intel® Core™ i7-2600K
Trang 5Bộ nhớ đệm thông minh Intel® 8 MB
Thông số kỹ thuật đồ họa
Tùy chọn mở rộng
Số đường PCI Express Tối đa 16
Trang 6Phần 2 – Kiến trúc vi xử lý
2.1 Sơ đồ khối và các thành phần chính
Tổng quát về kiến trúc Sandy Bridge
Một cách tổng quát, kiến trúc Sandy Bridge có thể chia làm 3 phần chính:
+ Các core và Last Level Cache (LLC) (cache L3 dùng chung)+ GPU
+ System Agent: nắm giữ những phần còn lại như
- Integrated Memory Controller (IMC)
- PCI Express Controller
- Power Control Unit
- Display
Trang 7Sơ đồ khối vi kiến trúc Sandy Bridge
Front-end (in order)
Công việc của phần này là đảm bảo vận chuyển đủ vi lệnh từ các dòng lệnh cho phần back-end(out of order) xử lý Điều này luôn là thách thức đối với bất kỳ VXL hiện đại nào Việc vận chuyển dòng lệnh thường xuyên bị gián đoạn bới các lệnh rẽ nhánh, kèm theo đó là việc giải mã lệnh thành các vi lệnh cũng cực kỳ phức tạp
Các kiến trúc sư đã dành nhiều nỗ lực để cải thiện mọi mặt của phần front-end, một trong những tính năng mới nhất được đưa vào là bộ nhớ cache cho vi lệnh uop cache(micro-operations cache) Intel gọi đây là cache L0 có khả năng chứa tới 1536 vi lệnh (khoảng 6KB) Ý tưởng rất rõ ràng, khi chương trình chạy một vòng lặp (tức là lặp lại các lệnh), VXL sẽ không phải giải mã lại các lệnh đó: chúng sẽ được lưu trữ lại trong cache, tiết kiệm thời gian và qua đó tănghiệu suất Theo như Intel, cache này có tỉ lệ hit là 80% Khi uop cache đang
Trang 8được sử dụng, VXL đưa cache lệnh L1 và các thành phần giải mã lệnh vào trạngthái “sleep”, giúp tiết kiệm năng lượng và chạy mát hơn.
Uop cache trong Sandy Bridge
Việc bổ sung uop cache có vẻ trùng với một ý tưởng đã được sử dụng trong vi kiến trúc Netburst (VXL Pentium 4) , trong đó cũng có trace cache lưu trữ các vi lệnh đã giải mã Tuy nhiên trace cache làm việc khác với uop cache
mà ta đang đề cập: chúng lưu trữ lệnh theo đúng thứ tự các lệnh đã chạy Như vậy, nếu một chương trình chạy vòng lặp 10 lần thì trace cache sẽ lưu trữ các lệnh đó 10 lần, do đó sẽ có rất nhiều các lệnh trùng lặp trong trace cache Điều
đó không xảy ra với uop cache, nó chỉ lưu trữ các lệnh riêng lẻ
Bên cạnh đó việc sử dụng trace cache phát sinh thêm một mini-front-end Thành phần này không cần thiết cho phần chính của front-end, nơi mà máy phải
đi qua trong hầu hết thời gian Điều đó dẫn tới quá trình diễn ra chậm hơn khi xảy ra miss trong trace cache Uop cache không giống như vậy, nó đơn giản chỉ
là một cache rất nhanh nhằm mục đích giảm độ trễ giữa cache L1 và các đơn vị thực thi
Trang 9Trace cache trong Pentium 4
Một trong những phần mà Intel tập trung phát triển nhất là khối dự đoán
rẽ nhánh, nơi mà việc cải tiến sẽ đem đến hiệu suất tăng và tiết kiệm năng
lượng Mỗi dự đoán sai sẽ ảnh hưởng đến toàn bộ ống lệnh, gây lãng phí thời gian và năng lượng cho việc thực thi hàng trăm lệnh Bộ phận này được thiết kế lại và kích thước của phần đệm (BTB – Branch Target Buffer) được tăng gấp đôi so với Nehalem, cộng thêm việc sử dụng kỹ thuật nén giúp tăng khả năng lưu trữ Dự đoán rẽ nhánh là một mạch phán đoán bước tiếp theo của chương trình và nạp trước vào CPU lệnh mà nó cho rằng CPU sẽ cần Tăng kích thước của phần đệm cho phép mạch này nạp trước nhiều lệnh hơn, tăng hiệu suất CPU
Trang 10Back-end (out-of-order)
Bộ phận Scheduler tương tự như trong kiến trúc Nehalem với 6 cổng: 3 cổng cho các đơn vị thực thi và 3 công cho các thao tác với bộ nhớ Tuy vậy kiến trúc Sandy Bridge có nhiều đơn vị thực thi hơn (15 so với 12 trong
Nehalem) và theo như Intel chúng đã được thiết kế lại để cải thiện hiệu suất của các thao tác toán học
Các đơn vị thực thi trong Sandy Bridge
Mỗi đơn vị thực thi kết nối cới Scheduler bằng đường dữ liêu 128-bit Để thực hiện các lệnh AVX mới mang 256-bit dữ liệu, thay vì thêm các đường dữ liệu và các đơn vị 256-bit vào CPU, 2 đơn vị thực thi được kết hợp với nhau (dùng cùng lúc)
Trang 11Các đơn vị thực thi khi xử lý các lệnh AVX
Sau khi 1 lệnh được thực hiện, nó không được chép lại vào re-order buffernhư các kiến trúc trước đây của Intel mà được chỉ ra trong 1 danh sách rằng nó thực hiện xong Bằng cách này CPU tiết kiệm được các bit và tăng hiệu quả
Một điều khác biệt nữa là ở các cổng thao tác với bộ nhớ, kiến trúc
Nehalem có một đơn vị nạp địa chỉ, một đơn vị lưu địa chỉ và một đơn vị lưu dữ liệu Điều đó có nghĩa là các vi xử lý Nehalem có thể nạp từ cache dữ liệu L1 128-bit dữ liệu trong mỗi chu kỳ Trong kiến trúc Sandy Bridge đơn vị nạp và lưu địa chỉ có thể dùng như một đơn vị nạp hoặc một đơn vị lưu địa chỉ Thay đổi này giúp các vi xử lý có thể nạp 256 bit dữ liệu từ cache dữ liệu L1 trong mỗi chu kỳ, giúp tăng hiệu suất
Trang 122.2 Các tập lệnh
MMX (Matrix-Math Extension)
+ Tập lệnh thuộc loại SIMD
+ Được giới thiệu năm 1997 trong VXL dòng Pentium dựa trên vi kiến trúc P5
+ Gồm 57 lệnh mới
SSE (Streaming SIMD Extension)
+ Tập lệnh thuộc loại SIMD
+ Được giới thiệu năm 1999 trong VXL Pentium III
+ Gồm 70 lệnh mới
SSE2 (Streaming SIMD Extension 2)
+ Mở rộng của SSE gồm 144 lệnh mới
+ Được giới thiệu năm 2001 trong phiên bản đầu tiên của VXL Pentium 4
SSE3 (Streaming SIMD Extension 3)
+ Còn được biết đến với tên mã của Intel là Prescott New Instructions – PNI
+ Mở rộng của SSE2 gồm 13 lệnh mới
+ Được giới thiệu năm 2004 trong phiên bản sửa đổi của VXL Pentium 4
SSSE3/ SSE3S (Supplemental Streaming SIMD Extensions 3)
+ Tập lệnh thuộc loại SIMD
+ Được giới thiệu vào ngày 26-06-2006 trong VXL "Woodcrest" Xeons dựa trên vi kiến trúc Core
+ Gồm 16 lệnh mới riêng biệt
SSE4 (Streaming SIMD Extension 3)
+ Được công bố ngày 27-09-2006 dùng trong vi kiến trúc Core
+ Gồm SSE4.1 có 47 lệnh và SSE4.2 có 7 lệnh
AES (Advanced Encryption Standard Instruction Set)
+ Được giới thiệu vào tháng 3-2008
+ Giúp cải thiện tốc độ của các ứng dụng thực hiện mã hóa và giải mã bằng cách sử dụng chuẩn mã hóa tiên tiến AES
AVX (Advanced Vector Extensions)
+ Được hỗ trợ đầu tiên bởi VXL Sandy Bridge năm 2011
+ Tăng độ rộng các thanh ghi từ 128 bit lên 256 bit
+ Gồm 12 lệnh mới
Trang 13Phần 3 – Các đặc tính và công nghệ mới3.1 Transistor Hi-K+ Metal Gate thế hệ thứ 2
Transistor Hi-K+ Metal Gate
Chu trình phát triển tick-tock của Intel gắn liền với định luật Moore: cứ sau
mỗi 24 tháng kích thước transistor phải được giảm xuống một nửa, và tương đương như vậy, các thành phần nhỏ nhất của transistor phải giảm còn 70% Ở các thế hệ VXL trước các transistor từng sử dụng lớp silicon dioxide (SiO2) mỏng đóng vai trò cách điện giữa cực cổng (gate) và kênh (channel), nơi dòng điện chạy qua khi transistor ở trạng thái “mở” Lớp cách điện này mỏng dần với mỗi thế hệ chip mới và dần đạt tới mức kích thước giới hạn, không thể nhỏ hơn được nữa, khoảng 5 nguyên tử (đường kính nguyên tử đơn Silicon là 0,26nm) Lớp cách điện silicon dioxide mỏng là một vấn đề lớn, nó mất dần khả năng cách điện Bắt đầu từ những thế hệ chip từ 1990, đã có hiện tượng rò rỉ điện qua lớp cách điện này, cuối cùng, dẫn đến vấn đề năng lượng bị tiêu hao do chip nóng lên dưới tác động của dòng điện tử không mong muốn Như vậy việc làm mỏng hơn nữa lớp silicon dioxide là không thể
Transistor dùng silicon dioxide làm lớp cách điện
Hoạt động của transistor loại NMOS
Vấn đề cần giải quyết ở đây là phải tìm được vật liệu cách điện với độ dày vừa đủ để ngăn cản điện tử đi qua nhưng cũng phải cho phép điện trường từ cổngtruyền đến kênh để có thể mở transistor Thuật ngữ kỹ thuật dùng cho những vật liệu có tính chất như vậy là chất điện môi “high-k” (High-k dielectric), trong đó
Trang 14k là hằng số điện môi Thông qua hàng loạt các nghiên cứu, thử nghiệm xác địnhcác chỉ số của vật liệu như hệ số dung môi, độ ổn định về điện, khả năng tương thích với Silicon kết quả thu được cho thấy hai chất điện môi hafnium dioxide (HfO2) và zirconium oxide (ZrO2) có thể đáp ứng yêu cầu đặt ra cho chất cách điện mới.
Bắt đầu chuyển sang giai đoạn thử nghiệm với vật liệu mới, một vấn đề lại nảy sinh: đó là tương tác giữa cực cổng và lớp cách điện high-k Ở các transistor trước, điện cực này thường được tạo ra từ silicon đa tinh thể (polysilicon), và nó làm việc rất tốt với lớp cách điện silicon dioxide Khi thay silicon dioxide bằng vật liệu high-k dielectric thì “mối quan hệ” này bị phá vỡ, tác động xấu đến hoạt động của transistor
Giải pháp cho vấn đề này là sử dụng kim loại thay cho polysilicon Cuối cùng transistor được cấu tạo từ oxide hafnium và cực cổng kim loại đã đạt được những yêu cầu cần thiết: mở khi có điện áp xác định, độ rò rỉ qua lớp cách điện rất thấp, cho phép dòng điện lớn đi qua kênh ở điện áp xác định
Cải tiến đạt được trong thế hệ thứ 2
+ Độ dày lớp điện môi giảm từ 1.0nm (kiến trúc 45nm) xuống 0.9nm, độ dài
cổng giảm xuống còn 30nm, số transistor tăng đến 995 triệu trên mỗi chip
+ Tăng hiệu suất của transistor thêm hơn 22%, giảm rò rỉ điện hơn 5 lần cho NMOS transistor và hơn 10 lần cho PMOS transistor so với kiến trúc 45nm + Sử dụng công nghệ silicon mỏng thế hệ thứ 4 giúp cải thiện hiệu suất và sửdụng năng lượng hiệu quả
Trang 153.2 GPU tích hợp
Một trong những điểm đáng chú ý nhất của Sandy Bridge là việc tích hợp GPU Nếu như ở Westmere, Intel cho GPU(cùng Memory Controller và các tínhnăng khác) với CPU nằm trên 2 đế trong cùng một gói xử lý và kết nối bằng bus QPI thì trong Sandy Bridge tất cả được tích hợp trên cùng một đế Với thiết kế này, GPU có thể sử dụng LLC, không cần phải kết nối tới bộ nhớ RAM, qua đó
hệ thống sẽ giảm được độ trễ và tiết kiệm năng lượng hơn
Trang 16Một số điểm nhấn của Intel® HD Graphics 3000
+ Sản xuất với công nghệ 32nm (GPU của Westmere vẫn dùng công nghệ
Trang 173.3 Cấu trúc ring bus
CPU dựa trên nền tảng Sandy Bridge sẽ có một cấu trúc bus dạng mạch vòng giúp các thành phần bên trong trao đổi với nhau Khi có một thành phần muốn trao đổi với các thành phần khác chúng không trực tiếp kết nối với nhau
mà sẽ đưa thông tin lên ring, sau đó ring sẽ di chuyển thông tin này đến đích
Trong hình minh họa ta có thể thấy mạch vòng được biểu diễn bằng đường màu đen, có các điểm dừng màu đỏ (nhưng chúng hoàn toàn tách biệt vớiLLC) Có tất cả 4 mạch vòng: data ring, request ring, acknowledge ring và snoop ring, chúng dựa trên giao thức của QPI
Mỗi thành phần tham gia sẽ chủ động dùng ring khi ring trống và thông tin luôn được vận chuyển bằng con đường ngắn nhất
Trang 183.4 Turbo Boost thế hệ mới
Turbo Boost là công nghệ tự động ép xung CPU khi CPU cần thêm năng lực xử lý Ở Sandy Bridge công nghệ này đã được sửa đổi, cho phép CPU vượt qua mức TDP của nó tối đa đến 25 giây Điều này là hoàn toàn có thể nhờ khả năng tản nhiệt tốt hơn và các thành phần vẫn còn mát từ quá trình idle trước đó
Trang 19Bên cạnh đó, các core và graphic controller cũng “chia sẻ” mức TDP nên nếu như graphic core không tiêu hao nhiều nhiệt sẽ cho phép CPU làm việc ở tốc độ lớn hơn
3.5 Intel Quick Sync Video
Là công nghệ phần cứng giúp cho việc mã hóa và giải mã video "Quick Sync" nhằm ám chỉ việc chuyển đổi nhanh chóng một video từ DVD hay Blu-ray sang một định dạng thích hợp, như smartphone Công nghệ này được giới thiệu đầu tiên trong các CPU Sandy Bridge
Không giống như một GPU sử dụng đa mục đích Quick Sync là một phầncứng chuyên dụng của các VXL giúp việc xử lý video nhanh chóng và hiệu quả hơn Công nghệ này có thể giúp mã hóa file video dài 4 phút dung lượng
449MB từ 1080p sang 1024 x 768 trong 22 giây Cùng việc đó sử dụng Nvidia GeForce GTX 570 và AMD Radeon HD 6870 mất 83 và 86 giây