CPU Xeon 6000 dựa theo kiến trúc nehalem - Tài liệu, ebook, giáo trình

Nehalem sẽ là những CPU 45nm dựa trên Vi cấu trúc Intel Core .

Bộ nhớ Cache của Nehalem sẽ sử dụng tương tự như sắp xếp Cache đã sử dụng như đối với những bộ vi xử lí AMD Phenom , có nghĩa là mỗi lõi sẽ dùng bộ nhớ Cache L2 riêng biệt và bộ nhớ Cache L3 được dùng chung . Mỗi lõi sẽ có 256KB Cache L2 và bộ nhớ Cache L3 sẽ là 8MB. Bộ nhớ Cache L1 sẽ tương tự như của Core 2 Duo có nghĩa là tất cả là 64KB trong đó 32KB cho Lệnh và 32KB cho Dữ liệu .

9 trang | Chia sẻ: oanh_nt | Lượt xem: 1239 | Lượt tải: 0

Nội dung tài liệu CPU Xeon 6000 dựa theo kiến trúc nehalem, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

CPU Xeon 6000 dựa theo kiến trúc nehalem. Nehalem sẽ là những CPU 45nm dựa trên Vi cấu trúc Intel Core . Bộ nhớ Cache của Nehalem sẽ sử dụng tương tự như sắp xếp Cache đã sử dụng như đối với những bộ vi xử lí AMD Phenom , có nghĩa là mỗi lõi sẽ dùng bộ nhớ Cache L2 riêng biệt và bộ nhớ Cache L3 được dùng chung . Mỗi lõi sẽ có 256KB Cache L2 và bộ nhớ Cache L3 sẽ là 8MB. Bộ nhớ Cache L1 sẽ tương tự như của Core 2 Duo có nghĩa là tất cả là 64KB trong đó 32KB cho Lệnh và 32KB cho Dữ liệu . Sơ đồ khối của kiến trúc nehalem: Sơ đồ khối của các khối thực thi: FPU:Floating-Point Unit. Khối này chịu trách nhiệm cho việc thực thi cácbiểu thức toán học floating-point và cũng cả các chỉ lệnh MMX và SSE.Trong CPU này, các FPU không “hoàn thiện” vì một số kiểu chỉ lệnh(FPmov, FPadd và FPmul) chỉ được thực thi trên các FPU nào đó: FPadd: Chỉ có FPU này mới có thể xử lý các chỉ lệnh cộng floating-point như ADDPS. FPmul: Chỉ có FPU này mới có thể xử lý các chỉ lệnh nhân floating-point như MULPS FPmov:Các chỉ lệnh cho việc nạp hoặc copy một thanh ghi FPU, như MOVAPS (đượcdùng để truyền tải dữ liệu đến thanh ghi SSE 128-bit XMM). Kiểu chỉlệnh này có thể được thực thi trên các FPU, nhưng chỉ trên các FPU thứhai và thứ ba nếu các chỉ lệnh Fpadd hay Fpmul không có trongReservation Station. FP ADD: thực thi một chỉ lệnh SSE có tên gọi PFADD (Packed FP Add) và các chỉ lệnh COMPARE, SUBTRACT, MIN/MAX và CONVERT. Khối này được cung cấp riêng, chính vì vậy nó có thể bắt đầu việc thực thi một chỉ lệnh giải mã mới mỗi chu kì clock dù là nó không hoàn tất được sự thực thi của chỉ lệnh đã giải mã trước. Khối này có một độ trễ 3 chi kì clock, nghĩa là nó sẽ giữ chậm 3 chu kì clock đồi với mỗi chỉ lệnh đã được xử lí. AGU : những lệnh liên quan đến số nguyên và lên quan đến bộ nhớ được thực hiện ở đây . Store Data: Khối này xử lý các chỉ lệnh yêu cầu dữ liệu được ghi vào bộ nhớ RAM. Tham khảo: Đặc điểm cache: Hệ thống cache trong Xeon 6000 được tăng thêm một mức cache L3 có dung lượng lớn (18MB) và dùng chung cho tất cả các nhân. Mỗi nhân còn sở hữu riêng hai cache L1 (32KB) và L2 (256KB, độ trễ thấp hơn 12 chu kỳ và có 8 đường liên kết). Bộ nhớ đệm L3 trong vi xử lí xeon 6000 hoạt động với tần số độc lập và có hệ thống cấp nguồn riêng biệt với các nhân để đảm bảo độ ổn định và giảm xác suất lỗi. Ưu điểm của thiết kế cache L3 này là giúp việc trao đổi dữ liệu giữa các nhân hiệu quả hơn mà không cần thông qua các cache bên trong của mỗi nhân. Tuy nhiên, cache L3 cũng có ảnh hưởng đến hoạt động của cache riêng trong mỗi nhân. Mỗi dòng lệnh trong cache L3 chứa 4 bit đánh dấu nhân nào có chứa bản sao của dòng lệnh đó trong những cache riêng của mình. Cụ thể, khi một nhân truy vấn L3 và “thấy” bit đánh dấu mang giá trị 0 thì sẽ “hiểu” là trong cache riêng của nó chưa có bản sao dòng lệnh đó, và ngược lại, nếu bit đánh dấu mang giá trị 1 thì có khả năng cache riêng của nó đã có bản sao của dòng lệnh đó. Hơn nữa, giao thức truy xuất dữ liệu trong cache của các nhân cũng có sự chuyển biến thành giao thức MESIF (Modified, Exclusive, Shared, Invalid and Forward). Sự phối hợp của những bit đánh dấu và MESIF giúp giảm bớt tần suất truy cập cache của các nhân nên sẽ giải phóng nhiều băng thông hơn cho những dữ liệu thật sự cần thiết trong các cache. Bộ phận điều khiển bộ nhớ và Bus ngoài Để tăng tốc độ giao tiếp với RAM trong bộ VXL được tích hợp một chip điều khiển bộ nhớ. Chip điều khiển này sẽ chỉ hỗ trợ cho bộ nhớ hiệu năng cao DDR3, cho phép chạy được chế độ bộ nhớ kênh ba (triple channel) thay vì chỉ chạy kênh đôi như hiện nay, có nghĩa là nó truy cập được 03 thanh nhớ trong cùng một lúc (Khi sử dụng 03 thanh nhớ DDR3-1333 thì theo lí thuyết băng thông của nó đạt được là 31.992 MB/s so với 21.328 MB/s với cấu hình Dual-Channel hiện thời khi sử dụng cùng kiểu bộ nhớ ). Sau khi “loại bỏ” lượng băng thông dùng cho bộ nhớ, tuyến bus được sử dụng trước đây để BXL giao tiếp với chipset (giờ có tên là Intel QuickPath Interconnect - Intel QPI) sẽ trở thành tuyến bus “độc quyền” cho công việc trao đổi giữa BXL và các thiết bị khác trong hệ thống. Intel QPI sẽ gồm hai tuyến truyền nhận dữ liệu hoàn toàn riêng biệt với băng thông trên mỗi đường rất cao. Tuy nhiên, việc mở rộng tuyến bus nói trên đã góp phần làm tăng số lượng chân (pin) giao tiếp trên BXL. Do đó, việc sử dụng socket LGA775 với 775 chân không còn phù hợp. Vì vậy, trên vi xử lí Xeon 6000 series đều được trang bị socket FCLGA1567. Chip điều khiển năng lượng Intel lần tích hợp trong vi xử lí một chip điều khiển năng lượng PCU (Power Control Unit) để hiện thực công nghệ mới Turbo Boost. Chip PCU này sẽ dựa trên các cảm ứng được thiết lập tại các nhân xử lý để thực hiện giám sát về nhiệt độ, điện áp trên nhân. Dựa trên các thông tin trên, PCU sẽ thực hiện chức năng chính của nó là chuyển lượng điện năng không dùng từ các nhân ở trạng thái nghỉ sang những nhân đang hoạt động. Điều đó cũng có nghĩa một nhân đang hoạt động với tải công việc lớn có thể lấy phần điện năng không cần thiết từ các nhân đang được “nghỉ ngơi” và góp phần “đẩy” hiệu năng của mình lên bằng cách ép xung nhịp lên mức cao hơn. Đây là một giải pháp tốt để tiết kiệm điện năng khi tận dụng được lượng điện năng dư thừa từ các nhân không sử dụng Những cải tiến nâng cao cấu trúc khác Trong vi kiến trúc Core, Intel đã giới thiệu một tính năng mới là Macro Fusion có khả năng dịch hai lệnh x86 vào thành một vi lệnh để thực thi trong BXL. Điều này giúp cải thiện đáng kể hiệu suất hoạt động của BXL cũng như giảm bớt điện năng tiêu thụ. Tuy nhiên, tính năng này chỉ có thể được thực thi với những câu lệnh x86 so sánh và rẽ nhánh (lệnh điều kiện). Vi kiến trúc của vi xử lí sẽ cải thiện Macro Fusion theo hai hướng: tăng số lượng câu lệnh rẽ nhánh hỗ trợ, và sử dụng được cho cả các câu lệnh ở chế độ 64 bit bên cạnh chế độ 32 bit đã từng được hỗ trợ trên các BXL Core 2 trước đây. Một cải tiến nữa là việc đưa bộ phát hiện dòng lặp ra sau bộ giải mã. Vì vậy, thay vì giữ những câu lệnh x86, bộ phát hiện dòng lặp sẽ lưu giữ những câu vi lệnh sau khi đã được giải mã (lên đến 28 câu vi lệnh). Điều này sẽ giúp cải thiện khả năng xử lý khi BXL không phải thực hiện lại công việc giải mã những lệnh trong dòng lặp mà lấy trực tiếp kết quả từ bộ đệm phát hiện dòng lặp. Nhờ vậy, trong BXL nền Nehalem, bộ phận giải mã cũng sẽ được tắt đi trong quá trình xử lý dòng lặp bên cạnh việc cho thành phần đưa lệnh và dự đoán rẽ nhánh “nghỉ ngơi”, giúp tiết kiệm điện năng thêm một bậc. Vi xử lí cũng được thêm vào hai bộ đệm phụ TLB (Translation Lookaside Buffer) thứ hai với 512 điểm nhập (entry) và BTB (Branch Target Buffer) thứ hai. Như đã biết, TLB là một bảng dùng để chuyển đổi từ địa chỉ vật lý sang địa chỉ ảo bằng một mạch bộ nhớ ảo. Bộ nhớ ảo là công nghệ giúp BXL giả lập nhiều RAM hơn trên một tập tin nằm ở đĩa cứng để máy tính có thể hoạt động ngay cả khi không đủ RAM (bạn hẳn còn nhớ tập tin tráo đổi swap). Trong khi đó, bộ đệm BTB là một mạch cố gắng dự đoán bước tiếp theo của một chương trình, tải vào chương trình những lệnh mà nó nghĩ là BXL cần để thực thi tiếp theo và nếu... “may” mà nó tải đúng thì BXL sẽ không tốn thời gian để tải lệnh này từ bộ nhớ. Bộ đệm BTB thứ hai được bổ sung sẽ cho phép mạch này tải thêm nhiều lệnh hơn nữa, cải thiện hiệu năng của BXL. Áp dụng công nghệ siêu phân luồng (Hyper Threading). Vì có băng thông bộ nhớ và dung lượng cache lớn nên dữ liệu được cung cấp cho các nhân rất nhanh và dễ dàng để chia vào hai luồng xử lý trên mỗi nhân. Vi xử lí được cung cấp thêm một tập lệnh con SSE4.2 với 7 lệnh gồm CRC32 (dùng cho việc tính toán thông số checksum dùng trong lưu trữ hay mạng), PCMPESTRI, PCMPESTRM, PCMPISTRI và PCMPISTRM (dùng so sánh chuỗi), PCMPCTQ (so sánh dữ liệu), và POPCNT (thao tác trên bit dữ liệu để đếm số lượng bit được gán lên 1). Ngoài ra vi xử lí còn được bổ sung công nghệ Extended Page Tables (EPT) để tăng hiệu quả giao tiếp của các máy ảo với bộ nhớ bằng giải pháp phần cứng. Công nghệ này sẽ sử dụng bảng TLB (Translation Lookaside Buffer) dung lượng lớn để chuyển đổi địa chỉ ảo của các máy ảo sang địa chỉ vật lý của hệ thống. Mỗi điểm nhập (entry) trong bảng TLB được thêm một trường ASID (Address Space ID) để xác định địa chỉ này thuộc về máy ảo nào. Nhờ cách thiết kế này, việc chuyển đổi giữa các máy ảo không cần thiết phải xóa đi các entry trong TLB. Do đó, việc chuyển đổi máy ảo cũng như truy xuất bộ nhớ của các máy ảo trở nên dễ dàng và nhanh chóng hơn, tăng hiệu năng hoạt động của các hệ thống máy ảo. Sau đây là cấu hình của Bộ vi xử lí Intel Xeon X6550 - AT80604001797AB: Microarchitecture: Nehalem Platform: Boxboro-EX Core Stepping D0 (SLBRB) CPUID 206E6 (SLBRB) Công nghệ vi xử lí 45nm Băng thông dữ liệu 64 bit Số nhân 8 Cache mức 1 8 x 32 KB instruction caches 8 x 32 KB data caches Cache mức 2 8 x 256 KB Cache mức 3 18MB Đa xử lí Lên đến 2 vi xử lí Các tính năng MMX intruction set SSE SSE2 SSE3 Suppelemental SSE3 SSE4.1 SSE4.2 EM64T technology Virtualization technology (VT-x and VT-d) Execute Disable bit (giúp chống lại một số virus và mã độc). RAS with machine check Architechture recovery (phát hiện và báo lỗi phần cứng ) Hyper-Threading technology ( siêu phân luồng) Turbo Boost Technology Tính năng tiết kiệm điện Enhanced SpeedStep technology Điều khiển thiết bị ngoại vi 2 bộ điều khiển bộ nhớ DDR3 SDRAM tích hợp với 2 kênh đôi mở rộng giao tiếp bộ nhớ trên mỗi bộ điều khiển Quick Path Interconnect (4 tuyến) Giao tiếp PCI Express 2.0

Các file đính kèm theo tài liệu này:

cpu_xeon_6000_so_do_khoi_8198.doc