НАУЧНЫЕ РАБОТЫ

Керiвництво программиста

Перші процесори сімейства 486-х в первинному кеше забезпечували тільки

політику наскрізного запису. Для них не було необхідності в реалізації

пакетного режиму при записі. Запис зовнішнім контролером в кешуюму пам'ять

наводить тільки до анулювання рядка кеша, якщо осередок, до якої буде в

обігу зовнішній контролер, уявлений і в внутрішньому кеші. Для політики

зворотного запису інтерфейс ускладнюється - необхідно забезпечення

можливості вивантаження рядків кеша, що модифікувалися в основну пам'ять,

якщо до пам'яті, що відображається цими рядками, буде в обігу зовнішній

контролер шини. З цими відмінностями зв'язані поняття стандартного і

розширеного режиму шини процесора 486. Стандартний режим шини

передвизначений для роботи первинного кеша з політикою наскрізний запису,

що повністю сумісно з інтерфейсом перших процесорів 486 з WT-кешем. Його

основні відзнаки наступні: на сигнал FLUSH# процесор не відповідає

спеціальним циклом підтвердження; по сигналу FLUSH# процесор анулює всіх

рядки внутрішнього кеша за 15-20 тактів CLK; сигнали, специфічні для WB-

кеша, ігноруються; сигнал EADS# сприймається в будь-який момент часу.

Розширений режим шини передвизначений для роботи первинного кеша з

політикою зворотного запису, що повністю сумісно з інтерфейсом процесорів

486 з WB-кешем. Його основні відзнаки наступні: по сигналу FLUSH# процесор

виконує зворотні записи рядків ,що модифікувалися кеша, після чого

відповідає спеціальним циклом підтвердження; зворотний запис рядків ,що

модифікувалися кеша, що виконується по сигналу FLUSH# і інструкції WBINVD,

може позичати біля 2000 тактів CLK, система повинна спостерігати за шиною,

очікуючи спеціального циклу підтвердження; сигнали BLEN#, EWBE#, WB/WT#,

INV сприймаються процесором; сигнал WB/WT# сприймається в кожному циклі

звертання до пам'яті, дозволяючи визначати політику запису для кожного

рядка окремо; сигнал EADS# сприймається тільки в стані HOLD, AHOLD або

BOFF#; сигнал PLOCK# не активний (постійний високий рівень). Вибір режиму

шини здійснюється процесором за станом лінії WB/WT# в момент закінчення

сигналу RESET, низькому рівню відповідає стандартний режим шини. Сигнал

всередині процесора резистором підтягується до низького рівня, так що на

системній платі, не зворотного запису ,що підтримує режим, процесор завжди

буде працювати в стандартному режимі. На рисунку 1.6 уявлений пакетний цикл

заповнення рядка кеш-пам'яті.

Процесор 486 має RISC-ядро, що зажадало докорінної зміни дешифрації

команд. Черга кодів перебує з двох блоків по 16 байт і заповнюється, або з

кэша за 1 такт, або швидкими пакетними циклами поблочно. Запитання на

передвиборку має нижчий пріоритет у порівнянні з іншими запитаннями, що

дозволяє звести до мінімуму час, необхідний для вибірки операнда. На

рисунку 1.7 уявлений конвейєр процесора.

Більшість команд перебувають в крапках конвейєра не більш одного такту.

Крім того запис результату може бути суміщений з виконанням наступної

команди, якщо будь-який операнд наступної команди, або не перетинається з

результатом попередньої, або перетинається повністю (входить в склад.

Наприклад АХ і ЕАХ). Дешифрация команди виконується в дві стадії. На першій

стадії виробляється трансляція команди в RISC-інструкцію. На другій стадії

виробляється обчислення адрес операндів і формування відповідних запитань.

Арифметичний блок має в свойому складі окрім блоку цілочисельної

обробки ще і блок обробки чисел з плаваючою крапкою, що раніше входив в

склад сопроцесора.

В склад процесора війшло ще одне влаштування, покликане значно

підвищити продуктивність. Це кеш пам'ять першого рівня, працююча на частоті

ядра. Кэш-пам'ять має розмір 8 Кб і має чотирьохвходову наборно-асоціативну

структуру. Її робота аналогічній роботі блоку TLB.

Процесор має внутрішню 64-розрядну шину, що зв'язує кеш-пам'ять з

основними внутрішніми блоками, що дозволяє за один такт передавати операнд

з плаваючою крапкою або дескриптор сегменту.

Pentium.

По інтерфейсу шина процесора Pentium нагадує шину 486, але має помітні

відзнаки. Нові особливості направлені на підтримку політики зворотного

запису кеша, підвищення продуктивності і забезпечення додаткових

функціональних можливостей. Якщо шина 486-го була орієнтована на

максимальну гнучкість і простоту підключення приладів з різноманітною

розрядностью, то шина Pentium орієнтована на досягнення максимальної

продуктивності.

Шина даних стала 64-бітной для підвищення продуктивності обміну з

пам'яттю. Можливість динамічного керування розрядністю шини вилучена,

погодження по розрядності з інтерфейсними шинами покладене на мікросхеми

чипсета. При дозволеному контролі паритету даних (сигнал PEN) помилка

викликає не тільки спрацьовування сигналу PCHK#, але і фіксацію збойної

адреси і даних в регістрі машинного контролю. А якщо встановлен біт MCE

регістру CR4, по цій помилці генерується виключення 18. В доповнення до

контролю паритету шини даних введен контроль паритету шини адреси. Виявлена

помилка паритету бітів A[31:5] шини адреси тільки викликає сигнал помилки

APCHK#, що може бути оброблений системною логікою.

Пакетні цикли виконуються тільки у разі звертання до пам'яті, причому

як при читанні, так і при записі. Пакетні цикли зв'язані тільки з кешуємою

пам'яттю, при цьому кешуємість пам'яті подразумує і її підтримку пакетного

режиму. Під час пакетного циклу сигнали дозволу байт і молодші біти адреси

не міняються. Порядок чергування адрес, як і у процесора 486, оптимизован

для двухбанкової організації пам'яті. Знову з'явилася конвейєрна адресація,

що дозволяє водночас на шині бути присутім двом обслуговуваним запитанням.

Ознакою пакетного циклу (і його закінчення) є сигнал CASHE#. Зовнішня

система не може перервати пакетний цикл, початий процесором. Конвейєризация

запрошується сигналом NA#, в відповідь на який процесор через такт видасть

адресу наступного циклу. Без конвейєризації наступна адреса була б

виставлена тільки після завершення передачі даних поточного циклу.

Процесор має вхід EWBE#, з допомогою якого він відсліджує стан

зовнішніх буферів відкладеного запису для забезпечення коректной

послідовності шиних циклів запису.

Для підтримання погодженості даних кеша і основної пам'яті процесор

відпрацьовує цикли спостереження, що ініціювалися зовнішньою системою. Ці

цикли, як і в 486-м, використають сигнали AHOLD#, EADS# і відповідні

сигнали процесора HIT# і HITM#. Сигнал FLUSH# викликає вивантаження всіх

рядків ,що модифікувалися первинного кеша. Цикли спостереження ініціюються

системою для визначення присутності затребуваної області пам'яті в рядку

будь-як кеш-пам'яті і визначення її стану. Процесори, починаючи з Pentium,

підтримують протокол MESI, названий по їм станам, що визначаються:

Modified, Exclusive, Shared, Invalid. Стану визначаються слідуючим чином: M-

state - рядок присутній тільки в одному кеші і модифікований, те є

відрізняється від вмісту основної пам'яті. Доступ до цього рядка можливий

без генерації зовнішнього (по відношенню до локальної шини) циклу

звертання; E-state - рядок присутній тільки в одному кеші, але не

модифікований. Доступ до цього рядка можливий без генерації зовнішнього

циклу звертання, при записі вона перейде в стан М; S-state - рядок

потенційно може бути присутнім в декількох кешах. Її читання можливо без

генерації зовнішнього циклу, а запис в неї повинна супроводжуватися

наскрізним записом в основну пам'ять, що притягне анулювання відповідних

рядків в інших кешах; I-state - рядок буде відстуній в кеше, її читання

може призвести до генерації циклу заповнення рядка. Запис в неї буде

наскрізний і вийде на зовнішню шину. Шини цикли процесора уявлені на

рисунку 1.8.

Процесор Pentium має суперскалярну архітектуру, що означає можливість

одночасного виконання більш однієї інструкції за один такт. Він побудований

на основі двох конвейєрів загального призначення для цілочисельних операцій

і конвейєрного FPU. Процесор може виконувати водночас дві цілочисельні

інструкції.

Структура конвейєрів уявлена на рисунку 1.9 (Пунктиром показані стадії,

добавлені в процесори з підтримкою ММХ). На стадії передвибірки PF команди

вибираються з кеша команд. Далі вони надходять на стадію вибірки F. Тут

відбувається розподіл вибраної порції коду на окремі команди, а також

декодування будь-яких префіксів. Між стадією F і D1 знаходиться FIFO-буфер.

В ньому може міститися до чотирьох інструкцій (в процесорах без ММХ буфер

буде відстуній, а префікси декодуються на стадії D1). Буфер прозорий, т. є.

він не віднімає часу, коли пуст. В кожному такті з стадії F в буфер може

надходити до двох інструкцій. Бо середня швидкість виконання команд менш

ніж дві команди за такт, те буфер звичайно заповнений.

На стадії D1 відбувається перетворення команд в RISC-інструкції і

прийняття рішення про распаралелювання. Далі команди надходять в два

конвейєра. Обидва конвейєра функціонально подібні, але другий V конвейєр у

порівнянні з головним U має деякі обмеження. Стадія D2, на якій

вираховуються адреси операндів пам'яті, має багатоканальний суматор. В

відзнаку від відповідної стадії конвейєра попередніх процесорів, ця стадія

не вводить додаткових тактів затримки при багатокомпонентних обчисленнях

адреси. На стадії ЕХ відбувається безпосереднє виконання команд в

цілочисельних АЛУ. Pentium має окремий умножитель, що не використає

ресурсів АЛУ, і, отже, дозволяє виконувати інші команди паралельно з

множенням. Але бо умножитель тільки один, дві команди множення не

распаралеливаються. Множення може вироблятися в V конвейєрі. Кожний

конвейєр має свій буфер запису WB для підвищення продуктивності при

послідовних операціях запису в пам'ять. Буфери мають розрядність 64 б і

можуть обидва заповнитися за один такт, наприклад, при одночасних кеш-

промахах записи на обидва конвейєрах.

В відзнаку від цілочисельних команд, що цілком виконуються на стадії

ЕХ, команди FPU і MMX починають виконуватися на стадії ЕХ, а після цього

уходять на свої стадії. На стадіях конвейєра FPU виконуються наступні дії.

На стадії ЕХ відбувається читання операндів з пам'яті і регістрів, далі

перехід на стадію Х1 або перетворення даних до зовнішнього формату і запис

в пам'ять. На стадії Х1 відбувається перетворення даних до внутрішнього

формату і запис в регістр. На стадії Х2 виконання команд, а на стадії WF -

округлення і запис результату. Для команд ММХ існують два своїх конвейєра,

постачених окремими АЛУ і умножителями. На стадії ЕХ відбувається читання

операндів. Стадія Mex - виконання команд, перший такт множення. Стадія

Wm/М2 - запис результату однотактних команд, другий такт множення. Стадія

М3 - третій такт множення. Wmul - запис результату множення.

Блок попередньої вибірки інструкцій має чотири 32-байтных буферу. На

стадії PF дві незалежні пари буферів вибірки працюють разом з цільовим

буфером ветвлення ВТВ. В кожний момент часу попередню вибірку інструкцій

може активно запрошувати тільки один буфер. Вибірка виробляється послідовно

до появи інструкції галуження. Коли така інструкція з'являється, ВТВ

завбачує, буде чи перехід. Якщо завбачується перехід, те дозволяється

робота іншого буферу передвиборки і він починає передвиборку з цільової

крапки галуження. Якщо завбачене галуження не відбулося, конвейєри

інструкцій скидаються і передвиборка починається знову. Оскільки кеш

інструкцій окремий від кэша даних, передвиборка інструкцій не конфліктує з

запитаннями даних з кеша.

Pentium Pro.

Зовнішній інтерфейс процесора Pentium Pro докорінно відрізняється від

всіх попередніх моделей процесорів. Застосування динамічного виконання

різко підвищує частоту запитань процесорного ядра до шини за даними пам'яті

і інструкціями, оскільки ядро водночас обробляє декілька інструкцій. Для

обходу вузького місця - зовнішньої шини - кристал процесорного ядра

використає архітектуру подвійної незалежної шини. Одна з цих шин

використовується тільки для зв'язку з кристалом вторинного кеша,

розташованим в тому же корпусі мікросхеми, а у Pentium II - на загальному

картриджі. Ця шина є локальною і в геометричному сенсі - провідники мають

довжину порядку одиниць сантиметрів, що дозволяє використати її на частоті

ядра процесора. Значний обсяг вторинного кеша дозволяє задовольняти

більшість запитань до пам'яті суто локально, при цьому коефіцієнт

завантаження шини досягає 90%. Друга шина процесорного кристалу виходить на

зовнішні виводи мікросхеми, вона і є системною шиною процесора. Ця шина

працює на зовнішній частоті незалежно від внутрішньої шини. Завантаження

процесором зовнішньої шини для звичайних “настольных” застосуваннь складає

порядку 10% від її пропускної спроможності, а для серверних застосуваннь

може досягати 60% при чотирьохпроцесорной конфігурації. Таким Чином,

обмежена пропускна спроможність зовнішньої шини перестає сильно стримувати

продуктивність процесора. Зниження навантаження на зовнішню шину дозволяє

ефективно використати багатопроцесорну архітектуру.

Системна шина PentiumPro і Pentium II більш ефективна для об'єднання

процесорів по симетричній архітектурі, ніж шини попередніх процесорів,

оптимизовані для обміну з пам'яттю. Вона дозволяє без додаткових схем

об'єднувати до чотирьох процесорів.

Сигнали системної шини об'єднуються в групи запитань і відповідей.

Кожне влаштування-агент, підключене до цієї шини, до ініціализації

запитання через механізм арбітражу повинно отримати право на використання

шини запитання. Запитання виходить за два суміжних такта: в першому такті

передається адреса, тип звертання і тому подібна інформація. В другому

такті передається унікальний ідентифікатор транзакції, довжина запитання,

дозволені байти шини і т. п. Через три такти після запитання перевіряється

стан помилки для захисту від помилок передачі або порушень протоколу. Будь-

яка виявлена помилка викликає повторення запитання, а друга помилка для

того же запитання викликає виключення контролю. Шини транзакції діляться на

безліч фаз, перекриваючих друг друга. В фазі завершення всі агенти, що

відповідають на дане запитання, при необхідності можуть виставити на шину

коди завершення. Інші процесори в цій фазі управляють лініями HIT# і HITM#,

в залежності від попадання запитання в їхній внутрішній кеш. Агент, що не

встигає відповісти за відведені чотири такту, може виставити водночас

сигнали HIT# і HITM# для затримки фази завершення на число тактів, кратне

двом. В випадку кеш-попадания запитання до пам'яті задовольняє процесор,

оскільки передачі кеш-кэш відбуваються швидше. Однак при попаданні в рядок,

що модифікувався цикли звертання до пам'яті неминучі. На шині водночас може

бути присутнім безліч запитань і відповідей, однак логічний аналізатор, “що

розуміє” протокол шини Pentium Pro, здатний розкласти їх “по полочкам”

відповідних транзакцій.

По складу і призначенню сигналів системна шина процесорів шостої

ґенерації значно відрізняється від шин попередніх процесорів.

Шина REQ[4:0]# під час першого такту фази запитання несе частину

інформації про транзакції, достатню для ініціалізації циклу спостереження.

При транзакції доступу до пам'яті тут же передається інформація про розмір

адресного простору - 4 Гб (32-біта) або 64 Гб (38-біт). Під час другого

такту фази запитання по цим лініям передається додаткова інформація,

включаюча довжину поля даних. Можливо завдання довжини 0-8, 16 або 32

байта.

Шина A[35:3]# використовується багатофункціонально. Під час першого

такту фази запитання вона містить адреса пам'яті або введення-висновку, а

для транзакцій з відкладеною відповіддю - її ідентифікатор. Під час другого

такту фази запитання ця шина несе інформацію про атрибути транзакції, її

ідентифікатор, і додаткові функції, що беруть участь байтах. По закінченню

дії сигналу RESET# процесори з цих ліній одержують інформацію про

конфігурацію по включенню.

Сигнали запитання BREQ[3:0]# використовуються для арбітражу симетричних

агентів. Агент “n” запрошує шину, управляючи сигналом BREQn#, а інші лінії

розглядає як вхідні. Симетричні агенти підтримують розподілений механізм

арбітражу на основі циклічної зміни ідентифікатора пріоритету. “Що

обертається” ідентифікатор подає собою внутрішній стан всіх симетричних

агентів для визначення агента з найменшим пріоритетом для наступної події

арбітражу. По включенні живлення що обертається ідентифікатор

встановлюється в значення 3, дозволяючи агенту 0 мати вищий пріоритет з

всіх симетричних агентів. По черговій події арбітражу новий стане рівним

номеру агента - поточного власника шини, в результаті чого, віддавши

керування шиною при наступній події, він отримає найнижчий пріоритет.

Чергова подія трапляється, коли виставляє запитання до вільної шини або

поточний власник знімає своє запитання. За станом ліній BREQ[3:0] і

значенню ідентифікатора, відомого всім агентам, вони водночас (по однаковим

правилам) визначають нового власника шини. Власник шини може відраховувати

керування шиною, зберігаючи активне значення свого сигналу запитання. Однак

виявивши запитання від інших агентів, він по можливості повинен віддати

керування шиною. Для підключення до шини арбітражу BREQ[3:0]#

Страницы: 1, 2, 3, 4, 5, 6

Приглашения

09.12.2013 - 16.12.2013

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

09.12.2013 - 16.12.2013

МЕНЮ

НАУЧНЫЕ РАБОТЫ

Керiвництво программиста

Приглашения

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»