НАУЧНЫЕ РАБОТЫ

Микропроцессоры

архитектуры, с запасом на будущее. Однако, с 1993 года реализация

SuperSparc стала на шаг отставать от своих конкурентов.

С появлением UltraSparc, четвертого поколения архитектуры SPARC,

компания связывает надежды на восстановление утраченных позиций. Он

содержит ни много ни мало, но девять исполнительных блоков: два

целочисленных АЛУ, пять блоков вычислений с плавающей точкой (два для

сложения, два для умножения и одно для деления и извлечения квадратного

корня), блок предсказания адреса перехода и блок загрузки/записи.

UltraSparc содержит блок обработки переходов, встроенный в первичную

кэш команд, и условно выполняет предсказанные переходы, но не может

выдавать команды с нарушением их очередности. Эта функция перекладывается

на оптимизирующие компиляторы.

Архитектура SPARC всегда имела регистровые окна, т.е. восемь

перекрывающихся банков по 24 двойных регистра, которые могут

предотвратить остановки процессора в моменты комплексного переключения,

связанные с интенсивными записями в память. Разработчики компиляторов

склонны считать эти окна недостаточным решением, поэтому в UltraSparc

используется иерархическая система несвязанных шин. Шина данных

разрядностью 128 бит работает на одной скорости с ядром процессора. Она

соединяется через буферные микросхемы с 128-разрядной системной шиной,

работающей на частоте, составляющей половину, треть или четверть скорости

процессорного ядра. Для согласования с более «медленной» периферией

служит шина ввода-вывода Sbus.

Фирма Sun реализует эту схему на аппаратном уровне с помощью

коммутационной микросхемы, являющейся составной частью схемного комплекта

окружения. Эта микросхема может изолировать шину памяти от шины ввода-

вывода, так что ЦПУ продолжает, например, запись в графическую подсистему

или в иное устройство ввода-вывода, а не останавливается во время чтения

ОЗУ. Такая схема гарантирует полное использование ресурсов шины и

установившуюся пропускную способность 1.3 Гигабайт/с.

В процессоре UltraSparc-II используется система команд Visual

Instruction Set (VIS), включающая 30 новых команд для обработки данных

мультимедиа, графики, обработки изображений и других целочисленных

алгоритмов. Команды VIS включают операции сложения, вычитания и

умножения, которые позволяют выполнять до восьми операций над целыми

длинной байт параллельно с операцией загрузки или записи в память и с

операцией перехода за один такт. Такой подход может повысить

видеопроизводительность систем.

4.6. Процессоры Digital Equipment.

Digital Equipment процессор Alpha наиболее тесно следует в русле

RISC-философии по сравнению со своими конкурентами, «посрезав излишки

сала» с аппаратуры и системы команд с целью максимального спрямления

маршрута прохождения данных. Разработчики Alpha уверены, что очень высокая

частота чипа даст вам большие преимущества, чем причудливые аппаратные

излишества. Их принцип сработал: кристалл 21164 был самым быстрым в мире

процессором со дня своего появления в 1995 году. Процессор 21164 в три раза

быстрее на целочисленных вычислениях, чем Pentium-100, и превосходит на

обработке числе с плавающей точкой, чем суперкомпьютерный набор

микросхем R8000 фирмы Mips. Топология процессора следующего поколения

21164А не изменилась, но она смаштабирована, кроме того, модернизирован

компилятор, что повысило производительность на тестах SPECmarks.

Предполагается, что готовые образцы нового процессора, изготовленные по

КМОП-технологии с нормами 0.35 микрон, при тактовой частоте свыше 300 МГц

будут иметь производительность 500 по SPECint92 и 700 по SPECfp92.

Процессоры семейства 21164 на прибегают к преимуществам исполнения не

в порядке очередности (out-of-order), больше полагаясь на

интеллектуальные компиляторы, которые могут генерировать коды, сводящие

к минимуму простои конвейера. Это самый гигантский процессор в мире - на

одном кристалле размещено 9.3 миллиона транзисторов, большая часть которых

пошла на ячейки кэш-памяти. Alpha 21164 имеет на кристалле относительно

небольшую первичную кэш прямого отображения на 8 Кбайт и 96 Кбайт

вторичной. За счет вздувания площади кристалла достигнута беспрецедентная

производительность кэширования.

В 21164 работает четыре исполнительных блока (два для целых и два для

чисел с плавающей точкой) и может обрабатывать по две команды каждого типа

за такт. Он имеет четырехступенчатый конвейер команд, который «питает»

отдельные конвейеры для целых чисел, чисел с плавающей точкой и конвейер

памяти. По сравнению с прочими RISC-про-цессорами нового поколения чип

21164 имеет относительно глубокие и простые конвейеры, что позволяет

запускать их с более высокой тактовой частотой.

Конвейер команд вообще не заботится о их зависимости по данным (в

отличие от pentium Pro, который является ярким примером машины данных), он

выдает команды в порядке их поступления на свой вход (в порядке следования

по программе). Если текущие четыре команды невозможно послать сразу все на

различные исполнительные блоки, то конвейер команд останавливается до

тех пор, пока это не станет возможным. В отличие от конкурентов 21164

также не использует технику переименования регистров, вместо нее он

непосредственно обновляет содержимое своих архитектурных регистров, когда

результат достигает финальной ступени конвейера - write-back. Для борьбы с

задержками и зависимостью команд команд по данным в процессоре

активно используются маршруты для обхода регистров, поэтому совместно

используемые операнды становятся доступными до стадии write-back.

Компания Digital продвигает Альфу как платформу для серверов Windows

NT, а не как традиционный UNIX-сервер.

4.7. Процессоры Mips.

Mips процессор R1000 унаследовал свой суперскалярный дизайн от R8000,

который предназначался для рынка суперкомпьютеров научного назначения. Hо

R1000 ориентирован на массовые задачи. Использование в R1000 динамического

планирования команд, которое ослабляет зависимость от перекомпиляции ПО,

написанного для более старых процессоров, стало возможным благодаря тесным

связям Mips со своим партнером Silicon Graphics, имеющим богатейший тыл в

виде сложных графических приложений.

R1000 первый однокристалльный процессор от Mips. Для предотвращения

остановок конвейера в нем использовано динамическое предсказание

переходов, с четырьмя уровнями условного исполнения, с использованием

переименования регистров, гарантирующего что результаты не будут

передаваться в реальные регистры до тех пор, пока неясность по команде

перехода не будет снята. Процессор поддерживает «теневую карту»

отображения своих регистров переименования. В случае неверного

предсказания адреса перехода он просто восстанавливает эту карту

отображения, но не выполняет фактической очистки регистров и «промывки»

буферов, экономя таким образом один такт.

R1000 отличается также радикальной схемой схемой внеочередной

обработки. Порядок следования команд в точном соответствии с программой

сохраняется на трех первых ступенях конвейера, но затем поток

разветвляется на три очереди (где команды дожидаются обработки на

целочисленном АЛУ, блоке вычислений с плавающей точкой и блоке

загрузки/записи). Эти очереди уже обслуживаются по мере освобождения того

или иного ресурса.

Предполагаемая производительность R1000, выполненного по КМОП-

технологии с нормами 0.35 микрон должна достичь 300 по SPECint92 и

по SPECfp92.

Программный порядок в конце концов восстанавливается так, что самая

«старая» команда покидает обработку первой. Аппаратная поддержка

исполнения в стиле out-of-order дает большие преимущества конечному

пользователю, так как коды, написанные под старые скалярные процессоры

Mips (например, R4000), начинают работать на полной скорости и не требуют

перекомпиляции. Хотя потенциально процессор R1000 способен выдавать по

пять команд на исполнение в каждом такте, он выбирает и возвращает только

четыре, не успевая закончить пятую в том же такте.

Одно из двух устройств для вычисления двойной точности с плавающей

точкой занято сложениями, а другое умножениями/делениями и извлечением

квадратного корня. Hа кристалле R1000 реализован также интерфейс внешней

шины, позволяющий связывать в кластер до четырех процессоров без

дополнительной логики обрамления.

4.8. Процессоры Hewlett-Packard.

Hewlett-Packard процессор PA-8000. Компания Hewlett-Packard одной из

первых освоила RISC-технологию, выйдя еще в 1986 году со своим первым 32-

разрядным процессором PA-RISC. Практически все выпускаемые процессоры PA-

RISC используются в рабочих станциях HP серии 9000. В период с 1991 по

1993 (перед появлением систем на базе PowerPC) HP отгрузила достаточно

много таких машин, став крупнейшим продавцом RISC-чипов в долларовом

выражении.

С целью пропаганды своих микропроцессоров среди других

производителей систем компания HP стала организатором организации

Precision RISC Organization (PRO). А в 1994 году компания взорвала бомбу,

объединившись с Intel для создания новой архитектуры. Это поставило под

сомнение будущее PRO.

PA-8000 это 64-разрядный, четырехканальный суперскалярный процессор

с радикальной схемой неупорядоченного исполнения программ. В составе

кристалла десять функциональных блоков, включая два целочисленных АЛУ,

два блока для сдвига целых чисел, два блока multiply/accumulate

(MAC) для чисел с плавающей запятой, два блока деления/извлечения

квадратного корня для чисел с плавающей запятой и два блока

загрузки/записи. Блоки МАС имеют трехтактовую задержку и при полной

загрузке конвейера на обработке одинарной точности обеспечивают

производительность 4 FLOPS за такт. Блоки деления дают 17-тактовую

задержку и не конвейеризированы, но они могут работать одновременно с

блоками МАС.

В PA-8000 использован буфер переупорядочивания команд (IRB) глубиной

56 команд, позволяющий «просматривать»программу на следующие 56 команд

вперед в поисках таких четырех команд, которые можно выполнить

параллельно. IRB фактически состоит из двух 28-слотовых буферов. Буфер

АЛУ содержит команды для целочисленного блока и блока плавающей точки, а

буфер памяти - команды загрузки/записи.

Как только команда попадает в слот IRB, аппаратура просматривает все

команды, отправленные на функциональные блоки, чтобы найти среди них такую,

которая является источником операндов для команды, находящейся в слоте.

Команда в слоте запускается только после того, как будет распределена на

исполнение последняя команда, которая сдерживала ее. Каждый из буферов IRB

может выдавать по две команды в каждом такте, и в любом случае выдается

самая «старая» команда в буфере. Поскольку PA-8000 использует

переименование регистров и возвращает результаты выполнения команд из IRB

в порядке их следования по программе, тем самым поддерживается точная

модель обработки исключительных ситуаций.

HP проектировала РА-8000 специально для задач коммерческой обработки

данных и сложных вычислений, типа генной инженерии, в которых объем данных

настолько велик, что они не умещаются ни в один из мыслимых

внутрикристалльных кэшей. Вот почему, РА-8000 полагается на внешние

первичные кэши команд и данных. Слоты в третьем 28-слото-вом буфере,

который называется буфером переупорядочивания адресов (Adress-Recorder

Buffer - ARB), один к одному ассоциированы со слотами в буфере памяти IRB.

В АРВ содержатся виртуальные и физические адреса всех выданных команд

загрузки/записи. Кроме того, АРВ допускает выполнение загрузок и записей в

произвольном порядке, но с сохранением согласованности и сглаживанием

влияния задержки, связанной с адресацией внешних кэшей.

4.9. Процессоры Motorola.

Motorola/IBM процессор PowerPC620 это первая 64-битовая реализация

архитектуры PowerPC. Имея 64-битовые регистры и внутренние магистрали

данных и семь миллионов транзисторов, новому процессору требуется почти

вдвое больший и сложный кристалл, чем у PowerPC 604. Модель 620 имеет

четырехканальную суперконвейерную схему с шестью исполнительными

устройствами: три целочисленных АЛУ, блок плавающей точки, блок

загрузки/записи и блок переходов. Последний способен на четырехуровневое

предсказание ветвлений в программе и условное исполнение с использованием

схемы переименования регистров.

ПО микроархитектуре RISC-ядра 620-й похож на 604-й. Отличия сводятся

в основном к ширине регистров и магистралей данных, а также к увеличенному

числу станций резервирования для условного исполнения команд. Прибавка

производительности достигнута за счет улучшенного шинного интерфейса.

Теперь он имеет 128-битовый интерфейс к памяти, по которому за один цикл

обращения можно выбрать два 64-би-товых длинных слова, и 40-битовая шина

адреса, по которой можно адресовать до одного терабайта физической памяти.

В состав шинного интерфейса входить также поддержка кэш-памяти

второго уровня объемом до 128 Мбайт, которая может работать на четверти,

половине или на полной скорости ЦПУ.

6. Сравнительный анализ.

В середины октября 1995 года в г.Сан-Хосе (Калифорния) состоялся

очередной Микропроцессорный Форум. В прошлом году на нем демонстрировались

прототипы процессоров IBM Power PC 620, MIPS R10000, SUN UltraSPARC, HP PA-

8000 и DEC Alpha 21164.

Из прошлогодних процессоров-дебюторов до рынка дошел только процессор

Alpha 21164/300. Его производительность по тесту SPECint92 составила 341

единицу. Пребывая с такой потрясающей производительностью в лидерах

гонки на быстродействие процессоров, в ноябре Alpha пропустила вперед

компанию Intel с процессором Pentium Pro. Страсти накалились нешуточные

и вот на нынешнем форуме Digital сообщила, что в декабре приступит к

выпуску нового варианта этого процессора - Alpha 21164A с тактовой частой

333 МГц, выполненного по технологии 0.35 мкм. Проектируемая

производительность 500 по SPECint92.

Hewlett-Packard анонсировала 32-разрядный процессор архитектуры РА

следующего поколения РА-7300LC с встроенными функциями мультимедиа.

Hачало его выпуска по 0.5 мкм технологии возможно во второй половине

следующего года. Этот первый процессор PA-RISC, оснащенный внутренними 64

Кбайт кэшами первого уровня для команд и для данных, предпочтительно будет

иметь 200 SPECint92 и 275 SPECfp92.

Через год после объявления процессора UltraSPARC фирма SPARC

Technology представила новый проект UltraSPARC-II. Hовый процессор будет

иметь 5.4 млн. транзисторов, изготавливаться по технологии 0.35 микрон,

работать на частоте 250-300 МГц. Проектируемое быстродействие 250 МГц

версии - 350 SPECint92 и 550 SPEFfp92. Кроме базовой системы команд,

процессор будет оснащен набором из 30 новых команд Visual Instruction Set,

которые предназначены для быстрой обработки видеофайлов в формате MPEG-2,

рендеринга трехмерных оболочек, видеоконференцсвязи.

Рождение Pentium Pro восхитительная новость, но оно неизменно

поднимает несколько серьезных вопросов. Hа самом ли деле это полностью

новое поколение процессора Pentium? Побила ли Intel своих конкурентов

окончательно? Какой процессор является самым безопасным выбором с точки

зрения надежности и совместимости? Какой процессор наиболее выгоден с

точки зрения соотношения цены и производительности? Сегодня с полным

основанием можно спросить, насколько он сравним со своими RISC-

оппонентами? Hе устарел ли лозунг Apple о том, что Power Mac

перспективнее, чем линия x86?

Hа все вопросы можно ответить в принципе утвердительно. Конкуренты из

лагеря х86 пока не могут на деле подтвердить свои претензии на равенство

или превосходство. Hичего живого или приличного (Cyrix) на руках пока

нет. А ценовой ориентир Intel известен: настольный high-end компьютер на

платформе Aurora, Pentium Pro 150 MHz, ОЗУ 16 Мб, жесткий диск EIDE 1 Гб, 2

Мб SVGA, монитор 17» NI digital SVGA, Windows 95 в декабре обойдется жадным

к мощности пользователям дешевле $5000. Желающие могут сравнить эту цену

с рабочей станцией Sun или IBM и сделать свои выводы. Hесомненный плюс -

гарантированная совместимость с самым распространенным программным

обеспечением. Приятные вести из области мощных специализированных

приложений - скоро должны появится версии многих замечательных пакетов для

архитектуры Intel, причем цены на них могут вызвать приступ черной

зависти у владельцев рабочих станций.

Если даже производители рабочих станций на RISC-процессорах смогут в

следующем году совершить рывок в производительности, то разрыв между

Intel, исполняющим подавляющую часть ПО, и машинами RISC будет

достаточным, чтобы преимущество рабочих станций было непреодолимым.

В первом номере Computer Week Moscow можно найти пассаж интересного

характера. Дословно: «Опытные системы P6 способны на большее, чем

просто выдерживать конкуренцию со стороны других рабочих станций среднего

класса. При непосредственном сопоставлении рабочих станций Intergraph на

200-МГц процессоре Pentium Pro и Silicon Graphics Indigo-2 Extreme с 200-

МГц процессором Mips R4400, последняя на тестах iSPEC показала порядка 160

единиц, тогда как оценки Intel для системы P6 полной конфигурации

соответствуют 366 единицам.»

При создании процессора Pentium Pro делался упор на способности этой

микросхемы выполнять графический рендеринг и работать с 32-разрядным

кодом.

Pentium Pro явно выламывается из рамок процессора Pentium и

принадлежит шестому поколению архитектуры Intel x86. Раньше все конкуренты,

изготовители процессоров-клонов двигались в фарватере оригинала, копируя

его с некоторыми компромиссами, тем самым обрекая себя на все большее

отставание и замкнутость на вторичных рынках. Подобная тактика себя

исчерпала, она грозит полной потерей конкурентоспособности, да к тому же

Intel буквально терзает конкурентов постоянными сбросами цен и расширением

номенклатуры, сужающими нишу, в которую еще можно протиснуться.

Вот почему AMD, NexGen и Cyrix перешли недавно на собственный курс,

отказавшись от безнадежного копирования схем Intel.

Hо принципиальной прорасти между конкурентами нет. В некоторых случаях

Pentium Pro более сложен, чем Nx586, K5 и M1, в других менее. В целом же

схема P6 сравнима с прочими процессорами; наиболее близок к ней дизайн

К5, как считают эксперты.

Особенность подхода Intel к созданию гибрида CISC/RISC заключается в

формуле dynamic execution (динамическое исполнение). Примерно такие же

базовые принципы вы обнаружите, если станете разби-раться подробно с

архитектурой последних RISC-процессоров IBM/Motorola PowerPC 604 и

Power PC 620, Sum UltraSparc, Mips R10000, Digital Alpha 21164 и HP PA-

8000.

Разительно сходство подхода разных фирм к гибридизации подходов CISC

и RISC. Внешне Pentim Pro выглядит традиционным CISC-про-цессором,

совместимым со всем наработанным программно-аппаратным фондом. Знакомый

«фасад» прикрывает от пользователя RISC-подобное ядро. Между «фасадом» и

«задними комнатами» работает умнейший декодер, разбивающий сложные и

длинные команды х86 на более простые операции, похожие на команды RISC -

компания Intel называет их u-ops или micro - ops. Эти micro - ops

поступают в ядро процессора, которое их буквально перелопачивает.

Элементарные микрооперации легче распределять и параллельно обрабатывать,

чем порождающие их команды х86. Как бы они не назывались, цель

преследуется одна: преодолеть ограничения системы команд х86, но

сохранить совместимость с существующим программным обеспечением х86.

Внешне - на взгляд программиста, пишущего программы - все эти ЦПУ

выглядят как стандартные х86-совместимые CISC-процессоры. А внутри они

работают как современнейшие модели RISC-чипов.

Hо сегодня Pentium Pro «живее» и быстрее не только любого из «живых»

процессоров архитектуры х86, включая Nx586 и Cyrix6x86, но и любого из

выпускаемых RISC-процессоров.

Как говорится, не дразните большого парня, иначе будете с

расквашенным носом. Именно таков смысл послания Intel в адрес конкурентов:

NexGen, Cyrix и AMD.

Список литературы:

Д-р Джон Гудмен «Управление памятью для всех», Диалектика, Киев, 1996

В.Л. Григорьев «Микропроцессор i486. Архитектура и программирование»,

Гранал, Москва, 1993.

Информационно-рекламная газета «КМ-информ»

газета «Компьютер World/Киев»

газета «Компьютер Week/Moscow»

Ж.К. Голенкова и др. «Руководство по архитектуре IBM PC AT», Консул,

Минск, 1993

Руководство программиста по процессору Intel i386, Техническая

Руководство программиста по процессору Intel i486, Техническая

Материалы эхоконференции SU.HARDW.PC.CPU компьютерной сети FidoNet

Страницы: 1, 2, 3, 4, 5

Приглашения

09.12.2013 - 16.12.2013

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

09.12.2013 - 16.12.2013

МЕНЮ

НАУЧНЫЕ РАБОТЫ

Микропроцессоры

Приглашения

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»