NVIDIA Pascal: обзор архитектуры. Видеокарты Технология мультипроецирования Simultaneous Multi-Projection

2016 год уже на исходе, но его вклад в игроиндустрию останется с нами надолго. Во-первых, видеокарты из красного лагеря получили неожиданно удачное обновление в среднем ценовом диапазоне, ну а во-вторых NVIDIA в очередной раз доказала, что не зря занимает 70% рынка. Maxwell’ы были хороши, GTX 970 по праву считалась одной из лучших карточек за свои деньги, но Pascal - совсем другое дело.

Новое поколение железа в лице GTX 1080 и 1070 буквально похоронило результаты прошлогодних систем и рынок флагманского б/у железа, а «младшие» линейки в лице GTX 1060 и 1050 закрепили успех в более доступных сегментах. Владельцы GTX980Ti и прочих Titan’ов рыдают крокодильими слезами: их убер-пушки за много тысяч рублей разом потеряли 50% стоимости и 100% понтов. Сама NVIDIA заявляет, что 1080 быстрее, чем прошлогодний TitanX, 1070 легко «наваляет» 980Ti, а сравнительно бюджетная 1060 сделает больно владельцам всех остальных карточек.

Так ли это, откуда растут ноги высокой производительности и что с этим всем делать в преддверии праздников и внезапных финансовых радостей, а также чем именно себя порадовать, можно узнать в этой длинной и немного занудной статье.

Компанию Nvidia можно любить или… не любить, но отрицать то, что именно она в данный момент является лидером в области видеокартостроения станет только попаданец из альтернативной вселенной. Так как Vega от AMD ещё не анонсирована, флагманские RX’ы на Polaris’е мы так и не увидели, а R9 Fury с её 4 Гб экспериментальной памяти откровенно не может считаться перспективной карточкой (VR и 4K, всё же, захотят чуть больше, чем у неё есть) - имеем что имеем. Пока 1080 Ti и условные RX 490, RX Fury и RX 580 являются лишь слухами да ожиданиями, у нас с вами есть время разобраться в текущей линейке NVIDIA и посмотреть, чего достигла компания за последние годы.

Бардак и история происхождения Pascal’я

NVIDIA регулярно даёт поводы «не любить себя». История с GTX 970 и её «3.5 Гб памяти», «NVIDIA, Fuck you!» от Линуса Торвальдса, полная порнография в линейках десктопной графики, отказ от работы с бесплатной и куда более распространённой системой FreeSync в пользу своей проприетарщины… В общем, поводов хватает. Один из самых раздражающих лично меня - это то, что было с прошлыми двумя поколениями видеокарт. Если брать грубую характеристику, то «современные» графические процессоры пошли со времён поддержки DX10. А если искать «дедушку» 10-й серии сегодня, то начало современной архитектуры будет в районе 400-й серии видеоускорителей и архитектуры Fermi. Именно в нём окончательно сформировалась идея «блочной» конструкции из т.н. «ядер CUDA» в терминологии NVIDIA.

Fermi

Если видеокарты 8000-й, 9000-й и 200-й серий были первыми шагами в освоение самого понятия, «современной архитектуры» с универсальными шейдерными процессорами (как у AMD, да), то 400-я серия уже была максимально похожа на то, что мы видим в какой-нибудь 1070. Да, у Fermi остался небольшой Legacy-костыль от прошлых поколений: шейдерный блок работал на удвоенной частоте ядра, отвечавшего за расчёт геометрии, но общая картинка у какой-нибудь GTX 480 не сильно отличается от какой-нибудь 780-й, мультипроцессоры SM объединены в кластеры, кластеры общаются через общий кеш с контроллерами памяти, а результаты работы выводит общий для кластера блок растеризации:


Блок-схема процессора GF100, использовавшегося в GTX 480.

В 500-й серии был всё тот же Fermi, чуть улучшенный «внутри» и с меньшим количеством брака, так что топовые решения получили 512 CUDA-ядер вместо 480 у предыдущего поколения. Визуально же блок-схемы вообще кажутся близнецами:


GF110 - сердце GTX 580.

Кое-где поднарастили частоты, чуть изменили дизайн самого чипа, никакой революции не было. Всё те же 40 нм техпроцесс и 1.5 ГБ видеопамяти на 384-битной шине.

Kepler

С приходом архитектуры Kepler изменилось многое. Можно сказать, что именно это поколение дало видеокартам NVIDIA тот вектор развития, который привёл к возникновению текущих моделей. Изменилась не только архитектура GPU, но и сама кухня разработки нового железа внутри NVIDIA. Если Fermi был направлен на поиск решения, которое обеспечит высокую производительность, то Kepler сделал ставку на энергоэффективность, разумное использование ресурсов, высокие частоты и простоту оптимизации игрового движка под возможности высокопроизводительной архитектуры.

В дизайне GPU были произведены серьёзные изменения: за основу взяли не «флагманский» GF100 / GF110, а «бюджетный» GF104 / GF114, использовавшейся в одной из самых популярных карточек того времени - GTX 460.


Общая архитектура процессора стала проще за счёт использования всего двух больших блоков с четырьмя унифицированными модулями шейдерных мультипроцессоров. Выглядела разводка новых флагманов примерно так:


GK104, установленный в GTX 680.

Как вы видите, каждый из вычислительных блоков существенно прибавил в весе относительно прошлой архитектуры, и был назван SMX. Сравните строение блока с тем, что изображено выше, в разделе Fermi.


Мультипроцессор SMX графического процессора GK104

Шестисотая серия не имела видеокарт на полноценном процессоре, содержащем шесть блоков вычислительных модулей, флагманом была GTX 680 с установленным GK104, а круче неё - только «двухголовая» 690-я, на которой было разведено просто два процессора со всей необходимой обвязкой и памятью. Спустя год флагман GTX 680 с незначительными изменениями превратился в GTX 770, а венцом эволюции архитектуры Kepler стали видеокарты на базе кристалла GK110: GTX Titan и Titan Z, 780Ti и обычная 780. Внутри - всё те же 28 нанометров, единственное качественное улучшение (которое НЕ досталось консьюмерским видеокартам на базе GK110) - производительность с операциями двойной точности.

Maxwell

Первой видеокартой на архитектуре Maxwell стала… NVIDIA GTX 750Ti. Чуть позже появились её обрезки в лице GTX 750 и 745 (поставлялась только как встроенное решение), и на момент появления младшие карточки реально встряхнули рынок недорогих видеоускорителей. Новая архитектура обкатывалась на чипе GK107: крохотном кусочке будущих флагманов с огромными радиаторами и пугающей ценой. Выглядел он примерно так:


Да, всего один вычислительный блок, но насколько сложнее он устроен, нежели у предшественника, сравните сами:


Вместо крупного блока SMX, который использовался как базовый «строительный кирпичик» в создании GPU используются новые, более компактные блоки SMM. Базовые вычислительные блоки Kepler’а были хороши, но страдали от плохой загрузки мощностей - банальный голод инструкций: раскидать инструкции по большому количеству исполнительных элементов система не могла. Примерно те же проблемы были у Pentium 4: мощность простаивала, а ошибка в предсказании ветвлений стоила очень дорого. В Maxwell’е каждый вычислительный модуль разделили на четыре части, выделив каждой из них собственный буфер инструкций и планировщик варпов - однотипных операций над группой потоков. В результате эффективность выросла, а сами графические процессоры стали гибче, чем их предшественники, а самое главное - ценой малой крови и достаточно простого кристалла отработали новую архитектуру. История развивается по спирали, хе-хе.

Больше всего от нововведений выиграли мобильные решения: площадь кристалла выросла на четверть, а количество исполнительных блоков мультипроцессоров - почти вдвое. Как назло, именно 700-я и 800-я серии устроили основной бардак в классификации. Внутри одной только 700-й встречались видеокарты на архитектурах Kepler, Maxwell и даже Fermi! Именно поэтому десктопные Maxwell’ы, чтобы отстраниться от мешанины в предыдущих поколениях, получили общую серию 900, от которой впоследствии отпочковались мобильные карточки GTX 9xx M.

Pascal - логическое развитие архитектуры Maxwell

То, что было заложено в Kepler’е и продолжено в поколении Maxwell осталось и в Pascal’ях: первые потребительские видеокарты выпущены на базе не самого крупного чипа GP104, который состоит из четырёх кластеров обработки графики. Полноразмерный, шестикластерный GP100 достался дорогущему полупрофессиональному GPU под маркой TITAN X. Впрочем, даже «обрезанная» 1080 зажигает так, что прошлым поколениям становится дурно.

Улучшение производительности

Основа основ

Maxwell стал фундаментом новой архитектуры, диаграмма сравнимых процессоров (GM104 и GP104) выглядит почти одинаково, основное отличие - количество упакованных в кластеры мультипроцессоров. В Kepler’е (700-е поколение) было два больших мультипроцессора SMX, которые разделили на 4 части каждый в Maxwell’е, снабдив необходимой обвязкой (сменив название на SMM). В Pascal’е к имеющимся восьми в блоке добавили ещё два, так что их стало 10, а аббревиатуру в очередной раз перебили: теперь единичные мультипроцессоры вновь называются SM.


В остальном - полное визуальное сходство. Правда, внутри изменений стало ещё больше.

Двигатель прогресса

Изменений внутри блока мультипроцессоров неприлично много. Дабы не вдаваться в совсем уж занудные подробности того, что переделали, как оптимизировали и как было раньше, опишу изменения совсем коротко, а то некоторые и так уже зевают.

Перво-наперво Pascal’ям поправили ту часть, которая отвечает за геометрическую составляющую картинки. Это необходимо для мультимониторных конфигураций и работы с VR-шлемами: при должной поддержке со стороны игрового движка (а усилиями NVIDIA эта поддержка быстро появится) видеокарта может один раз посчитать геометрию и получить несколько проекций геометрии для каждого из экранов. Это существенно снижает нагрузку в VR не только в области работы с треугольниками (тут прирост просто двукратный), но и в работе с пиксельной составляющей.

Условная 980Ti будет считать геометрию дважды (для каждого глаза), а затем заполнять текстурами и выполнять пост-обработку для каждого из изображений, обработав в сумме порядка 4.2 миллиона точек, из которых реально использоваться будет около 70%, остальное будет отрезано или попадёт в область, которая попросту не отображается для каждого из глаз.

1080 обработает геометрию единожды, а пиксели, которые не попадут в итоговое изображение просто не будут рассчитываться.


С пиксельной составляющей всё, на самом деле, ещё круче. Так как наращивание пропускной способности памяти можно вести только по двум фронтам (увеличение частоты и пропускной способности за такт), и оба способа стоят денег, а «голод» GPU по части памяти всё явственней выражен с годами из-за роста разрешения и развития VR остаётся улучшать «бесплатные» методы увеличения пропускной способности. Если нельзя расширить шину и поднять частоту - надо сжать данные. В предыдущих поколениях аппаратное сжатие уже было внедрено, но в Pascal его вывели на новый уровень. Опять же, обойдёмся без скучной математики, и возьмём готовый пример от NVIDIA. Слева - Maxwell, справа - Pascal, залиты розовым цветом те точки, чья цветовая составляющая подвергалась сжатию без потерь качества.


Вместо передачи конкретных тайлов 8х8 точек, в памяти находится «средний» цвет + матрица отклонений от него, такие данные занимает от ½ до ⅛ объёма исходных. В реальных задачах нагрузка на подсистему памяти снизилась от 10 до 30%, в зависимости от количества градиентов и равномерности заливок в сложных сценах на экране.


Этого инженерам показалось мало, и для флагманской видеокарты (GTX 1080) использована память с повышенной пропускной способностью: GDDR5X передаёт вдвое больше бит данных (не инструкций) за такт, и выдаёт в пике более 10 Гбит/с. Передача данных с такой сумасшедшей скоростью потребовала полностью новой топологии разводки памяти на плате, а в сумме эффективность работы с памятью выросла на 60-70% по сравнению со флагманами прошлого поколения.

Уменьшение задержек и простоя мощностей

Видеокарты давно занимаются не только обработкой графики, но и сопутствующими вычислениями. Физика часто привязана к кадрам анимации и замечательно параллелится, а значит намного эффективнее считается на GPU. Но самым большим генератором проблем за последнее время стала VR-индустрия. Многие игровые движки, методологии разработки и куча других технологий, используемых для работы с графикой просто не были рассчитаны на VR, случай перемещения камеры или изменения положения головы пользователя в процессе отрисовки кадра просто не обрабатывался. Если оставить всё как есть, то рассинхронизация видеопотока и ваших движений будет вызывать приступы морской болезни и попросту мешать погружению в игровой мир, а значит «неправильные» кадры просто приходится выбрасывать после отрисовки и начинать работу сначала. А это - новые задержки в выводе картинки на дисплей. Положительным образом на производительности это не сказывается.

В Pascal’е учли эту проблему и внедрили динамическую балансировку нагрузки и возможность асинхронных прерываний: теперь исполнительные блоки могут либо прервать текущую задачу (сохранив результаты работы в кеш) для обработки более срочных задач, либо попросту сбросить недорисованный кадр и заняться новым, значительно снижая задержки в формировании изображения. Основной бенефициар здесь, само собой, VR и игры, но и с расчётами общего назначения данная технология может помочь: симуляция столкновения частиц получила прирост производительности в 10-20%.

Boost 3.0

Автоматический разгон видеокарты NVIDIA получили достаточно давно, ещё в 700-м поколении на базе архитектуры Kepler. В Maxwell’е разгон улучшили, но он всё равно был мягко говоря так себе: да, видеокарта работала чуть быстрее, пока это позволял теплопакет, зашитые с завода дополнительные 20-30 мегагерц по ядру и 50-100 по памяти давали прирост, но небольшой. Работало это примерно так:


Даже если по температуре GPU был запас, производительность не росла. С приходом Pascal инженеры перетряхнули и это пыльное болото. Boost 3.0 работает по трём фронтам: анализ температуры, повышение тактовой частоты и повышение напряжения на кристалле. Теперь из GPU выжимаются все соки: стандартные драйвера NVIDIA этого не делают, а вот софт вендоров позволяет в один клик построить профилирующую кривую, которая будет учитывать качество конкретно вашего экземпляра видеокарты.

Одной из первых на этом поприще стала компания EVGA, её утилита Precision XOC имеет сертифицированный NVIDIA сканер, который последовательно перебирает весь диапазон температур, частот и напряжений, добиваясь максимальной производительности на всех режимах.

Добавьте сюда новый техпроцесс, высокоскоростную память, всяческие оптимизации и снижение теплопакета чипов, и результат будет просто неприличный. C 1500 «базовых» МГц у GTX 1060 можно выжать больше 2000 МГц, если попадётся хороший экземпляр, а вендор не облажается с охлаждением.

Улучшение качества картинки и восприятия игрового мира

Производительность увеличили по всем фронтам, но есть ряд моментов, в которых качественных изменений не было несколько лет: в качестве выводимой картинки. И речь идёт не о графических эффектах, их обеспечивают разработчики игр, а о том, что именно мы видем на мониторе и то, как выглядит игра для конечного потребителя.

Быстрая вертикальная синхронизация

Самая главная фишка Pascal’я - тройной буфер для вывода кадров, обеспечивающий одновременно сверхнизкие задержки в отрисовке и обеспечение вертикальной синхронизации. В одном буфере хранится выводимое изображение, в другом - последний отрисованный кадр, в третьем - рисуется текущий. Прощайте, горизонтальные полосы и разрывы кадров, здравствуй, высокая производительность. Задержек, которые устраивает классический V-Sync здесь нет (так как никто не сдерживает производительность видеокарты и она всегда рисует с максимально возможной частотой кадра), а на монитор отправляются только полностью сформированные кадры. Я думаю, что после нового года напишу отдельный большой пост про V-Sync, G-Sync, Free-Sync и вот этот новый алгоритм быстрой синхронизации от Nvidia, слишком уж много подробностей.

Нормальные скриншоты

Нет, те скрины, что есть сейчас - это просто позор. Почти все игры используют кучу технологий, чтобы картинка в движении поражала и захватывала дух, и скриншоты стали реальным кошмаром: вместо потрясающе реалистичной картинки, складывающейся из анимации, специальных эффектов, эксплуатирующих особенности человеческого зрения, вы видите какое-то угловатое непойми что со странными цветами и абсолютно безжизненной картинкой.

Новая технология NVIDIA Ansel решает проблему со скринами. Да, её имплементация требует интеграцию специального кода от разработчиков игр, но реальных манипуляций там минимум, а вот профит громадный. Ansel умеет ставить игру на паузу, передаёт управление камерой в ваши руки, а дальше - простор для творчества. Можно просто сделать кадр без GUI и полюбившемся вам ракурсе.


Можно отрисовать имеющуюся сцену в ультра-высоком разрешении, снимать 360-градусные панорамы, сшивать их в плоскость или оставлять в трёхмерном виде для просмотра в VR-шлеме. Сделать фотографию с 16 битами на канал, сохранить её в своеобразном RAW-файле, а дальше играть с экпозицией, балансом белого и прочими настройками так, что скриншоты вновь станут привлекательными. Ждём тонны крутого контента от фанатов игр через год-другой.

Обработка звука на видеокарте

Новые библиотеки NVIDIA Gameworks добавляют множество фич, доступных разработчикам. В основном они нацелены на VR и ускорение различных вычислений, а также повышение качества картинки, но одна из фич наиболее интересна и достойна упоминания. VRWorks Audio выводит работу со звуком на принципиально новый уровень, считая звук не по банальным усреднённым формулам, зависящим от расстояния и толщины препятствия, но выполняет полную трассировку звукового сигнала, со всеми отражениями от окружения, реверберацией и поглощением звука в различных материалах. У NVIDIA есть хороший видео-пример на тему того, как работает эта технология:


Смотреть лучше в наушниках

Чисто теоретически, ничто не мешает запускать такую симуляцию на Maxwell’е, но оптимизации по части асинхронного выполнения инструкций и новая система прерываний, заложенные в Pascal’ях, позволяет проводить расчёты, не сильно влияя на кадровую частоту.

Паскаль в сумме

Изменений, на самом деле, ещё больше, и многие из них настолько глубоко в архитектуре, что по каждому из них можно написать огромную статью. Ключевые новшества - улучшенный дизайн самих чипов, оптимизация на самом низком уровне в части геометрии и асинхронной работы с полной обработкой прерываний, множество фич, заточенных на работу с высокими разрешениями и VR, и, разумеется, безумные частоты, которые не снились прошлым поколениям видеокарт. Два года назад 780 Ti едва перешагнула рубеж в 1 ГГц, сегодня 1080 в ряде случаев работает на двух: и здесь заслуга не только в уменьшенном с 28 нм до 16 или 14 нм техпроцессе: многие вещи оптимизированы на самом низком уровне, начиная с дизайна транзисторов, заканчивая их топологией и обвязкой внутри самого чипа.

Для каждого отдельного случая

Линейка видеокарт NVIDIA 10-й серии получилась по-настоящему сбалансированной, и достаточно плотно покрывает все игровые юз-кейсы, от варианта «в стратегии и диаблу играть» до «хочу топ-игры в 4k». Игровые тесты выбраны по одной простой методике: охватить как можно больший диапазон испытаний как можно меньшим набором тестов. BF1 - отличный пример хорошей оптимизации и позволяет сравнить в одинаковых условиях производительность DX11 против DX12. DOOM выбран по той же причине, только позволяет сравнить OpenGL и Vulkan. Третий «Ведьмак» здесь выступает в роли так-себе-оптимизированной-игрушки, в которой максимальные настройки графики дают прикрутить любому флагману просто в силу говнокода. Он использует классический DX11, который проверен временем и отлично отработан в драйверах и знаком игроделам. Overwatch отдувается за все «турнирные» игры, в которых хорошо оптимизирован код, по факту интересен тем, насколько высок средний FPS в не сильно тяжёлой с графической точки зрения игре, заточенной на работу в «среднем» конфиге, доступном по всему миру.

Сразу дам некоторые общие комментарии: Vulkan очень прожорлив в плане видеопамяти, для него эта характеристика - один из главных показателей, и вы увидите отражение этому тезису в бенчмарках. DX12 на карточках AMD ведёт себя значительно лучше, чем у NVIDIA, если «зелёные» в среднем показывают просадку по FPS на новых API, то «красные», наоборот, прирост.

Младший дивизион

GTX 1050

Младшая NVIDIA (без букв Ti) не так интересна, как её заряженная сестрица с буквами Ti. Её удел - игровое решение для MOBA-игр, стратегий, турнирных шутеров и прочих игр, где детализация и качество картинки мало кого интересует, а стабильная частота кадров за минимальные деньги - то, что доктор прописал.


На всех картинках отсутствует частота ядра, потому что она индивидуальна для каждого экземпляра: 1050 без доп. питания может не гнаться, а её сестра с 6-pin разъёмом легко возьмёт условных 1.9 ГГц. По части питания и длины изображены наиболее популярные варианты, всегда можно найти видеокарту с другой схемой или другим охлаждением, которое не впишется в указанные «нормативы».

DOOM 2016 (1080p, ULTRA): OpenGL - 68 FPS, Vulkan - 55 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 38 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 49 FPS, DX12 - 40 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS;

В GTX 1050 установлен графический процессор GP107, доставшийся ей от старшей карты с небольшой обрезкой функциональных блоков. 2 ГБ видеопамяти не дадут разгуляться, но для киберспортивных дисциплин и игры в какие-нибудь танки она отлично подойдёт, благо цена на младшую карточку начинается с 9.5 тысяч рублей. Дополнительное питание не требуется, видеокарте достаточно 75 Ватт, поступающих с материнской платы по слоту PCI-Express. Правда, в этом ценовом сегменте есть ещё и AMD Radeon RX460, который с теми же 2 ГБ памяти стоит дешевле, а по качеству работы почти не уступает, а за примерно те же деньги можно получить RX460, но в версии на 4 ГБ. Не то что бы они ему сильно помогали, но какой-никакой запас на будущее. Выбор вендора не так важен, можно брать то, что есть в наличии и не оттягивает карман лишней тысячей рублей, которую лучше потратить на заветные буквы Ti.

GTX 1050 Ti

Около 10 тысяч за обычную 1050 - неплохо, но за заряженную (или полноценную, называйте как хотите) версию просят не многим больше (в среднем, на 1-1.5 тысячи больше), а вот её начинка куда интереснее. К слову, вся серия 1050 выпускается не из обрезки / отбраковки «больших» чипов, которые не годятся для 1060, а как полностью самостоятельный продукт. У неё меньше техпроцесс (14 нм), другой завод (кристаллы выращивает фабрика Samsung), и есть крайне интересные экземпляры с доп. питанием: тепловой пакет и базовое потребление у неё всё те же 75 Вт, а вот разгонный потенциал и возможность выйти за рамки дозволенного - совсем другие.


Если вы продолжаете играть на разрешении FullHD (1920x1080), не планируете апгрейда, а ваше остальное железо в пределах 3-5 летней давности - отличный способ поднять производительность в игрушках малой кровью. Ориентироваться стоит на решения ASUS и MSI с дополнительным 6-пиновым питанием, неплохи варианты от Gigabyte, но цена уже не так радует.

DOOM 2016 (1080p, ULTRA): OpenGL - 83 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 44 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 58 FPS, DX12 - 50 FPS;
Overwatch (1080p, ULTRA): DX11 - 104 FPS.

Средний дивизион

Видеокарты 60-й линейки давно считались оптимальным выбором для тех, кто не хочет тратить много денег, и вместе с тем играть на высоких настройках графики во всё, что выйдет в ближайшие пару лет. Началось это ещё со времён GTX 260, у которой было две версии (попроще, 192 потоковых процессора, и пожирнее, 216 «камней»), продолжалось в 400, 500, и 700-м поколениях, и вот NVIDIA вновь попала в практически идеальное сочетание цены и качества. Вновь доступны две версии «середнячка»: GTX 1060 на 3 и 6 ГБ видеопамяти отличаются не только объёмом доступной оперативки, но и производительностью.

GTX 1060 3GB

Королева киберспорта. Умеренная цена, потрясающая производительность для FullHD (а в киберспорте редко используют разрешение выше: там результаты важнее красивостей), разумный объём памяти (3 ГБ, на минуточку, стояло два года назад во флагмане GTX 780 Ti, который стоил неприличных денег). В плане производительности младшая 1060 легко наваливает прошлогодней GTX 970 с приснопамятным 3.5 ГБ памяти, и легко таскает за уши позапрошлогодний суперфлагман 780 Ti.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 87 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 70 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 92 FPS, DX12 - 85 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS.

Тут безусловный фаворит по соотношению цены и выхлопа - версия от MSI. Неплохие частоты, бесшумная система охлаждения и вменяемые габариты. За неё просят-то всего ничего, в районе 15 тысяч рублей.

GTX 1060 6GB

Шестигигабайтная версия - бюджетный билет в VR и высокие разрешения. Она не будет голодать по памяти, чуть быстрее во всех тестах и уверенно будет выигрывать у GTX 980 там, где прошлогодней видеокарте станет мало 4 ГБ видеопамяти.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 121 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 94 FPS, DX12 - 90 FPS;
Overwatch (1080p, ULTRA): DX11 - 166 FPS.

Хочется ещё раз отметить поведение видеокарт при использовании API Vulkan. 1050 с 2 ГБ памяти - просадка по FPS. 1050 Ti с 4 ГБ - почти вровень. 1060 3 ГБ - просадка. 1060 6 Гб - рост результатов. Тенденция, думаю, понятна: для Vulkan надо 4+ ГБ видеопамяти.

Беда в том, что обе 1060 - видеокарты не маленькие. Вроде, и теплопакет разумный, и плата там реально небольшая, но многие вендоры решили просто унифицировать систему охлаждения между 1080, 1070 и 1060. У кого-то видеокарты в высоту 2 слота, но длиной 28+ сантиметров, кто-то сделал их короче, но толще (2.5 слота). Выбирайте внимательней.

К сожалению, дополнительные 3 ГБ видеопамяти и разблокированный вычислительный блок обойдутся вам в ~ 5-6 тысяч рублей сверху к цене 3-гиговой версии. В данном случае самые интересные варианты по цене и качеству у Palit. ASUS выпустил монструозные 28-сантиметровые системы охлаждения, которые лепит и на 1080, и на 1070, и на 1060, и такая видеокарта мало куда поместится, версии без заводского разгона стоят почти столько же, а выхлоп меньше, а за сравнительно компактные MSI просят больше, чем у конкурентов при примерно том же уровне качества и заводского разгона.

Высшая лига

Играть на все деньги в 2016 году сложновато. Да, 1080 - безумно крута, но перфекционисты и железячники знают, что NVIDIA СКРЫВАЕТ существование супер-флагмана 1080 Ti, который должен быть неимоверно крут. Первые спецификации уже просачиваются в сеть, и понятно, что зелёные ждут шага от красно-белых: какой-нибудь убер-пушки, которую моментально можно будет поставить на место новым королём 3D-графики, великой и могучей GTX 1080 Ti. Ну а пока имеем что имеем.

GTX 1070

Прошлогодние приключения мегапопулярной GTX 970 и её не-совсем-честных-4-гигабайт-памяти активно разбирались и обсасывались по всему интернету. Это не помешало ей стать самой популярной игровой видеокартой в мире. В преддверии смены года на календаре она удерживает первое место в Steam Hardware & Software Survey . Оно и понятно: сочетание цены и производительности было просто идеальным. И если вы пропустили прошлогодний апгрейд, а 1060 кажется вам недостаточно крутой - GTX 1070 ваш выбор.

Разрешения 2560х1440 и 3840х2160 видеокарта переваривает на ура. Система разгона Boost 3.0 постарается подкидывать дров тогда, когда возрастает нагрузка на GPU (то есть в самых тяжёлых сценах, когда FPS проседает под натиском спецэффектов), разгоняя процессор видеокарты до умопомрачительных 2100+ Мгц. Память легко получает 15-18% эффективной частоты сверх заводских показателей. Монструозная штука.


Внимание, все тесты проведены в 2.5k (2560x1440):

DOOM 2016 (1440p, ULTRA): OpenGL - 91 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1440p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1440p, ULTRA): DX11 - 91 FPS, DX12 - 83 FPS;
Overwatch (1440p, ULTRA): DX11 - 142 FPS.

Понятное дело, вытянуть ультра-настройки в 4k и никогда не проседать ниже 60 кадров в секунду не под силу ни этой карточке, ни 1080, но играть на условных «высоких» настройках, отключив или немного снизив самые прожорливые фичи можно в полном разрешении, а в плане реальной производительности видеокарта легко задаёт жару даже прошлогодней 980 Ti, которая стоила почти вдвое дороже. Самый интересный вариант у Gigabyte: они ухитрились запихать полноценную 1070 в корпус ITX-стандарта. Спасибо скромному теплопакету и энергоэффективному дизайну. Цены на карточки стартуют с 29-30 тысяч рублей за вкусные варианты.

GTX 1080

Да, флагман не имеет букв Ti. Да, он использует не самый крупный GPU, доступный NVIDIA. Да, здесь нет крутейшей памяти HBM 2, а видеокарта не выглядит, как «Звезда смерти» или, в крайне случае, имперский крейсер класса «Звёздный разрушитель». И да, это самая крутая игровая видеокарта, которая сейчас есть. Одна одна берёт и запускает DOOM в разрешении 5k3k с 60 кадрами в секунду на ультра-настройках. Ей подвластны все новые игрушки, и ближайшие год-два она не будет испытывать проблем: пока новые технологии, заложенные в Pascal станут распространены, пока игровые движки научатся эффективно загружать имеющиеся ресурсы… Да, через пару лет мы будем говорить: «Вот, посмотрите на GTX 1260, пару лет назад для игры с такими настройками вам нужен был флагман», а пока - лучшая из лучших видеокарт доступна перед новым годом по весьма разумной цене.


Внимание, все тесты проведены в 4k (3840x2160):

DOOM 2016 (2160p, ULTRA): OpenGL - 54 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (2160p, MAX, HairWorks Off): DX11 - 55 FPS;
Battlefield 1 (2160p, ULTRA): DX11 - 65 FPS, DX12 - 59 FPS;
Overwatch (2160p, ULTRA): DX11 - 93 FPS.

Останется только решить: оно вам надо, или можно сэкономить и взять 1070. Играть на «ультре» или «высоких» настройках особой разницы нет, благо современные движки отлично рисуют картинку в высоком разрешении даже на средних настройках: в конце концов, у нас с вами не мыльные консоли, которые не могут обеспечить достаточно производительности для честного 4k и стабильных 60 кадров в секунду.

Если отбросить самые недорогие варианты, то лучшее сочетание цены и качества снова будет у Palit в варианте GameRock (около 43-45 тысяч рублей): да, система охлаждения «толстая», 2.5 слота, но видеокарта короче конкурентов, а пару из 1080 ставят редко. SLI потихоньку умирает, и даже живительная инъекция высокоскоростных мостов его не особо выручает. Вариант ASUS ROG неплох, если у вас установлено множество доп. девайсов и перекрывать лишние слоты расширения вам не хочется: их видеокарта в толщину ровно 2 слота, но требует 29 сантиметров свободного пространства от задней стенки до корзины с жёсткими дисками. Интересно, осилят ли Gigabyte выпуск и этого монстра в ITX-формате?

Итоги

Новые видеокарты NVIDIA просто похоронили рынок Б/У железа. На нём выживает только GTX 970, которую можно урвать за 10-12 тысяч рублей. Потенциальным покупателям подержанных 7970 и R9 280 часто некуда её поставить и попросту не прокормить, а многие варианты со вторичного рынка попросту бесперспективны, и как дешёвый апгрейд на пару лет вперёд никуда не годятся: памяти мало, новые технологии не поддерживаются. Прелесть нового поколения видеокарт именно в том, что даже неоптимизированные под них игрушки идут значительно бодрее, чем на ветеранах GPU-чартов прошлых лет, а что будет через год, когда движки игр научатся использовать всю силу новых технологий - и представить сложно.

GTX 1050 и 1050Ti

Увы, рекомендовать покупку самого недорогого Pascal’я я не могу. RX 460 обычно продаётся на тысячу-другую дешевле, и если у вас бюджет ограничен настолько, что вы берёте видеокарту «на последние» то Radeon объективно является более интересным вложением денег. С другой стороны, 1050 немного быстрее, и если цены в вашем городе на эти две видеокарты почти не отличаются - берите её.

1050Ti, в свою очередь, отличный вариант для тех, кому сюжет и геймплей важнее наворотов и реалистичных волос в носу. У неё нет бутылочного горлышка в виде 2 ГБ видеопамяти, она не «стухнет» через год. Можете доложить денег на неё - сделайте это. Ведьмак на высоких настройках, GTA V, DOOM, BF 1 - без проблем. Да, придётся отказаться от ряда улучшений, типа сверхдлинных теней, сложной тесселяции или «дорогого» просчёта самозатенения моделей ограниченной трассировкой лучей, но в пылу битвы вы забудете про эти красивости после 10 минут игры, а стабильные 50-60 кадров в секунду дадут куда больший эффект погружения, чем нервные скачки от 25 до 40, но с настройками на «максимум».

Если у вас стоит какая-нибудь Radeon 7850, GTX 760 или младше, видеокарты с 2 ГБ видеопамяти и меньше - можете смело менять.

GTX 1060

Младшая 1060 порадует тех, кому кадровая частота от 100 FPS важнее, чем графические навороты. Вместе с тем, она позволит комфортно играть во все вышедшие игрушки в FullHD разрешении с выоскими или максимальными настройками и стабильными 60 кадрами в секунду, да и по цене сильно отличается от всего, что идёт после неё. Старшая 1060 с 6 гигабайтами памяти - бескомпромиссное решение для FullHD с запасом производительности на год-другой, знакомства с VR и вполне приемлемый кандидат для игры в высоких разрешениях на средних настройках.

Менять вашу GTX 970 на GTX 1060 смысла нет, потерпит ещё годик. А вот надоевшие 960, 770, 780, R9 280X и более древние агрегаты можно смело обновлять до 1060.

Топ-сегмент: GTX 1070 и 1080

1070 вряд ли станет такой же популярной, как GTX 970 (всё же, у большинства пользователей цикл обновления железа - раз в два года), но по соотношению цены и качества, безусловно, достойное продолжение 70-й линейки. Она просто перемалывает игры на мэйнстримовом разерешнии 1080р, легко справляется с 2560х1440, выдерживает мытарства неоптимизированных 21 к 9, и вполне способна отображать 4k, пусть и не на максимальных настройках.


Да, SLI бывает и таким.

Говорим «давай, до свиданья» всяким 780 Ti, R9 390X и прочим прошлогодним 980-м, особенно если хотим играть в высоком разрешении. И, да, это лучший вариант для любителей собрать адскую коробчонку в формате Mini-ITX и пугать гостей 4k-играми на 60-70 дюймовом телевизоре, которые запускаются на компьютере размером с кофеварку.
gtx 1050 история видеокарт Добавить метки

Обзор Nvidia GeForce GTX 1080 Pascal | Знакомимся с графическим процессором GP104

В преддверии выставки Computex Nvidia решила представить свою долгожданную новинку - адаптированную для геймеров архитектуру Pascal. В новых видеокартах GeForce GTX 1080 и 1070 производитель устанавливает графический процессор GP104. Сегодня, мы рассмотрим старшую модель, а младшая должна оказаться в наших руках в начале июня.

Архитектура Pascal обещает более быструю и более эффективную работу, больше вычислительных модулей, уменьшенную площадь кристалла и более быструю память с модернизированным контроллером. Она лучше подходит для виртуальной реальности, игр в 4K и других задач, требующих высокой производительности.

Как всегда, мы постараемся разобраться в обещаниях производителя и проверить их на практике. Начнем.

Изменит ли GeForce GTX 1080 расстановку сил в сегменте High-End?

Nvidia GeForce GTX 1080 – наиболее быстрая из двух игровых видеокарт, анонсированных в начале месяца. Обе используют графический процессор GP104, который, кстати, является уже вторым GPU с микроархитектурой Pascal (первым был GP100, появившийся на GTC в апреле). CEO Nvidia Жэнь-Сунь Хуань подразнивал энтузиастов, когда представлял новинку широкой общественности, утверждая, что GeForce GTX 1080 обгонит две 980 в SLI.

Также он отметил, что GTX 1080 при большей производительности имеет меньшее энергопотребление, чем 900-я серия. Она вдвое производительнее и втрое эффективнее бывшего флагмана GeForce Titan X, но если всмотреться в сопутствующие графики и диаграммы, то выясняется, что такая внушительная разница проявляется в определенных задачах, связанных с виртуальной реальностью. Но даже если эти обещания подтвердятся лишь частично, нас все равно ждут весьма интересные времена в плане развития high-end игр на ПК.

Виртуальная реальность начинает понемногу набирать обороты, но высокие аппаратные требования для графической подсистемы создают существенный барьер для доступа к этим технологиям. Кроме того, большинство доступных сегодня игр не умеют использовать преимущества многопроцессорного рендеринга. То есть, вы, как правило, ограничены возможностями одного быстрого видеоадаптера с одним GPU. GTX 1080 способна превзойти по скорости работы две 980-х и не должна испытывать затруднений в современных VR-играх, нивелируя потребность в многопроцессорных конфигурациях в будущем.

Не меньшими темпами прогрессирует экосистема 4K. Интерфейсы с повышенной пропускной способностью, такие как HDMI 2.0b и DisplayPort 1.3/1.4 должны открыть дверь для 4K мониторов со 120 Гц панелями и поддержкой динамической частоты обновления экрана уже к концу этого года. Хотя предыдущие поколения топовых графических процессоров AMD и Nvidia позиционировались как решения для игр в 4K, пользователям приходилось идти на компромиссы по качеству, чтобы поддерживать приемлемую частоту кадров. GeForce Nvidia GTX 1080 может стать первым графическим адаптером, скорости которого будет достаточно для поддержания высокой частоты кадров в разрешении 3840x2160 точек с максимальными настройками детализации графики.

Какова ситуация с конфигурациями из нескольких мониторов? Многие геймеры готовы устанавливать по три монитора с разрешением 1920x1080, но при условии, что графическая система справится с нагрузкой, ведь в этом случае карте приходится отрисовывать полмиллиона пикселей, поскольку разрешение составляет 7680x1440. Есть даже энтузиасты, готовые взять три 4K-дисплея с совокупным разрешением 11520x2160 точек.

Последний вариант слишком экзотичный даже для новой геймерской флагманской видеокарты. Тем не менее, процессор Nvidia GP104 оснащен технологией, которая обещает улучшить впечатления от типичных для новой модели задач, то есть 4K и Surround. Но прежде, чем мы перейдем к новым технологиям, давайте поближе познакомимся с процессором GP104 и лежащей в его основе архитектурой Pascal.

Из чего состоит GP104?

С начала 2012 года AMD и Nvidia используют 28-нанометровый техпроцесс. Перейдя на него, обе компании сделали существенный рывок вперед, представив нам видеокарты Radeon HD 7970 и GeForce GTX 680. Тем не менее, за последующие четыре года им пришлось сильно изворачиваться, чтобы вытянуть больше производительности из существующей технологии. Достижения видеокарты Radeon R9 Fury X и GeForce GTX 980 Ti - это настоящее чудо, учитывая их сложность. Первым чипом, созданным Nvidia по техпроцессу 28 нм, был GK104, состоявший из 3,5 миллиардов транзисторов. GM200, который устанавливается в GeForce GTX 980 Ti и Titan X, имеет уже восемь миллиардов транзисторов.

Переход на 16 нм технологию TSMC FinFET Plus позволил инженерам Nvidia реализовать новые идеи. Согласно техническим данным чипы 16FF+ на 65% быстрее, могут иметь вдвое большую плотность, чем 28HPM, либо потреблять на 70 меньше энергии. При создании своих GPU Nvidia использует оптимальную комбинацию этих достоинств. TSMC утверждает, что в основу были положены инженерные наработки существующего процесса 20 нм, но вместо плоских транзисторов использовала транзисторы FinFET. В компании говорят, что такой подход снижает количество брака, и повышает выход рабочих пластин. Также утверждается, что 20-нанометрвого техпроцесса с быстрыми транзисторами у компании не было. Повторимся, мир компьютерной графики более четырех лет "сидит" на техпроцессе 28 нм.


Блок-схема процессора GP104

Преемник GM204 состоит из 7,2 миллиардов транзисторов, размещенных на площади 314 мм2. Для сравнения площадь кристалла GM204 составляет 398 мм2 при 5,2 миллиардах транзисторов. В полной версии один GPU GP104 имеет четыре кластера обработки графики (Graphics Processing Clusters - GPC). Каждый GPC включает пять кластеров обработки потоков/текстур (Thread/Texture Processing Clusters - TPC) и блок растеризации. TPC сочетает в себе один потоковый мультипроцессор (Streaming Multiprocessor SM) и движок PolyMorph. SM объединяет 128 ядер CUDA одинарной точности, 256 Кбайт регистровой памяти, 96 Кбайт общей памяти, 48 Кбайт кэша L1/текстур и восемь текстурных блоков. Четвертое поколение движка PolyMorph включает новый блок логики, который находится в конце конвейера геометрии перед блоком растеризации, он управляет функцией мультипроекции Simultaneous Multi-Projection (об этом чуть ниже). В общем итоге мы получаем 20 SM, 2560 ядер CUDA и 160 блоков обработки текстур.


Один потоковый мультипроцессор (SM) в GP104

Бек-энд графического процессора включает восемь 32-битных контроллеров памяти (суммарная ширина канала 256-бит), восемь блоков растеризации и 256 Кбайт кэша L2 для каждого блока. В итоге мы имеем 64 ROP и 2 Мбайт разделенной кэш-памяти L2. Хотя на блок-схеме процессора Nvidia GM204 было показано четыре 64-битных контроллера и 16 ROP, они были сгруппированы и с функциональной точки зрения эквивалентны.

Некоторые структурные элементы GP104 похожи на GM204, ведь новый GPU был создан из "строительных блоков" своего предшественника. В этом нет ничего плохого. Если вы помните, в архитектуре Maxwell компания сделала ставку на энергоэффективность и не стала перетряхивать блоки, которые являлись сильной стороной Kepler. Аналогичную картину мы видим и здесь.

Добавление четырех SM не может заметно повлиять на производительность. Однако у GP104 есть несколько козырей в рукаве. Первый козырь – существенно более высокие тактовые частоты. Базовая тактовая частота GPU составляет 1607 МГц. В спецификациях GM204, для сравнения, указано 1126 МГц. Максимальная частота GPU Boost достигает 1733 МГц, но мы довели наш образец до 2100 МГц, используя бета-версию утилиты EVGA PrecisionX. Откуда такой запас для разгона? По словам Джона Албина, старшего вице-президента отдела разработки GPU, его команда знала, что техпроцесс TSMC 16FF+ повлияет на работу архитектуры чипа, поэтому они сосредоточили силы на оптимизации таймингов в микросхеме, чтобы убрать узкие места, препятствующие достижению более высоких тактовых частот. В результате скорость вычислений одинарной точности GP104 достигла 8228 GFLOPs (на базовой частоте) по сравнению с потолком в 4612 GFLOPs у GeForce GTX 980. Скорость закраски текселей подскочила с 155,6 Гтекс/с у 980-й (с GPU Boost) до 277,3 Гтекс /с.

GPU GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM 20 16
Количество ядер CUDA 2560 2048
Базовая частота GPU, МГц 1607 1126
Частота GPU в режиме Boost, МГц 1733 1216
Скорость вычислений, GFLOPs (при базовой частоте) 8228 4612
Количество блоков текстурирования 160 128
Скороть заполнения текселей, Гтекс/с 277,3 155,6
Скорость передачи данных памяти, Гбит/с 10 7
Пропускная способность памяти, Гбайт/с 320 224
Количество блоков растеризации 64 64
Объем кэша L2, Мбайт 2 2
Тепловой пакет, Вт 180 165
Количество транзисторов 7,2 млрд. 5,2 млрд.
Площадь кристалла, мм2 314 398 мм
Техпроцесс, нм 16 28

Бэк-энд по-прежнему включает 64 блоков ROP и 256-разрядную шину памяти, но чтобы увеличить доступную пропускную способность Nvidia внедрила память GDDR5X. Компания приложила много усилий для раскрутки нового типа памяти, особенно на фоне памяти HBM, которая используется в разных видеокартах AMD и HBM2, которую Nvidia устанавливает в Tesla P100. Складывается ощущение, что на рынке сейчас имеется нехватка памяти HBM2, при этом компания не готова принять ограничения HBM (четыре стека по 1 Гбайт, либо трудности, связанные с реализацией восьми стеков по 1 Гбайт). Таким образом, мы получили видеопамять GDDR5X, поставки которой, судя по всему, тоже ограничены, поскольку GeForce GTX 1070 уже использует обычную GDDR5. Но это не перекрывает достоинств нового решения. Память GDDR5 в GeForce GTX 980 имела скорость передачи данных 7 Гбит/с. Это обеспечивало 224 Гбайт/с пропускной способности через 256-разрядную шину. GDDR5X стартует с 10 Гбит/с, повышая пропускную способность до 320 Гбайт/с (увеличение на ~43%). По словам Nvidia прирост достигается благодаря модернизированной схеме ввода-вывода, причем без повышения энергопотребления.

Архитектура Maxwell стала более эффективно использовать пропускную способность путем оптимизации кэша и алгоритмов сжатия, тем же путем идет и Pascal с новыми методами сжатия без потерь, чтобы более экономно использовать доступную ширину канала подсистемы памяти. Алгоритм дельта-компрессии цветов пытается достигнуть выигрыша 2:1, причем этот режим был улучшен с целью более частого применения. Также есть новый режим 4:1, который применяется в тех случаях, когда различия на пиксель очень небольшие. Наконец, в Pascal представлен еще один новый алгоритм 8:1, который применяет сжатие 4:1 к блокам 2х2, разница между которыми обрабатывается по алгоритму 2:1.



Разницу не трудно проиллюстрировать. На первом изображении показан несжатый снимок экрана из игры Project CARS. На следующем снимке показаны элементы, которые может сжать карта на архитектуре Maxwell, они закрашены фиолетовым. На третьем снимке видно, что Pascal сжимает сцену еще больше. Согласно данным Nvidia, эта разница преобразуется примерно в 20%-ое сокращение информации в байтах, которую необходимо выбрать из памяти для каждого кадра.

Обзор Nvidia GeForce GTX 1080 Pascal | Конструкция референсной карты

Nvidia изменила свой подход к дизайну карт. Вместо "референсной" она называет собственную версию карты Founders Edition (версия создателей). Нельзя не заметить, что внешний вид GeForce GTX 1080 стал более угловатый, однако в системе охлаждения используется все тот же старый проверенный механизм выброса горячего воздуха наружу через боковую планку.

Карта весит 1020 г и имеет длину 27 см. Наощупь она достаточно приятная, поскольку кожух кулера не только выглядит как металлический, он действительной сделан из металла, точнее говоря, алюминия. Матовые серебристые части лакированы, и если обращаться с картой не очень аккуратно, они быстро поцарапаются.

Задняя пластина поделена на две части. Она служит лишь украшением и не несет охлаждающей функции. Позже мы узнаем, насколько это верное решение. Nvidia рекомендует снимать элементы этой пластины при использовании SLI, чтобы добиться лучшего прохода воздуха между картами, установленными вплотную друг к другу.

В нижней части нет ничего интересного, хотя мы заметили, что части черной крышки могут контактировать с элементами системной платы, расположенными под ней, например с кулером чипсета и портами SATA.

Вверху карты мы видим один вспомогательный восьмиконтактный разъем питания. Учитывая официальные спецификации видеокарты, а также 60 Вт мощности, получаемые от слота материнской платы, одного такого разъема должно быть достаточно для номинального теплового пакета 180 Вт. Естественно, мы проверим, сколько на самом деле мощности потребляет эта карта, и не перегружает ли она линии питания.

Также тут имеется два разъема SLI. Наряду с новыми видеокартами Pascal Nvidia представила новые мосты с высокой пропускной способностью. Позже мы рассмотрим их более подробно. Если коротко, пока официально поддерживаются конфигурации SLI только из двух видеокарт, и для работы двухканального интерфейса между GPU используются оба разъема.

На панели ввода/вывода доступно три полноценных разъема DisplayPort. В характеристиках указан стандарт DisplayPort 1.2, но, предполагается, что они будут совместимы с DisplayPort 1.3/1.4 (по крайней мере, контроллер дисплея может работать с новыми стандартами). Также есть выход HDMI 2.0 и двухканальный DVI-D. Аналоговые разъемы можете не искать.

На другом торце карты есть большая прорезь для захвата воздуха и три винтовых отверстия для дополнительной фиксации карты в корпусе.

Конструкция кулера и питание

После тщательного изучения внешнего вида пора посмотреть на начинку, спрятанную под алюминиевым кожухом. Сделать это оказалось сложнее, чем может показаться на первый взгляд. После разборки мы насчитали на столе 51 деталь, включая винты. Если снять вентиляторы, добавиться еще 12.

Nvidia, наконец, вернулась к использованию настоящей испарительной камеры. Она крепится к плате четырьмя винтами поверх графического процессора.

Центробежный вентилятор должен быть вам знаком. Прямой вывод тепла подразумевает забор воздуха в одном месте, его проход через ребра радиатора и вывод из корпуса. Кожух кулера, который также служит в качестве рамы, не только стабилизирует карту, но и помогает охладить преобразователи напряжения и модули памяти.

Сняв все внешние компоненты, мы добрались до печатной платы. В отличие от предыдущих решений Nvidia использует шестифазную схему питания. Пять фаз обслуживают графический процессор, а оставшаяся фаза обеспечивает работу памяти GDDR5X.

На плате можно заметить место для еще одной фазы, которое пустует.

Графический процессор GP104 занимает площадь 314 мм2, что намного меньше чем у его предшественника. Вокруг процессора просматриваются линии других слоев платы. Для достижения высоких тактовых частот проводники должны быть максимально короткими. В связи с жесткими требованиями партнерам Nvidia, вероятно, потребуется больше времени для налаживания производства.

Память GDDR5X представлена чипами 6HA77 производства Micron. Они совсем недавно пошли в массовое производство, поскольку на просочившихся ранее в прессу снимках новой видеокарты Nvidia мы видели чипы 6GA77.

В общей сложности восемь модулей памяти соединены с 256-разрядной шиной памяти через 32-разрядные контроллеры. При частоте 1251 МГц пропускная способность достигает 320 Гбайт/с.

Модули GDDR5X Micron используют 170-контактную упаковку вместо 190-контактной GDDR5. Кроме того они немного меньше: 14x10 мм вместо 14x12 мм. То есть у них плотность выше и им требуется улучшенное охлаждение.

Перевернув карту, мы обнаружили свободное место под второй разъем питания. Таким образом, партнеры Nvidia смогут установить второй вспомогательный разъем, чтобы добавить мощности, либо переместить имеющийся в другую позицию.

Также в плате есть прорезь, позволяющая развернуть разъем питания на 180 градусов.

Конденсаторы расположены непосредственно под GPU, чтобы сгладить возможные скачки. Также на этой стороне платы находится ШИМ (раньше он располагался с лицевой стороны). Такое решение дает партнерам Nvidia возможность устанавливать другие ШИМ-контроллеры.

Но вернемся к ШИМ-контроллеру стабилизатора напряжения. Технология Nvidia GPU Boost 3.0 получила новый набор требований к стабилизации напряжения, что привело к существенным изменениям. Мы ожидали увидеть контроллер типа IR3536A от International Rectifier в сочетании со схемой 5+1 фаза, но Nvidia использовала µP9511P. Это не лучшие новости для любителей разгона, поскольку карта не поддерживает интерфейс и протокол таких инструментов как MSI Afterburner и Gigabyte OC Guru. Переход на новый контроллер, который пока не очень хорошо описан, скорее всего, связан с техническими особенностями.

Поскольку контроллер ШИМ не может непосредственно управлять отдельными фазами преобразователя напряжения, Nvidia использует мощные MOSFET-драйверы с чипами 53603A для управления затвором МОП-транзисторов. Но по сравнению с некоторыми другими вариантами компоновка схемы выглядит аккуратно и опрятно.

Здесь есть различные типы МОП-транзисторов. 4C85N - это довольно эластичный двухканальный МОП-транзистор для преобразования напряжения. Он обслуживает все шесть фаз электропитания и имеет достаточно большие электрические и тепловые резервы, чтобы выдержать нагрузки эталонного дизайна.


Интересно, как технология Nvidia GPU Boost 3.0 и модифицированная схема стабилизатора напряжения повлияют на энергопотребление. Мы обязательно это проверим.

Обзор Nvidia GeForce GTX 1080 Pascal | Технология Simultaneous Multi-Projection и Async Compute

Движок Simultaneous Multi-Projection

Увеличенное число ядер, их тактовая частота и работа с памятью GDDR5X 10 Гбит/с ускоряют работу каждой протестированной игры. Однако архитектура Pascal включает несколько особенностей, которые мы сможем оценить лишь в грядущих играх.

Одну из новых функцией Nvidia называет Simultaneous Multi-Projection Engine или движок мультипроекции, представленный аппаратным блоком, добавленным в состав движков PolyMorph. Новый движок может создавать до 16 проекций геометрических данных из одной точки обзора. Либо он может сместить точку обзора для создания стереоскопического изображения, дублируя геометрию 32 раза силами аппаратных средств, то есть без ущерба производительности, с которым вы бы столкнулись, пытаясь добиться такого эффекта без SMP.


Одноплановая проекция

Попробуем разобраться в преимуществах данной технологии. К примеру, у нас есть три монитора в конфигурации Surround. Они немного повернуты внутрь, чтобы "обернуть" пользователя, так удобнее играть и работать. Но игры об этом не знают и визуализируют изображение в одной плоскости, поэтому оно кажется изогнутым на месте стыковки рамок мониторов, и в целом картинка выглядит искаженной. Для такой конфигурации было бы правильнее визуализировать одну проекцию прямо, вторую проекцию левее, как будто из панорамной кабины пилота самолета, и третью проекцию правее. Таким образом, ранее изогнутая панорама будет выглядеть разглаженной, и пользователь получит намного более широкий угол обзора. Всю сцену по-прежнему нужно растеризовать и закрасить, но зато GPU не придется визуализировать сцену три раза, благодаря чему устраняется лишняя нагрузка.


Некорректная перспектива на повернутых под углом дисплеях



Исправленная с помощью SMP перспектива

Однако приложение должно поддерживать настройки широких углов обзора и использовать вызовы API SMP. Это означает, что прежде чем вы сможете воспользоваться этой функцией, разработчики игр должны ее освоить. Мы не уверенны на счет того, как много усилий они готовы приложить ради горстки пользователей многомониторных конфигураций Surround. Но есть другие приложения, для которых имеет смысл реализовать эту функцию как можно скорее.


использование однопроходного стереорендеринга, SMP создает одну проекцию для каждого глаза

Возьмем в качестве примера виртуальную реальность. Для нее уже нужна индивидуальная проекция для каждого глаза. Сегодня игры просто визуализируют изображения на два экрана отдельно со всеми сопутствующими недостатками и потерями эффективности. Но поскольку SMP поддерживает два центра проекции, сцена может быть визуализирована в один проход с использованием функции Nvidia Single Pass Stereo (однопроходный стереорендеринг). Геометрия обрабатывается один раз, а SMP создает ее проекцию для левого и правого глаза. Далее SMP может применить дополнительные проекции для работы функции под названием Lens Matched Shading.


Изображения после первого прохода с функций Lens Matched Shading



Окончательная сцена, которая посылается в гарнитуру

Если коротко, Lens Matched Shading пытается сделать VR-рендеринг более эффективным, избегая большого объема работы, который обычно выполняется при рендеринге традиционной планарной проекции, для искажения геометрии в соответствии с искажением линз гарнитуры (таким образом, в местах самого большого изгиба пиксели отрисовываются впустую). К этому эффекту можно приблизиться, используя SMP для разделения области на квадранты. Так вместо рендеринга квадратной проекции и работы с ней, GPU создает изображения, соответствующие фильтру искажения линзы. Такой способ препятствует генерации лишних пикселей. Вы не заметите разницы в качестве, при условии, если разработчики будут соблюдать частоту выборки для глаза на HMD или превысят ее.

По заявлению Nvidia сочетание техник Single Pass Stereo и Lens Matched Shading способно обеспечить двукратный прирост производительности в VR по сравнению с GPU без поддержки SMP. Частично он связан с отрисовкой пикселей. Используя технологию Lens Matched Shading для избегания обработки пикселей, которые не должны быть визуализированы, интенсивность рендеринга в сцене со сбалансированными предустановками Nvidia упала с 4,2 Мп/с (Oculus Rift) до 2,8 Мп/с, таким образом, шейдерная нагрузка на GPU снизилась в полтора раза. Технология Single Pass Stereo, обрабатывающая геометрию лишь один раз (вместо повторного рендеринга для второго глаза) эффективно устраняет половину геометрической обработки, которая должна выполняться сегодня. Теперь понятно, что имел ввиду Жэнь-Сунь, когда заявлял о "двукратном приросте производительности и трехкратном приросте эффективности по сравнению с Titan X".

Асинхронные вычисления

Архитектура Pascal также включает некоторые изменения, касающиеся асинхронных вычислений, которые по ряду причин связаны с DirectX 12, VR и архитектурным преимуществом AMD.

Nvidia поддерживает статическое разделение ресурсов GPU для графических и вычислительных задач, начиная с архитектуры Maxwell. В теории такой подход хорош, когда оба блока активны одновременно. Но предположим, что 75% ресурсов процессора отдано графике, и он завершил свою часть задачи быстрее. Тогда этот блок будет простаивать, ожидая пока вычислительный блок завершит свою часть работы. Таким образом теряются все возможные преимущества одновременного выполнения этих задач. Pascal устраняет этот недостаток путем динамического балансирования нагрузки. Если драйвер решит, что один из разделов используется недостаточно активно, он может переключить его ресурсы в помощь другому, предотвращая простаивание, отрицательно влияющее на производительность.

Также Nvidia улучшила в Pascal возможности прерывания, то есть, возможность остановить текущую задачу, чтобы решить более "срочную" с очень коротким временем выполнения. Как известно графические процессоры - это сильно распараллеленные машины с большими буферами, предназначенными для того, чтобы похожие ресурсы, находящиеся рядом друг с другом, были заняты. Простаивающий шейдер бесполезен, так что его нужно всеми способами вовлечь в рабочий процесс.


Для VR лучше чтобы запросы на прерывание отправлялись как можно позже, чтобы захватить самые свежие данные отслеживания

Отличным примером является функция асинхронного прерывания времени (Asynchronous Time Warp - ATW), которую Oculus представила вместе с Rift. В случае, когда видеокарта не может выдать новый кадр каждые 11 мс на 90 Гц дисплей, ATW генерирует промежуточный кадр, используя последний кадр с корректировкой положения головы. Но для создания такого кадра должно быть достаточно времени, и, к сожалению, графическое прерывание не обладает высокой точностью. Фактически архитектуры Fermi, Kepler и Maxwell поддерживают прерывание на уровне отрисовки, то есть кадры могут переключаться в рамках вызова отрисовки, потенциально сдерживая технику ATW.

Pascal реализует для графики прерывание на уровне пикселей, поэтому GP104 может остановить текущую операцию на пиксельном уровне, сохранить ее состояние и переключиться на другой контекст. Вместо прерывания за миллисекунды, о котором писали в Oculus, Nvidia заявляет менее 100 микросекунд.

В архитектуре Maxwell эквивалент прерывания на пиксельном уровне в вычислительном блоке был реализовать посредством прерывания на уровне потока. В Pascal эта методика также сохранилась, но добавилась поддержка прерывания на уровне инструкций в вычислительных задачах CUDA. На данный момент драйверы Nvidia эту функцию не включают, но скоро она станет доступна вместе с прерыванием на уровне пикселей.

Обзор Nvidia GeForce GTX 1080 Pascal | Конвейер вывода, SLI и GPU Boost 3.0

Канал дисплея Pascal: HDR-Ready

В прошлом году мы встречались с представителями AMD в городе Сонома, что в Калифорнии, тогда они поделились некоторыми деталями своей новой архитектуры Polaris, в частности, рассказали о конвейере вывода изображения с поддержкой контента с расширенным динамическим диапазоном и соответствующих дисплеев.

Не удивительно, что архитектура Nvidia Pascal оснащается подобными функциями, некоторые из которых даже были доступны в Maxwell. Например, контроллер дисплея в процессоре GP104 получил поддержку 12-битного цвета, широкой цветовой палитры BT.2020, функцию электрооптической передачи SMPTE 2084 и стандарт HDMI 2.0b с HDCP 2.2.

К этому списку Pascal добавляет ускоренное декодирование HEVC в режиме 4K60p с цветом 10/12-бит через специализированный аппаратный блок, для которого заявлена поддержка стандарта HEVC Version 2. Раньше Nvidia использовал гибридный подход с использованием программных ресурсов. Кроме того кодирование ограничивалось восемью битами цветовой информации на каждый пиксель. Но мы полагаем, что для поддержки спорной спецификации Microsoft PlayReady 3.0 потребовала более быстрого и более эффективного решения.

Архитектура также поддерживает кодирование HEVC в 10-битном цвете в режиме 4K60p для записи или потоковой передачи в HDR, у Nvidia даже есть для этого специальное приложение. Используя кодирующие средства процессора GP104 и программу GameStream HDR, которая должна появиться в ближайшее время, вы сможете транслировать игры с высоким динамическим диапазоном на устройства Shield, подключенные к HDR-совместимому телевизору. Shield оснащается собственным декодером HEVC с поддержкой 10-битного цвета на пиксель, которой еще больше разгружает конвейер вывода изображения.

GeForce GTX 1080 GeForce GTX 980
Кодирование H.264 Да (2x 4K60p) Да
Кодирование HEVC Да (2x 4K60p) Да
Кодирование HEVC 10-бит Да Нет
Декодирование H.264 Да (4K120p до 240 Мбит/с) Да
Декодирование HEVC Да (4K120p/8K30p до 320 Мбит/с) Нет
Декодирование VP9 Да (4K120p до 320 Мбит/с) Нет
Декодирование HEVC 10/12-бит Да Нет

В дополнение к поддержке стандарта HDMI 2.0b видеокарта GeForce GTX 1080 имеет сертифицированную поддержку стандарта DisplayPort 1.2 и совместима с DP 1.3/1.4. В этом плане она уже превосходит еще не вышедшую Polaris, у которой контроллер дисплея пока поддерживает только DP 1.3. К счастью для AMD, спецификации версии 1.4 не предполагают наличие более быстрого режима передачи, и потолком по-прежнему является значение 32,4 Гбит/с, установленное режимом HBR3.

Как уже упоминалось ранее, карта GeForce GTX 1080 Founders Edition оснащается тремя выходами Display Port, одним разъемом HDMI 2.0b и одним цифровым двухканальным выходом DVI. Как и GTX 980 новинка способна выводить изображение на четыре независимых монитора одновременно. Но в сравнении с разрешением 5120x3200 через два кабеля DP 1.2, максимальное разрешение GTX 1080 составляет 7680x4320 точек при частоте обновления 60 Гц.

SLI теперь официально поддерживает только два GPU

Традиционно видеокарты Nvidia высшего уровня оснащаются двумя коннекторами для подключения двух, трех или даже четырех ускорителей в связке SLI. Как правило, лучшее масштабирование достигается в конфигурациях из двух GPU. Далее затраты себя часто не оправдывают, поскольку появляется много подводных камней. Тем не менее, некоторые энтузиасты все же используют по три и четыре графических адаптера в погоне за каждым дополнительным кадром и возможностью похвастаться перед друзьями.

Но ситуация изменилась. По словам Nvidia, из-за проблем, связанных с масштабированием производительности в новых играх, без сомнения связанных с DirectX 12, GeForce GTX 1080 официально поддерживает только конфигурации SLI из двух видеокарт. Так зачем же карте два разъема? Благодаря новым мостикам SLI оба разъема могут использоваться одновременно для передачи данных в двухканальном режиме. Кроме двухканального режима интерфейс также имеет повышенную с 400 МГц до 650 МГц частоту ввода-вывода. В результате пропускная способность между процессорами возрастает более чем в два раза.


Время рендеринга кадров в Middle earth: Shadow of Mordor с новым (голубая линия на графике) и старым (черный) мостом SLI

Впрочем, многие геймеры не ощутят преимуществ более быстрого канала. Он будет актуален, прежде всего, при высоких разрешениях и частоте обновления. Nvidia показала снимок, сделанный в FCAT с показателями двух GeForce 1080 GTX в игре Middle earth: Shadow of Mordor на трех дисплеях с разрешением 4K. Соединение двух карт старым мостиком привело к постоянным скачкам частоты времени кадра, которые приводят к предсказуемым проблемам с синхронизацией, проявляющимся в виде притормаживаний. С новым мостиком количество скачков сократилось, и они стали не так сильно выраженными.

По словам Nvidia двухканальный режим поддерживают не только мостики SLI HB. Уже знакомые нам мостики со светодиодной подсветкой тоже могут передавать данные на частоте 650 МГц при подключении к картам Pascal. От гибких или обычных мостиков лучше отказаться, если вы хотите работать в 4K или выше. Подробную информацию касательно совместимости можно найти в таблице, приведенной Nvidia:

1920x1080 @ 60 Гц 2560x1440 @ 120 Гц+ 2560x1440 4K 5K Surround
стандартный мост x x
LED мост x x x x
Мост с высокой скоростью передачи данных (HB) x x x x x x

Чем вызван отказ от трех- и четырехчиповых конфигураций? Ведь компания всегда стремится продать больше и добиться более высокой производительности. Можно цинично сказать, что Nvidia не хочет брать ответственность за потерю преимуществ при связке двух или четырех карт в SLI, когда рынок современных видеоигр использует все более тонкие и сложные подходы к рендерингу. Но компания настаивает, что действует в интересах покупателей, поскольку Microsoft отдает все больше возможностей управления многопроцессорными конфигурациями разработчикам игр, которые, в свою очередь, исследуют новые технологии, такие как совместный рендеринг одного кадра вместо нынешнего покадрового рендеринга (AFR).

Энтузиасты, которых заботят лишь рекорды скорости и не интересуют описанные выше факторы, по-прежнему могут связывать три или четыре GTX 1080 в SLI, используя старый софт. Им нужно сгенерировать уникальную "аппаратную" подпись, используя программу от Nvidia, с помощью которой можно запросить ключ "разблокировки". Естественно новые мостики HB SLI не будут работать более чем с двумя GPU, поэтому придется ограничиться старыми LED-мостиками, чтобы объединить работу трех/четырех GP104 на частоте 650 МГц.

Коротко о GPU Boost 3.0

С целью извлечь еще больше производительности из своих GPU, Nvidia снова усовершенствовала технологию GPU Boost.

В предыдущем поколении (GPU Boost 2.0) установка тактовой частоты осуществлялась путем перемещения на определенное значение наклонной линии зависимости напряжения/частоты. Потенциальный запас мощности выше этой линий обычно оставался незадействованным.


GPU Boost 3.0 – установка прироста частоты на один шаг увеличения напряжения

Теперь GPU Boost 3.0 позволяет устанавливать прирост частоты для отдельных значений напряжения, которые ограничиваются лишь температурой. Вдобавок вам не придется экспериментировать и проверять стабильность работы карты по всему диапазону значений на кривой. Nvidia имеет встроенный алгоритм для автоматизации этого процесса, создавая уникальную для вашего GPU кривую напряжения/частоты.

Мы переходим к еще одной особенности GeForce GTX 1080, которая сделала эту модель первой в своем роде - поддержке памяти GDDR5X. В этом качестве GTX 1080 какое-то время будет единственным продуктом на рынке, поскольку уже известно, что GeForce GTX 1070 будет укомплектован стандартными чипами GDDR5. В сочетании с новыми алгоритмами компрессии цвета (об этом также чуть позже) высокая ПСП (пропускная способность памяти) позволит GP104 более эффективно распоряжаться имеющимися вычислительными ресурсами, чем это могли себе позволить продукты на базе чипов GM104 и GM200.

JEDEC выпустила финальные спецификации нового стандарта лишь в январе текущего года, а единственным производителем GDDR5X на данный момент является компания Micron. На 3DNews не было отдельного материала, посвященного этой технологии, поэтому мы кратко опишем те нововведения, которые приносит GDDR5X, в данном обзоре.

Протокол GDDR5X имеет много общего с GDDR5 (хотя электрически и физически те и другие чипы различаются) - в отличие от памяти HBM, которая представляет собой принципиально другой тип, что делает делает практически неосуществимым сосуществование с интерфейсом GDDR5(X) в одном GPU. По этой причине GDDR5X называется именно так, а не, к примеру, GDDR6.

Одно из ключевых различий между GDDR5X и GDDR5 состоит в возможности передачи четырех бит данных на одном цикле сигнала (QDR - Quad Data Rate) в противоположность двум битам (DDR - Double Data Rate), как это было во всех предшествующих модификациях памяти DDR SDRAM. Физические же частоты ядер памяти и интерфейса передачи данных располагаются приблизительно в том же диапазоне, что у чипов GDDR5.

А чтобы насытить данными возросшую пропускную способность чипов, в GDDR5X применяется увеличенная с 8n до 16n предвыборка данных (prefetch). При 32-битном интерфейсе отдельного чипа это означает, что контроллер за один цикл доступа к памяти выбирает уже не 32, а 64 байта данных. В итоге результирующая пропускная способность интерфейса достигает 10-14 Гбит/с на контакт при частоте CK (command clock) 1250-1750 МГц - именно эту частоту показывают утилиты для мониторинга и разгона видеокарт - такие, как GPU-Z. По крайней мере, сейчас в стандарт заложены такие показатели, но в будущем Micron планирует достигнуть чисел вплоть до 16 Гбит/с.

Следующее преимущество GDDR5X состоит в увеличенном объеме чипа - с 8 до 16 Гбит. GeForce GTX 1080 комплектуется восемью чипами по 8 Гбит, но в дальнейшем производители графических карт смогут удвоить объем RAM по мере появления более емких микросхем. Как и GDDR5, GDDR5X допускает использование двух чипов на одном 32-битном контроллере в так называемом clamshell mode, что в результате дает возможность адресовать 32 Гбайт памяти на 256-битной шине GP104. Кроме того, стандарт GDDR5X помимо равных степени двойки описывает объемы чипа в 6 и 12 Гбит, что позволит варьировать общий объем набортной памяти видеокарт более «дробно» - например, оснастить карту с 384-битной шиной RAM чипами на суммарные 9 Гбайт.

Вопреки ожиданиям, которые сопровождали первую информацию о GDDR5X, появившуюся в открытом доступе, энергопотребление нового типа памяти сравнимо с таковым у GDDR5 либо лишь немного превышает последнее. Чтобы компенсировать возросшую мощность на высоких значениях пропускной способности, создатели стандарта снизили питающее напряжение ядер с 1,5 В, стандартных для GDDR5, до 1,35 В. Кроме того, стандарт в качестве обязательной меры вводит управление частотой чипов в зависимости от показателей температурного датчика. Пока неизвестно, насколько новая память в действительности зависима от качества теплоотвода, но не исключено, что мы теперь чаще будем видеть на видеокартах системы охлаждения, обслуживающие не только GPU, но и чипы RAM, в то время как производители карт на базе GDDR5 в массе своей пренебрегают этой возможностью.

Может возникнуть впечатление, что переход с GDDR5 на GDDR5X был несложной задачей для NVIDIA в силу родства данных технологий. К тому же, GeForce GTX 1080 комплектуется памятью с наименьшей пропускной способностью, определенной стандартом - 10 Гбит/с на контакт. Однако практическая реализация нового интерфейса сопряжена с рядом инженерных трудностей. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.

Результирующая пропускная способность 256-битной шины в GeForce GTX 1080 составляет 320 Гбайт/с, что несущественно меньше скорости 336 Гбайт/с, которой характеризуется GeForce GTX 980 Ti (TITAN X) с его 384-битной шиной GDDR5 при 7 Гбит/с на контакт.

Теперь PolyMorph Engine может создавать одновременно вплоть до 16 проекций (viewport’ов), размещенных произвольным образом, и сфокусированных на одной или двух точках, сдвинутых по горизонтальной оси относительно друг друга. Данные преобразования выполняются исключительно в «железе», и не вызывают снижения производительности как такового.

У этой технологии есть два вполне предсказуемых применения. Первое - это шлемы VR. За счет двух центров проекции Pascal может создавать стерео-изображение за один проход (впрочем, речь идет только о геометрии - GPU по-прежнему придется совершить вдвое больше работы, чтобы выполнить растеризацию текстур в двух кадрах).

Кроме того, SMP позволяет на уровне геометрии выполнять компенсацию искажения картинки, которую вносят линзы шлема. Для этого изображения для каждого глаза формируется четырьмя отдельными проекциями, которые затем склеиваются в плоскость с применением фильтра пост-обработки. Таким образом не только достигается геометрическая точность итогового изображения, но и снимается необходимость в обработке 1/3 пикселов, которые в противном случае все равно были бы потеряны при финальной коррекции стандартной плоской проекции под кривизну линз.

Единственная оптимизация для VR, которой обладал Maxwell, состояла в том, что периферические зоны изображения, которые компрессируются наиболее сильно для вывода через линзы, могли рендериться с пониженным разрешением, что давало экономию пропускной способности лишь на 10-15%.

Следующая область, в которой востребована функция SMP, - это мультимониторные конфигурации. Без SMP изображение на нескольких состыкованных дисплеях представляет собой плоскость с точки зрения GPU, и выглядит геометрически корректно при условии, что экраны перед зрителем выстроены в линию, но стыковка под углом уже не выглядит корректно - как если бы вы просто согнули в нескольких местах большую фотографию. Не говоря уже о том, что в любом случае зритель видит именно плоское изображение, а не окно в виртуальный мир: если повернуть голову к боковому экрану, объекты в нем останутся растянутыми, так как виртуальная камера по-прежнему смотрит в центральную точку.

С помощью SMP драйвер видеокарты может получить информацию о физическом расположении нескольких экранов с тем, чтобы проецировать изображение для каждого из них через собственный viewport, что в конечном счете функционально приближает мультимониторную сборку к полноценному «окну».

Вкратце, задача тройной буферизации в том, чтобы отделить процесс рендеринга новых кадров в конвейере GPU от сканирования изображения из кадрового буфера за счет того, что видеокарта может создавать новые кадры со сколь угодно высокой частотой, записывая их в два сменяющихся кадровых буфера. При этом содержимое самого последнего кадра с частотой, кратной частоте обновления экрана, копируется в третий буфер, откуда монитор может его забрать без разрывов картинки. Таким образом, кадр, который попадает на экран, в момент начала сканирования всегда содержит последнюю информацию, которую произвел GPU.

Тройная буферизация наиболее полезна для мониторов с частотой обновления экрана 50-60 Гц. При частотах 120-144 Гц, как мы уже писали в статье, посвященной G-Sync, включение вертикальной синхронизации уже, в принципе, увеличивает латентность несущественно, но Fast Sync уберет ее до минимума.

Если вы задаетесь вопросом, как Fast Sync соотносится с G-Sync (и ее аналогом Free Sync от AMD - но это чисто теоретический вопрос, т.к. NVIDIA поддерживает только свой вариант), то G-Sync снижает латентность в ситуации, когда GPU не успевает произвести новый кадр к моменту начала сканирования, а Fast Sync - напротив, снижает латентность, когда частота обновления кадров в конвейере рендеринга выше частоты обновления экрана. К тому же, эти технологии могут работать совместно.

GeForce GTX 1080 Founder’s Edition: конструкция

Этим пышным именем теперь называется референсная версия GeForce GTX 1080. Начиная с GeForce GTX 690 NVIDIA уделяет большое внимание тому, в какой форме их новые продукты выходят на рынок. Референсные образцы современных видеокарт под маркой GeForce далеки от своих невзрачных предшественников, оснащавшихся сравнительно неэффективными и шумными системами охлаждения.

GeForce GTX 1080 Founder’s Edition вобрал в себя лучшие черты дизайна видеокарт Kepler и Maxwell: алюминиевый кожух турбины, крыльчатка кулера, изготовленная из малошумного материала, и массивная алюминиевая рама, придающая жесткость конструкции и снимающая тепло с микросхем RAM.


В составе GTX 1080 присутствуют одновременно два компонента, которые периодически то появляются, то пропадают из референсных видеокарт NVIDIA - радиатор GPU с испарительной камерой и задняя пластина. Последняя частично демонтируется без отвертки, дабы обеспечить приток воздуха кулеру соседней видеокарты в режиме SLI.

Помимо своей представительской функции, референсный образец видеокарты нужен для того, чтобы конечные производители видеокарт могли закупать его - в данном случае у NVIDIA - и удовлетворять спрос, пока не будут готовы устройства оригинального дизайна на том же GPU. Но в этот раз NVIDIA планирует сохранять референсную версию в продаже на протяжении всего срока жизни модели и распространять, среди прочего, через свой официальный сайт. Так мотивирована на $100 более высокая цена GTX 1080 FE по сравнению с рекомендованными для всех остальных $599. В конце концов, Founder’s Edition не выглядит и не является дешевым продуктом.

В то же время, видеокарта имеет референсные частоты, ниже которых, как обычно, не опустится ни один производитель карт оригинального дизайна. Не идет речи и о каком-либо отборе GPU для GTX 1080 FE по разгонному потенциалу. Стало быть, во всей массе реализаций GeForce GTX 1080 могут оказаться и более дорогие. Но какое-то время Founder’s Edition будет преобладающей и даже единственной версией флагманского Pascal, что автоматически повышает его розничные цены на $100 сверх «рекомендации» NVIDIA.

На прошлой неделе Дженсен Хуанг (Jen-Hsun Huang) вышел на сцену и официально представил видеокарты Nvidia GeForce GTX 1070 и GTX 1080 . Помимо презентации самих ускорителей и их разгонного потенциала, демонстрировались новые технологии, примененные в архитектуре Pascal . Именно им и посвящен этот материал. Конечно, будут рассмотрены не все новшества. О некоторых новых и/или обновленных технологиях будет рассказано в обзоре GTX 1080, который появится уже в совсем скором времени.

Pascal и GPU GP 104

Первое и самое важное изменение в Pascal – уход от 28-нм техпроцесса, который использовался в потребительских видеокартах с момента выхода GeForce GTX 600-серии, с марта 2012 года. Архитектура Pascal основывается на новом 16-нм FinFET техпроцессе производства TSMC, и с переходом на более тонкую литографию приходят впечатляющие улучшения в области энергопотребления и масштабирования производительности.

Но прежде всего более тонкий техпроцесс, зачастую, позволяет нарастить частоту. В «стоке» видеокарта работает более чем при 1700 МГц. Также, судя по многочисленным обзорам, GTX 1080 способен разгоняться до 2100+ МГц, а это референс, еще и серьезно ограниченный по питанию.

Стоит отметить, что не только уменьшение техпроцесса позволило так поднять частоту. По словам Иона Альбена (Jonah Alben) – старшего вице-президента подразделения GPU Engeneering, после перехода на 16-нм FinFET техпроцесс новые графические процессоры могли работать на частоте около 1325 МГц, и команда Nvidia долгое время работала над наращиванием частот. Итогом работы стала GTX 1080, которая функционирует при 1733 МГц.

Как же удалось добиться такого уровня улучшения тактовой частоты и производительности относительно архитектуры Maxwell? Pascal сочетает в себе несколько интересных нововведений, позволяющих существенно увеличить эффективность.

Оптимизации позволили не только увеличить тактовую частоту, но и эффективность CUDA-ядер GPU GP104 относительно предшественника – GM204. Доказательство тому – прирост производительности в 70% (относительно GTX 980) и это еще на не до конца доведенных до ума драйверах.

Одно из изменений можно рассмотреть на блок-схеме, которая представлена выше. Теперь в одном кластере GPC заместь четырех SM-s (simultaneous multiprocessor) блоков их пять.

PolyMorph Engine 4.0

Существенное дополнение в самом кристалле GPU лишь одно – добавление нового модуля к PolyMorph Engine. Добавился синхронный блок мультипроекцирования. Новый блок находится в самом конце тракта обработки кадра и создает несколько схем проекции из одного потока геометрии.

Если не вдаваться в подробности, а там все очень сложно, то новый блок берет обработку геометрии на себя, не всю, но существенную часть. Таким образом нагрузка на другие блоки графического процессора уменьшается. Помимо этого, PolyMorph помогает формировать картинку под корректными углами на мультимониторных конфигурациях, но об этом позже.

Видеокарта GeForce GTX 1080 Ti обладает 11Гб памяти GDDR5X, частотой графического процессора в 1583 МГц (с возможность разгона до 2000 МГц при штатной системе охлаждения), частотой памяти в 11 ГГц QDR, а также производительностью на 35% лучшей, чем у GeForce GTX 1080. И это при сниженной цене в 699$.

Новая видеокарта смещает GeForce GTX 1080 с позиции флагмана в линейке GeForce и становится самой быстрой графической картой, существующей на сегодняшний день, а также самой мощной картой на архитектуре Pascal.

Самая мощная игровая карта NVIDIA GeForce GTX 1080 Ti

NVIDIA GeForce GTX 1080 Ti является мечтой геймеров , которые смогут наконец наслаждаться последними играми класса ААА, играть в шлемах виртуальной реальности на высоком разрешении, наслаждаясь четкостью и точностью графики.

GTX 1080 Ti разрабатывалась как первая полноценная видеокарта для игр в 4K. Она оснащена самым новым и технологичным железом, которым не может похвастать ни одна другая видеокарта на сегодняшний день.

Вот официальная презентация NVIDIA GeForce GTX 1080 Ti

«Пришло время для чего-то нового. Того, что на 35% быстрее GTX 1080. Того, что быстрее Titan X. Давайте назовем это максимальной…

Год от года видеоигры становились все прекраснее, так что мы представляем топовый продукт нового поколения, чтобы вы могли наслаждаться играми нового поколения.»

Джен-Ксун

Характеристики NVIDIA GeForce GTX 1080 Ti

NVIDIA не поскупилась на начинку для своей новой и сверхмощной видеокарты.

Она оснащена тем же графическим процессором Pascal GP102 GPU, что и Titan X (P), но превосходит последнюю по всем показателям.

Процессор оснащен 12 млрд транзисторов и обладает шестью кластерами для обработки графики, два из которых блокированы. Это дает в общей сложности 28 мультипотоковых процессоров по 128 ядер каждый.

Таким образом, видеокарта GeForce GTX 1080 Ti обладает 3584 ядрами CUDA, 224 блоками отображения текстур и 88 ROP (блоки, отвечающие за z-буферизацию, сглаживание, запись финального изображения в кадровый буфер видеопамяти).

Диапазон разгона начинается от 1582 МГц до 2ГГц. Архитектура Паскаль создавалась преимущественно для разгона в референсе и более экстримального разгона в нестандартных моделях.

Видеокарта GeForce GTX 1080 Ti также обладает 11 Гб памяти GDDR5X , работающую через 352-битную шину . Флагман также оснащен самым быстрым решением G5X на сегодняшний день.

С новой системой сжатия и плиточного кэширования, пропускная способность видеокарты GTX 1080 Ti может быть увеличена до 1200 Гб/с, что превосходит достижения технологии AMD HBM2.

Спецификация NVIDIA GeForce GTX 1080 Ti:

Характеристики GTX TItan X Pascal GTX 1080 Ti GTX 1080
Техпроцесс 16 нм 16нм 16 нм
Транзисторов 12 млрд 12 млрд 7.2 млрд
Площадь кристалла 471мм² 471мм² 314мм²
Память 12 Гб GDDR5X 11 Гб GDDR5X 8 Гб GDDR5X
Скорость памяти 10 Гб/с 11 Гб/с 11 Гб/с
Интерфейс памяти 384-бит 352-бит 256-бит
Пропускная способность 480GB/s 484 GB/s 320GB/s
Ядер CUDA 3584 3584 2560
Базовая частота 1417 1607
Частота при разгоне 1530МГц 1583 МГц 1730 МГц
Вычислительная мощность 11 терафлопс 11.5 терафлопс 9 терафлопс
Тепловая мощность 250Вт 250Вт 180Вт
Цена 1200$ 699 US$ 499$

Охлаждение видеокарты NVIDIA GeForce GTX 1080 Ti

GeForce GTX 1080 Ti Founders оснащена новым решением распределения воздушного потока, который позволяет лучше охлаждать плату, а также длает это тише, чем предыдущие дизайнерские решения. Все это дает возможности сильнее разгонять видеокарту и достигать еще большей скорости. Кроме того, эффективность охлаждения улучшена за счет 7-фазной схемы питания на 14 dualFET-транзисторах высокой эффективности.

GeForce GTX 1080 Ti поставляется с последним NVTTM-дизайном, который представляет новую Vapor-камеру охлаждения, в которой в два раза большая площадь охлаждения, чем у Titan X (P). Этот новый тепловой дизайн помогает добиваться оптимального охлаждения и позволяет ускорить графический процессор видеокарты выше предусмотренных спецификацией показателей с технологией GPU Boost 3.0.

NVIDIA GeForce GTX 1080 Ti — мечта оверклокера

Итак, что нам делать с этой впечатляющей мощностью видеокарты? Ответ очевиден — разгонять до предела. Во время эвента, NVIDIA продемонстрировала выдающийся разгонный потенциал их видеокарты GTX 1080 Ti. Напомним, что им удалось достичь частоты процессора в 2,03ГГц на блокированных 60 FPS.