Бутылочное горлышко в компьютере. Какой процессор раскроет видеокарту? Как определить bottleneck в производственном процессе

В последнее время сильно набрали популярность различные it блогеры. И при всём к ним уважении - повинуясь наживе на хайпах они создали ну очень много странной информации, которые различные пользователи используют, абсолютно не понимая о чём речь.

Но действительно простой информации нигде нет - либо написано много лишнего (для обычных смертных), сложным языком. Либо проскакивают какие-то крупицы, которые приходится собирать по иностранным форумам, ресурсам и т.д.

Потому я решил сделать серию блогов о том, как вообще работают игры, что на что влияет, что такое "раскрытие видеокарты" и т.д. И описать это максимально простым и доступным языком.

П.1. "Как это работает? Попроще, пожалуйста!"

Для того, что бы в дальнейшем даже простые вещи не казались "китайской грамотой" - давайте разберёмся, что же такое "игра" и как устройство её нам показывает.

Игра по своей сути - это 3д приложение. И как и любое приложение оно изначально собирается из разных "кусочков", как "лего".

Проведя аналогию мы получаем:

1) Процессор - главный мозг, строит вершины, рассчитывает физику (в большинстве случаев). Если провести аналогию - это тот, кто читает инструкцию по сборке

2) видеокарта - облепливает текстурами, вешает эффекты, "делает красиво" - по аналогии это тот, кто собирает по надиктованной инструкции.

3) жёсткий диск - хранит непосредственно файлы игры - по аналогии это коробка с конструктором.

4) Оперативная память и видеопамять - хранит в себе данные частого обращения, видеопамять - хранит текстуры. Это кусочки конструктора, которые вы вытягиваете и кидаете рядом с собой, что бы не тянуться в коробку.

Как мы видим, каждый компонент нашего устройства, будь то ПК, консоль или даже смартфон, выполняет определённые действия, что бы наша игра запустилась. Это, конечно, самое примитивное представление, но этого уже достаточно, что бы понимать как это работает.

П.2. Раскроет ли процессор видеокарту?

Очень много разговоров было на эту тему. Много говорили о том, существует ли вообще такое понятие. По моим соображениям - да, существует, в каком-то смысле.

Есть такое понятие - "бутылочное горлышко". Если по простому - кто-то делает что-то медленно, из-за этого стопорится весь процесс. Если вернуться к нашим аналогиям - то это либо инструкцию читают медленно, либо малыш-видеокарта не успевает составлять "кирпичики", либо, даже, просто детальки положили слишком далеко и приходится за ними ходить.

Теперь разберёмся как "дружат" процессор и видеокарта и кто кого раскрывает?

Ситуация 1. Бутылочное горлышко - видеокарта:

В результате мы получим на экране 15 кадров в секунду. При этом видеокарта будет работать на полную, процессор будет работать на половину. Это самый идеальный вариант, в таком случае говорят, что "процессор раскрывает видеокарту полностью". Процессору во время игры так же надо обработать различные программы самой системы, проследить, что бы работал скайп\вайбер\тимспик и многое другое. Потому небольшой "запас" у процессора должен оставаться.

Что нам это даёт? В случае ПК - мы можем снизить настройки графики, что бы видеокарта смогла сделать больше "машинок"-кадров. Так мы получим больше фпс в игре.

Есть и обратный вариант:

Тут мы так же получаем 15 кадров. При этом процессор у нас трудится на полную, а видеокарта "простаивает"(отдыхает). В таком случае говорят, что процессор не раскрывает видеокарту.

Что нам это даёт? При таком раскладе - мы не сможем "прыгнуть выше головы". Увидеть больше фпс, чем выдаёт нам процессор мы не сможем. Но, так как у нас видеокарта отдыхает - мы можем заставить её собирать не из обычных пластиковых кирпичиков, а из металлических с рисунками и стразами. Если по игровым нстройкам - мы можем поставить больше разрешение, лучше эффекты, более прогрессивное сглаживание - вплоть до того момента, пока карта не станет работать на 100%, выдавая всё те же 15 кадров.

п2.1 Так как же понять, какой процессор и видеокарту к нему взять?

В интернете полно тестов "железа". Когда тестируют видеокарту - ей создают идеальные условия, что бы она в любом случае выкладывалась по полной. Когда тестируют процессоры - делают так же.

что же нам нужно, что бы игра у нас шла в 60 кадров без проблем? Давайте рассмотрим на примере Witcher3, т.к. её протестировали на всё что только можно.

Нам нужно определить, какой процессор позволит нам увидеть 60 кадров в игре. При этом, по хорошему, нам надо брать с запасом, что бы процессору было чем обрабатывать фоновые задачи.

Как мы видим, для этой игры хватит даже Phenom2. И с ним мы увидим 60 кадров в этой игре, если "бутылочным горлышком" не станет видеокарта. Собственно, посмотрим, какая карта нам подойдёт:

Что мы видим? Что бы поиграть на самых максимальных настройках в 60фпс нам необходима карта 980 и выше.

А теперь самое интересное - именно в этой игре, именно на таких настройках 980-тую карту раскроет старенький феном. Таким образом, задавая вопрос "раскроет ли мой процессор такую-то видеокарту" просто посмотрите, какой фпс показывает ваш процессор в интересующих вас играх. И потом посмотрите какой фпс может дать видеокарта.

Во второй части я планирую рассказать про жёсткий диск, ssd, оперативную память и видеопамять (их влияние на игру.)

P.s. Спасибо. что прочитали. Это моя первая запись в блоге, потому буду рад конструктивной критике. Если нашли какие-то неточности, ошибки и проч. - пишите в комментариях, буду испраляться.

Если у современного человека спросить, из каких основных частей состоит компьютер, то, пожалуй, он приведет довольно длинный список, в первых строках которого окажутся системный блок, клавиатура и монитор. Нетрудно догадаться, что подобный перечень вряд ли годится для характеристики компьютера, управляющего микроволновой печью, системой зажигания автомобиля или космическим аппаратом. В общем, в нем не больше общего с реальностью, чем в утверждении о том, будто малиновый пиджак - отличительная черта всех позвоночных.

Любой компьютер, вне зависимости от его архитектурных особенностей и предназначения, состоит из центрального процессора и оперативной памяти, которые при необходимости могут быть дополнены периферийными устройствами. Последние применяются в основном для того, чтобы компьютер мог обмениваться информацией с внешним миром. Но в общем его производительность определяется согласованной работой именно процессора и памяти. И как раз здесь последнее время наметилось узкое место.

В IBM PC, первом массовом 16-разрядном персональном компьютере, появившемся немногим более 20 лет назад, был использован процессор Intel 8088 - младший брат Intel 8086, отличающийся от него вдвое более узкой внешней шиной данных. Такое решение было экономически оправданным, так как позволяло использовать восьмиразрядную периферию, благодаря чему новый компьютер не слишком сильно отличался по цене от своих восьмиразрядных собратьев. Но если предыдущий процессор Intel 8086 осуществлял синхронную выборку и исполнение команд, то у нового процессора эти действия выполнялись асинхронно - появилась очередь команд, заполнявшаяся тогда, когда не было интенсивного обмена процессора с областью данных. Это позволило более эффективно использовать пропускную способность шины данных, и уменьшение ее ширины вдвое не привело к существенному падению производительности.

В то время память практически не задерживала исполнение команд: процессор работал на тактовой частоте 4,77 МГц и даже адрес он вычислял гораздо дольше, чем память выдавала необходимые данные. Однако скорость процессора характеризуется тактовой частотой, а скорость памяти - временем доступа, которое не подвержено столь головокружительному прогрессу: тактовая частота выросла почти в 500 раз, а время доступа сократилось лишь примерно на порядок. Но если время доступа, скажем, 100 нс, то при 10 МГц это соответствует одному такту процессора, при 40 МГц - четырем тактам, а при 100 МГц - уже десяти. Кроме того, совершенствовалась архитектура процессоров, так что одни и те же команды стали выполняться за гораздо меньшее количество тактов (см. табл. 1).

Разработчики учитывали возникающие тенденции. IBM PC AT вышел уже с полной 16-разрядной шиной данных, а IBM AT-386 - с полной 32-разрядной. Такова же была разрядность компьютеров и на 486 процессоре. Дальше - больше. Ширина внешней шины данных Pentium составляла 64 разряда, т. е. вдвое превышала разрядность процессора. А для графических процессоров (часто называемых 3D-акселераторами) она составляет уже 128-256 разрядов.

Увеличение ширины шины - не единственный способ обойти низкую скорость работы памяти. Начиная со старших моделей 386 в компьютерах стали применять кэш-память - небольшой объем быстродействующей памяти, являющейся как бы буфером между медленной основной памятью и процессором.

Современные модули памяти предназначены для работы в узком диапазоне частот, поэтому временные диаграммы их работы оптимизируются лишь для одной, номинальной, частоты. Следовательно, при использовании более низких частот производительность памяти будет пропорционально снижаться.

До недавнего времени частота внешней шины процессора Front Side Bus (FSB) должна была совпадать с частотой тактирования оперативной памяти. Низкая частота шины у процессоров Celeron (66 МГц) при этом ограничивала производительность данного класса процессоров. Последние же чипсеты позволяют тактировать память более высокой частотой, что может довольно существенно сказаться на общей производительности. Для исследования этого вопроса была использована системная плата Gigabyte GA-6VTX на чипсете VIA Apollo Pro 133T, позволяющем независимо устанавливать как внешнюю частоту процессора, так и частоту тактирования оперативной памяти. На нее по очереди устанавливались два процессора, различающиеся частотой внешней шины: Celeron-566 (FSB 66 МГц) и Celeron-1000 (FSB 100 МГц). Набор тестов - традиционный для нашего журнала. Все тесты проводились в однозадачной ОС (DOS Mode Windows 98 SE). Естественно, кэш-память при проведении измерений не отключалась, что также оказало немалое влияние (иногда определяющее, но об этом ниже) на результаты.

При чтении, записи и пересылке 4-Мбайт массива выявились вполне определенные закономерности (см. табл. 2).

Во-первых, увеличение частоты тактирования памяти со 100 до 133 МГц при FSB 66 МГц не привело к какому-либо изменению результатов. Это справедливо не только для последовательного доступа, но и вообще для всех проведенных экспериментов. В чем тут дело: то ли FSB не способна "переварить" более чем полуторакратное увеличение частоты памяти, то ли реальная частота тактирования "замораживается" на 100, когда BIOS Setup показывает 133, - сказать трудно.

Во-вторых, скорость выполнения значительной части операций зависит лишь от частоты памяти, а не от частоты процессора.

В-третьих, реально замеренные скорости доступа к памяти зачастую оказываются существенно ниже того, что можно было бы ожидать, исходя из простейших оценок.

В качестве альтернативы последовательному доступу можно применить произвольный. Внутри 32-Мбайт области случайным образом вычислялся адрес, а затем по этому адресу производилось чтение или запись одного байта (рис. 1).

Чрезвычайно низкая скорость обмена объясняется двумя факторами. Во-первых, для первоначального задания адреса требуется довольно много времени (см. врезку ). Во-вторых, операции чтения/записи буферизованы кэшем, а обмен с ним осуществляется только порциями по 32 байта. Другими словами, чтобы считать из памяти 1 байт, необходимо перенести в кэш 32. В заключение отмечу, что процедура вычисления случайного адреса конечно же тоже занимает некоторое время, тем не менее примененный алгоритм позволяет при уменьшении объема данных до объема кэша L2 производить выборку со скоростью более 70 Мбайт/с для применяемого процессора 1 ГГц.

Различный характер зависимости производительности от частоты процессора и памяти для разных типов приложений можно видеть на рис. 2.

Для единообразия за единицу производительности принят процессор с частотой 566 МГц и памятью, работающей на 66 МГц. Кривыми обозначены следующие тестовые программы:

Решение системы дифференциальных уравнений в частных производных (СДУЧП) на процессоре 566 МГц при объеме данных 40 Мбайт.
Решение СДУЧП на процессоре 1000 МГц при тех же условиях.
Нахождение простых чисел методом "решета Эратосфена" (РЭ) на процессоре 566 МГц при объеме массивов 40 Мбайт.
РЭ на процессоре 1000 МГц при том же объеме массивов.
Быстрая сортировка 16-Мбайт массива на процессоре 566 МГц.
Быстрая сортировка 16-Мбайт массива на процессоре 1 ГГц.
Нахождение кратчайшего пути в графе методом Дейкстры на 566-МГц процессоре. Объем массивов 300 Кбайт (более удвоенного объема кэш-памяти).
Нахождение кратчайшего пути в графе на 1-ГГц процессоре при тех же условиях.

Из приведенных данных видно, что большая часть приложений наиболее чувствительна к частоте процессора. На рис.2 им соответствуют горизонтальные кривые вблизи единицы для частоты 566 МГц и вблизи 1,7-1,8 для 1000 МГц. Наиболее чувствительным к частоте памяти оказалось "решето Эратосфена", при этом с 66-МГц памятью производительность практически не зависела от частоты процессора. Графики для таких приложений имеют вид наклонных линий, для которых увеличение частоты вдвое соответствует такому же увеличению производительности, при этом зависимость от частоты процессора отсутствует. Некоторый компромисс наблюдается при решении системы дифференциальных уравнений. Производительность зависит от частоты памяти, но не прямо пропорционально, а гораздо слабее, кроме того, при частоте памяти 66 МГц процессор Celeron 1 ГГц демонстрирует всего на четверть более высокую производительность по сравнению с 566 МГц.

Хочется провести сравнение на примере еще одной задачи, а также исследовать влияние кэш-памяти.

В те далекие времена, когда компьютеры занимали несколько этажей здания и использовались исключительно для научных расчетов, оценке производительности уже уделялось немало внимания. Правда, задержек, связанных с памятью, тогда не было, а самыми сложными считались вычисления с плавающей запятой. Вот для таких вычислений и был написан тест Донгарра - решение системы линейных уравнений. Результаты некоторого обобщения этого теста приведены на рис. 3. Теперь уже оказалось, что сами вычисления с плавающей запятой можно выполнить гораздо быстрее, чем записать результаты этих вычислений в память.

Невысокая производительность при небольших массивах объясняется тем, что современные суперскалярные процессоры с конвейерной архитектурой хорошо выполняют непрерывную последовательность команд, циклы же и вызовы процедур - несколько хуже, а накладные расходы именно на эти операции растут с уменьшением размеров массивов. До достижения объемом данных объема кэш-памяти производительность растет, причем определяется исключительно частотой процессора. При переполнении кэша мы видим резкое падение производительности, достигающее десятикратного. При этом кривые в переходной области сначала расходятся, а затем вновь сходятся, но уже совсем по иному признаку - по частоте памяти. Тактовая частота процессора утрачивает свою роль, на первый план выходит частота памяти.

К счастью, значительная часть реальных приложений не достигает таких объемов одновременно обрабатываемых данных, при которых тактовая частота процессора уже перестает играть роль. Обработку текстур, необходимую на каждом кадре, берет на себя графический процессор, а там совсем другие и частоты, и ширина шины. А остальные объемные данные, будь то видеофильм, архив или многостраничный документ, как правило, обрабатываются небольшими порциями, умещающимися в кэш-память. Но с другой стороны, кэш-память ведь тоже надо заполнять. Да и снижение производительности "всего" вдвое-втрое или даже на десятки процентов вместо десятикратного вряд ли может утешить.

Из проведенных измерений следует и еще один вывод: если чипсет допускает асинхронную работу процессора и памяти, это нивелирует разницу в производительности из-за различия в FSB, которая имеется, например, у Celeron и Pentium !!!.

От редакции: хотя полученные выводы с уверенностью можно отнести только к платам на основе набора микросхем VIA Apollo 133T, но в целом этот подход может быть применен и для оценки эффективности перехода на 533-МГц шину в современных платах.

Как работает динамическая память

Центральной частью микросхемы динамической памяти является матрица конденсаторов размером MxN, где M и N обычно равны двум в какой-либо степени. Каждый конденсатор может находиться в одном из двух состояний: заряженном или разряженном, таким образом он хранит 1 бит информации.

Адрес в микросхему памяти передается в два этапа: сначала младшая половина адреса фиксируется в регистре адреса сигналом RAS (строб адреса строки), а затем старшая - сигналом CAS (строб адреса столбца). При считывании данных из памяти после фиксации младшая часть адреса подается на дешифратор строк, а с него - на матрицу, в результате чего строка конденсаторов матрицы целиком подключается к входу усилителей считывания. В процессе считывания конденсаторы разряжаются, а значит, информация в матрице теряется. Чтобы не допустить этого, только что считанная строка данных вновь записывается в строку конденсаторов матрицы - происходит регенерация памяти. К тому моменту, когда строка из матрицы попала в буфер усилителя считывания, на дешифратор адреса столбца уже подана старшая половина адреса и при помощи этого дешифратора выбирается один-единственный бит информации, хранящейся по адресу, зафиксированному в регистре адреса. После этого считанные данные можно подать на выход микросхемы. При записи информации сначала строка также считывается целиком, затем в ней изменяется нужный бит и строка записывается на прежнее место. Увеличение разрядности до 1, 2, 4 или 8 байт достигается параллельной работой нескольких микросхем памяти или нескольких матриц в одной микросхеме.

Как видим, для доступа к ячейке динамической памяти нужно проделать много последовательных операций, а потому время доступа оказывается довольно большим - сегодня это 35-50 нс, что соответствует 5-7 тактам внешней шины.

Память, работающая, как описано выше (DRAM - динамическая память произвольного доступа), применялась в первых персональных компьютерах. В одном корпусе при этом хранился объем информации до 64 кбит. Но если операции с адресом неизбежно занимают много времени, то нельзя ли как-нибудь обойти это ограничение? Ведь процессору зачастую нужны длинные цепочки байтов, хранящиеся в памяти подряд, например при выполнении последовательности команд или при обработке строк и массивов данных. И решение было найдено: после передачи микросхеме адреса первого элемента несколько последующих считывалось лишь при помощи сигналов шины управления, без передачи нового адреса, что оказалось примерно вдвое быстрее. Такая память получила название FPM RAM (память с быстрой страничной организацией) и надолго стала единственным типом оперативной памяти, используемым в персональных компьютерах. Для обозначения временных характеристик такой памяти применялись последовательности цифр: например, "7-3-3-3" означало, что на получение первой порции данных нужно затратить 7 тактов системной шины, а на последующие - по 3. Однако отрыв тактовой частоты процессора от частоты системной шины, с одной стороны, и прогресс технологии, позволивший сократить количество тактов, расходуемое вычислительным блоком на одну операцию, с другой, поставили вопрос о дальнейшем усовершенствовании технологии работы оперативной памяти.

Следующим этапом была разработка EDO RAM - памяти с увеличенным временем вывода данных, когда стало возможным совместить получение очередного блока данных с передачей "заявки" на получение следующего. Это позволило на такт уменьшить время доступа: "6-2-2-2". Однако EDO RAM очень скоро была вытеснена памятью типа SD RAM (синхронная), за счет чередования блоков время доступа оказалось возможным уменьшить до "5-1-1-1-1-1-1-1". Одновременно был применен некоторый маркетинговый ход: если при обозначении времени доступа к памяти типа FPM и EDO RAM принято было указывать время первого обращения, которое составляло 60-80 нс, то для SD RAM стали указывать время второго и последующих, что составляло уже 10-12 нс для тех же тактовых частот и, следовательно, близкого времени первого обращения. Производительность подсистемы памяти при этом выросла на десятки процентов, тогда как числа, обозначающие время доступа к памяти, уменьшились в несколько раз.

SDRAM до сих пор является основным типом памяти для процессоров Intel Pentium !!! и Celeron. Наряду с ней могут использоваться и более новые разработки: DDR RAM (точнее, DDR SDRAM, но мы будем пользоваться указанным обозначением), применяемая в основном с процессорами AMD Athlon и Duron, работающая на тех же частотах (100-133 МГц), но позволяющая передавать данные до двух раз за такт: по переднему и заднему фронту (поэтому появилось такое понятие, как эффективная частота, в данном случае 200-266 МГц), и ориентированная на применение в системах с Pentium-4 RDR RAM (Rambus RAM), работающая на частотах 300-533 МГц (эффективная частота 600-1066 МГц).

Если для SDRAM (теперь часто называемой SDR DRAM) были приняты обозначения PC-100 и PC-133, означающие возможность работы на 100 и 133 МГц соответственно, то для новых типов памяти, скажем PC-2100, цифры обозначают уже не частоту более 2 ГГц, а лишь "пиковую" скорость передачи данных. Слово "пиковая" взято в кавычки потому, что в каких бы идеальных условиях мы ни проводили измерения, полученное отношение количества переданной информации к затраченному на это времени не только не будет равно указанным числам, но даже не будет стремиться к ним асимптотически. Дело в том, что эта скорость приведена для части пакета с отрезанной первой порцией данных, т. е., как и для SDRAM, только для "второго и последующих". Для DDR RAM время первого обращения такое же, как и для SDRAM, а последующих - в два раза меньше. Поэтому при последовательном доступе выигрыш в производительности составляет десятки процентов, а при произвольном - вообще отсутствует.

Теория ограничений систем была сформулирована в 80-е годы ХХ в. и касалась управления производственными предприятиями. Кратко ее суть сводится к тому, что в каждой производственной системе действуют ограничения, сдерживающие эффективность. Если устранить ключевое ограничение, система заработает значительно эффективнее, чем если пытаться воздействовать на всю систему сразу. Поэтому процесс совершенствования производства нужно начинать с устранения узких мест.

Сейчас термин bottleneck может использоваться для в любой отрасли — в сфере услуг, разработке программного обеспечения, логистике, повседневной жизни.

Что такое bottleneck

Определение bottleneck звучит как место в производственной системе, в котором возникает перегрузка, потому что поток материалов поступает слишком быстро, но не может быть так же быстро переработан. Часто это станция с меньшей мощностью, чем предыдущий узел. Термин произошел из аналогии с узким горлышком бутылки, которое замедляет путь жидкости наружу.

Bottleneck — узкое место в производственном процессе

На производстве эффект бутылочного горлышка вызывает простои и производственные издержки, снижает общую эффективность и увеличивает сроки отгрузки продукции заказчикам.

Существует два типа узких мест:

Краткосрочные узкие места — вызваны временными проблемами. Хороший пример — больничный или отпуск ключевых сотрудников. Никто в команде не может полноценно заменить их, и работа останавливается. На производстве это может быть поломка одного из группы станков, когда его нагрузка распределяется между рабочим оборудованием.
Долгосрочные узкие места — действуют постоянно. Например, постоянная задержка месячных отчетов в компании из-за того, что один человек должен обработать огромное количество информации, которая поступит к нему лавиной в самом конце месяца.

Как определить bottleneck в производственном процессе

Существует несколько способов поиска bottleneck на производстве разного уровня сложности, с применением специальных инструментов и без. Начнем с более простых способов, основанных на наблюдении.

Очереди и заторы

Процесс на производственной линии, который собирает перед собой самую большую очередь из единиц незавершенного производства, обычно является бутылочным горлышком. Такой способ поиска bottleneck подходит для штучного конвейерного производства, например, на линии разлива. Хорошо видно, в каком месте линии скапливаются бутылки, и какой механизм имеет недостаточную мощность, часто ломается или обслуживается неопытным оператором. Если на линии несколько мест скопления, то ситуация сложнее, и нужно использовать дополнительные методы, чтобы найти самое критичное узкое место.

Пропускная способность

Пропускная способность всей производственной линии прямо зависит от выхода оборудования bottleneck. Это характеристика поможет найти главное бутылочное горлышко процесса производства. Увеличение выпуска единицы оборудования, которая не является узким местом, существенно не повлияет на общий выпуск линии. Проверив поочередно все оборудование, можно выявить bottleneck — то есть тот шаг, увеличение мощности которого больше всего повлияет на выход всего процесса.

Полная мощность

Большинство производственных линий отслеживают процент загрузки каждой единицы оборудования. Станки и станции имеют фиксированную мощность и в процессе производства используются на определенный процент от максимальной мощности. Станция, которая задействует максимум мощности — bottleneck. Такое оборудование сдерживает процент использования мощности другого оборудования. Если вы увеличите мощность bottleneck, то мощность всей линии вырастет.

Ожидание

Процесс производства также учитывает время простоев и ожидания. Когда на линии есть бутылочное горлышко, то оборудование, идущее сразу ним, долго простаивает. Bottleneck задерживает производство и следующий станок не получает достаточно материала, чтобы работать непрерывно. Когда вы обнаружите станок с длинным временем ожидания, то ищите на предыдущем шаге бутылочное горлышко.

Кроме наблюдения за производством, для выявления узких мест используются такие инструменты:

Value Stream Mapping — карта создания потоков ценности

Как только вы выясните причину или причины узких мест, нужно определить действия для расширения бутылочного горлышка и наращивания производства. Возможно, вам понадобится переместить сотрудников в проблемную зону или нанять дополнительный персонал и закупить оборудование.

Бутылочное горлышко может возникнуть там, где операторы перенастраивают оборудование для производства другого продукта. В таком случае нужно подумать, как сократить простои. Например, изменить график производства, чтобы уменьшить количество переналадок или уменьшить их влияние.

Как уменьшить влияние узких мест

Bottleneck менеджмент предлагает производственным компаниям использовать три подхода, чтобы уменьшить влияние узких мест.

Первый подход

Увеличение мощности существующих узких мест.

Существует несколько способов увеличить мощность узких мест:

Добавьте ресурсы в ограничивающий процесс. Необязательно нанимать новых сотрудников. Кросс-функциональное обучение персонала может уменьшить влияние узких мест с незначительными затратами. В таком случае рабочие будут обслуживать сразу несколько станций и облегчать прохождение узких мест.
Обеспечьте бесперебойную подачу деталей на узкое место. Всегда следите за незавершенным производством перед узким местом, управляйте подачей ресурсов на станцию bottleneck, учитывайте овертаймы, в течение которых оборудование также всегда должно иметь детали для обработки.
Убедитесь, что узкое место работает только с качественными деталями. Не тратьте мощность и время работы узкого места на обработку брака. Размещайте точки контроля качества перед станциями bottleneck. Это повысит пропускную способность процесса.
Проверьте график производства. Если в процессе выпускается несколько разных продуктов, которые требуют разного времени работы bottleneck, скорректируйте график производства так, чтобы общий спрос на bottleneck уменьшился
Увеличьте время работы ограничивающего оборудования. Пусть bottleneck работает дольше, чем другое оборудование. Назначьте оператора, который будет обслуживать процесс во время обеденных перерывов, плановых простоев и, если нужно, сверхурочно. Хотя этот метод не уменьшит время цикла, он будет поддерживать работу bottleneck пока остальное оборудование будет простаивать.
Сократите простои. Избегайте плановых и внеплановых простоев. Если оборудование bottleneck выйдет из строя во время рабочего процесса, немедленно отправьте ремонтную бригаду, чтобы починить и запустить его. Также постарайтесь сократить время переналадки оборудования с одного продукта на другой.
Усовершенствуйте процесс именно в узком месте. Используйте VSM, чтобы устранить действия, не добавляющие ценности, и сократить время на добавление ценности, избавившись от потерь. В итоге вы получите более короткое время цикла.
Перераспределите нагрузку на bottleneck. Если возможно, разделите операцию на части и назначьте их на другие ресурсы. В итоге вы получите более короткий цикл и возросшую мощность.

Второй подход

Продажа излишков производства, которые выпускает оборудование, не относящееся к бутылочному горлышку.

Например, у вас на линии 20 инъекционных прессов, а вы используете только 12 из них, потому что оборудование bottleneck не может переработать выпуск всех 20 прессов. В этом случае вы можете найти другие компании, которые заинтересованы в субподряде на операции литья под давлением. Вы будете в прибыли, потому что получите от субподрядчиков больше, чем ваши переменные расходы.

Третий подход

Сокращение неиспользуемой мощности.

Третий вариант оптимизации производства — распродать оборудование с экстра мощностью и сократить или переместить персонал, который его обслуживает. В этом случае мощность всего оборудования будет уравнена.

Примеры bottleneck вне производства

Транспорт

Классический пример — пробки на дорогах, которые могут постоянно образовываться в определенных местах, или появляться временно во время ДТП или проведения дорожных работ. Другие примеры — шлюз на реке, погрузчик, железнодорожная платформа.

Компьютерные сети

Медленный WiFi-роутер, подключенный к эффективной сети с высокой пропускной способностью, является узким местом.

Коммуникация

Разработчик, который шесть часов в день проводит на совещаниях, и только два часа пишет код.

Программное обеспечение

В приложения тоже есть узкие места — это элементы кода, на которых программа «тормозит», заставляя пользователя ждать.

"Железо" компьютера

Узкие места в компьютере — это ограничения аппаратных средств, при которых мощность всей системы ограничивается одним компонентом. Часто процессор рассматривается как ограничивающий компонент для видеокарты.

Бюрократия

В повседневной жизни мы часто сталкиваемся с узкими местами. Например, когда внезапно заканчиваются бланки для паспортов или водительских прав и вся система останавливается. Или когда нужно пройти медосмотр, а кабинет флюорографии работает всего три часа в день.

Вердикт

Узкие места в производстве, менеджменте и жизни — это точки потенциальных улучшений.

Расширение bottleneck даст ощутимый прирост производительности и эффективности.

А не обращать внимания на ограничивающие элементы системы — значит недополучать прибыль и работать хуже своих возможностей.

При сборке игрового ПК самой дорогой частью является видеокарта, и хочется, чтобы она по полной отрабатывала свои деньги. Тогда встает вопрос: какой надо выбрать процессор для этой видеокарты, чтобы он не ограничивал ее в играх? В этой дилемме вам поможет наш специально подготовленный материал.

Введение

Так выходит, что главным в компьютере является процессор и он командует всем остальным. Именно он и дает распоряжения вашей видеокарте об отрисовке тех или иных объектов, а также рассчитывает физику объектов (даже с некоторые операции считает процессор). Если видеокарта не работает на полную мощь, а процессор уже не может быстрее, то возникает эффект «бутылочного горлышка» (bottleneck), когда производительность системы ограничивается самым слабым ее компонентом.

В реальности всегда есть операции, когда видеокарта вообще не напрягается, а проц пашет на полную, но мы здесь говорим об играх, так что будем рассуждать в этой парадигме.

Как распределяется нагрузка между процессорами и видеокартой?

Надо отметить, что с изменением настроек в игре меняется соотношение загруженности процессора и видеокарты.

При увеличении разрешения и настроек графики нагрузка на видеокарту возрастает быстрее, чем на процессор. Это значит, что если на более малых разрешениях процессор не является бутылочным горлышком, то и на более больших тоже не будет.

С уменьшением разрешения и настоек графики все наоборот: нагрузка на процессор при просчете одного кадра почти не меняется, а видеокарте становится значительно легче. В такой ситуации процессор с большей вероятностью станет бутылочным горлышком.

Каковы признаки bottleneck?

Для проведения теста нужна программа . Вам нужно смотреть на график «Загрузка ГП».

Также нужно знать нагрузку на процессор. Это можно сделать в мониторинге системы в диспетчере задач, там есть график нагрузки процессора.

Итак, каковы же признаки того, что процессор не раскрывает видеокарту ?

Нагрузка ГП не близка к 100%, а нагрузка ЦП все время около этой отметки
График нагрузки ГП сильно скачет (может быть плохо оптимизированная игра)
При изменении настроек графики, FPS не меняется

Именно по этим признакам вы можете узнать, имеет ли место bottleneck в вашем случае?

Как разобраться с выбором процессора?

Для этого советую вам смотреть тесты процессоров в нужной вам игре. Есть сайты, которые специально занимаются этим ( , ).

Пример теста в игре Tom Clancy’s The Division:

Обычно при тестировании процессоров в разных играх указываются настойки графики и разрешение. Подбираются такие условия, чтобы бутылочным горлышком был процессор. В такой случае можно узнать на какое количество кадров в данном разрешении способен тот или иной процессор. Таким образом можно и сравнивать процессоры между собой.

Игры бывают разные (капитан очевидность) и требования к процессору у них могут быть разными. Так, в одной игре все будет хорошо и процессор будет без проблем справляться со сценами, а в другой видеокарта будет прохлаждаться в то время, как процессор будет с большим трудом выполнять свои задачи.

Сильнее всего на это влияют:

сложность физики в игре
сложная геометрия пространства (много больших зданий с множеством деталей)
искусственный интеллект

Наши советы

Советуем вам при выборе ориентироваться именно на такие тесты с нужными вам настройками графики и нужным вам FPS (какие потянет ваша карта).
Желательно смотреть по самым требовательным играм, если хотите быть уверены в том, что будущие новинки будут хорошо работать.
Можете также брать процессор с запасом. Сейчас игры хорошо работают даже на чипах 4-летней давности (), а это значит, что хороший процессор сейчас будет еще очень долго радовать вас в играх.
Если FPS в игре нормальный, а нагрузка на видеокарту низкая, нагрузите ее. Повысьте настройки графики так, чтобы видеокарта трудилась на полную.
При использовании DirectX 12 нагрузка на процессор должна немного снизиться, что уменьшит требования к нему.

FX против Core i7 | Ищем узкие места с конфигурацией Eyefinity

Мы видели, как каждые три-четыре года производительность процессоров удваивалась. И всё же самые требовательные игровые движки, которые мы тестировали, также стары, как процессоры Core 2 Duo. Естественно, узкие места со стороны CPU должны были уйти в прошлое, верно? Как оказалось, скорость GPU растёт ещё быстрее, чем производительность центрального процессора. Таким образом, спор о покупке более быстрого CPU или наращивании графической мощности продолжается.

Но всегда настаёт момент, когда спорить бессмысленно. Для нас он настал, когда игры начали плавно работать на самом большом мониторе с родным разрешением 2560x1600. И если более быстрый компонент сможет обеспечить в среднем 200, а не 120 кадров в секунду разница всё равно не будет заметна.

В ответ на отсутствие более высоких разрешений для быстрых графических адаптеров, AMD представила технологию Eyefinity, а Nvidia – Surround. Обе технологии позволяют играть более чем на одном мониторе, и для GPU high-end класса работа на разрешении 5760x1080 стала объективной реальностью. По сути, три дисплея с разрешением 1920x1080 обойдутся дешевле и впечатлят вас больше, чем один экран на 2560x1600. Отсюда появилась причина дополнительно потратиться на более мощные графические решения.

Но действительно ли необходим мощный процессор, чтобы играть без "тормозов" на разрешении 5760x1080? Вопрос оказался интересный.

Недавно AMD представила новую архитектуру, и мы купили боксовый FX-8350 . В статье "Обзор и тест AMD FX-8350: исправит ли Piledriver недостатки Bulldozer?" в новом процессоре нам понравилось многое.

С экономической точки зрения, в этом сравнении Intel придётся доказать, что он не только быстрее чипа AMD в играх, но и оправдывает высокую разницу в цене.

Обе материнские платы относятся к семейству Asus Sabertooth, однако за модель с разъёмом LGA 1155 компания просит более высокую цену, что ещё усложняет положение Intel по части бюджета. Мы специально выбрали эти платформы, чтобы сравнение производительности было максимально справедливым, при этом стоимость в расчёт не принималась.

FX против Core i7 | Конфигурация и тесты

Пока мы ждали появления в тестлабе FX-8350 , провели тесты боксового . Учитывая, что процессор AMD без проблем достигает 4,4 ГГц, мы начали тестирование чипа Intel на такой же частоте. Позже выяснилось, что мы недооценили наши образцы, поскольку оба CPU достигли 4,5 ГГц на выбранном уровне напряжения.

Нам не хотелось откладывать публикацию из-за повторного тестирования на более высоких частотах, поэтому было решено оставить результаты тестов на частоте 4,4 ГГц.

Тестовая конфигурация
CPU Intel	Intel Core i7-3770K (Ivy Bridge): 3,5 ГГц, 8 Мбайт общего кэша L3, LGA 1155 разгон до 4,4 ГГц на 1,25 В
Материнская плата Intel	Asus Sabertooth Z77, BIOS 1504 (08/03/2012)
Кулер CPU Intel	Thermalright MUX-120 w/Zalman ZM-STG1 Paste
CPU AMD	AMD FX-8350 (Vishera): 4,0 ГГц, 8 Мбайт общего кэша L3, Socket AM3+ разгон до 4,4 ГГц на 1,35 В
Материнская плата AMD	Asus Sabertooth 990FX, BIOS 1604 (10/24/2012)
Кулер CPU AMD	Sunbeamtech Core-Contact Freezer w/Zalman ZM-STG1 Paste
Сеть	Встроенный контроллер Gigabit LAN
Память	G.Skill F3-17600CL9Q-16GBXLD (16 Гбайт) DDR3-2200 CAS 9-11-9-36 1,65 В
Видеокарта	2 x MSI R7970-2PMD3GD5/OC: GPU, 1010 МГц GDDR5-5500
Накопитель	Mushkin Chronos Deluxe DX 240 Гбайт, SATA 6 Гбит/с SSD
Питание	Seasonic X760 SS-760KM: ATX12V v2.3, EPS12V, 80 PLUS Gold
ПО и драйвера
Операционная система	Microsoft Windows 8 Professional RTM x64
Графический драйвер	AMD Catalyst 12.10

Благодаря высокой эффективности и быстрой установке, уже несколько лет мы используем кулеры Thermalright MUX-120 и Sunbeamtech Core Contact Freezer. Однако монтажные скобы, которые идут в комплекте с этими моделями, не взаимозаменяемы.

Модули памяти G.Skill F3-17600CL9Q-16GBXLD имеют характеристику DDR3-2200 CAS 9, и используют профили Intel XMP для полуавтоматической конфигурации. Sabertooth 990FX использует значения XMP через Asus DOCP.

Блок питания Seasonic X760 обеспечивает высокую эффективность, необходимую для оценки различий платформ.

StarCraft II не поддерживает технологию AMD Eyefinity, поэтому мы решили использовать более старые игры: Aliens vs. Predator и Metro 2033.

Конфигурация тестов (3D-игры)
Aliens vs. Predator	с использованием AvP Tool v.1.03, SSAO/тесселяция/тени вкл. Тестовая конфигурация 1: качество текстур High, без AA, 4x AF Тестовая конфигурация 2: качество текстур Very High, 4x AA, 16x AF
Battlefield 3	Режим кампании, ""Going Hunting"" 90-секунд Fraps Тестовая настройка 1: качество Medium (без AA, 4x AF) Тестовая настройка 2: качество Ultra (4x AA, 16x AF)
F1 2012	Версия Steam, встроенный бенчмарк Тестовая настройка 1: качество High, без AA Тестовая настройка 2: качество Ultra, 8x AA
Elder Scrolls V: Skyrim	Обновление 1.7, Celedon Aethirborn уровень 6, 25-секунд Fraps Тестовая настройка 1: DX11, уровень детализации High без AA, 8x AF, FXAA вкл. Тестовая настройка 2: DX11, уровень детализации Ultra, 8x AA, 16x AF, FXAA вкл.
Metro 2033	Полная версия, встроенный бенчмарк, сцена "Frontline" Тестовая настройка 1: DX11, High, AAA, 4x AF, без PhysX, без DoF Тестовая настройка 2: DX11, Very High, 4x AA, 16x AF, без PhysX, DoF вкл.

FX против Core i7 | Результаты тестов

Battlefield 3, F1 2012 и Skyrim

Но сначала давайте взглянем на энергопотребление и эффективность.

Энергопотребление не разогнанного FX-8350 по сравнению с чипом Intel не так и ужасно, хотя фактически оно выше. Однако на графике мы не видим картину в целом. Мы не видели, чтобы чип работал на частоте 4 ГГц при постоянной нагрузке на базовых настройках. Вместо этого, при обработке восьми потоков в Prime95 он уменьшил множитель и напряжение, чтобы остаться в пределах заявленного теплового пакета. Троттлинг искусственно сдерживает энергопотребление CPU. Установка фиксированного множителя и напряжения заметно повышает этот показатель у процессора Vishera при разгоне.

В то же время, не все игры могут задействовать возможность процессора FX-8350 обрабатывать восемь потоков данных одновременно, следовательно, они никогда не смогут довести чип до срабатывания механизма троттлинга.

Как уже отмечалось, во время игр на не разогнанном FX-8350 троттлинг не активируется, поскольку большинство игр не могут полностью загрузить процессор. На самом деле, игры выгодно используют технологию Turbo Core, повышающую частоту процессора до 4,2 ГГц. Хуже всего чип AMD показал себя на диаграмме средней производительности, где Intel заметно выходит вперёд.

Для диаграммы эффективности мы используем среднюю потребляемую мощность и среднюю производительность всех четырёх конфигураций в качестве среднего показателя. В этой диаграмме производительность на ватт процессора AMD FX-8350 составляет примерно две трети от результата Intel .

FX против Core i7 | Сможет ли AMD FX догнать Radeon HD 7970?

Когда мы говорим о неплохом и доступном железе, любим использовать такие фразы как "80% производительности за 60% стоимости". Эти показатели всегда очень честные, поскольку у нас уже вошло в привычку измерять производительность, потребляемую мощность и эффективность. Однако в них учитывается стоимость только одного компонента, а компоненты, как правило, в одиночку работать не могут.

Добавив компоненты, использованные в сегодняшнем обзоре, цена системы на базе Intel возросла до $1900, а платформы AMD до $1724, это без учёта корпусов, периферии и операционной системы. Если рассматривать "готовые" решения, то стоит добавить ещё примерно $80 за корпус, в итоге получаем $1984 у Intel и $1804 у AMD. Экономия на готовой конфигурации с процессором AMD составляет $180, в процентном соотношении от общей стоимости системы это немного. Другими словами, остальные компоненты персонального компьютера high-end класса преуменьшают значение более выгодной цены процессора.

В итоге у нас остаётся два абсолютно предвзятых способа сравнения цены и производительности. Мы открыто признались, поэтому надеемся, что нас не будут осуждать за представленные результаты.

Для AMD выгоднее, если мы включим только стоимость системной платы и CPU и увеличим выгоду. Получится такая диаграмма:

В качестве третьей альтернативы можно рассматривать материнскую плату и процессор в качестве апгрейда, предполагая, что корпус, блок питания, память и накопители остались от прошлой системы. Вероятнее всего, пара видеокарт Radeon HD 7970 в старой конфигурации не использовалась, поэтому разумнее всего брать в расчёт процессоры, системные платы, и графические адаптеры. Таким образом, к списку мы добавляем две видеокарты с GPU Tahiti за $800.

AMD FX-8350 выглядит выгоднее чем Intel (особенно в играх, на выбранных нами настройках) лишь в одном случае: когда остальная часть системы "бесплатная". Поскольку остальные компоненты не могут быть бесплатными, FX-8350 тоже не сможет стать выгодным приобретением для игр.

Intel и видеокарты AMD

Результаты наших тестов уже давно показали, что графические чипы ATI более процессорозависимы, чем чипы Nvidia. В результате, при тестировании GPU high-end класса, мы оснащаем наши тестовые стенды процессорами Intel, обходя недостатки платформы, которые могут помешать изоляции графической производительности и неблагоприятно сказаться на результатах.

Мы надеялись, что выход AMD Piledriver изменит ситуацию, но даже нескольких впечатляющих усовершенствований оказалось недостаточно, чтобы команда разработчиков CPU сравнилась с эффективностью команды разработчиков графических решений в самой AMD. Что же, подождем выхода чипов AMD на базе архитектуры Steamroller, которая обещает быть на 15% производительнее Piledriver.

Компьютерный портал osblog