51 votes

Est-il prudent de maintenir le GPU à 100 % d'utilisation pendant une très longue période ?

J'effectue actuellement des calculs à l'aide de CUDA sur mon GPU, une NVIDIA GeForce GTX 1050 Ti. Ces opérations prennent souvent des mois, et pendant ce temps, je laisse mon PC allumé 24 heures sur 24, 7 jours sur 7.

Est-ce sans danger ? Est-ce que je risque une surchauffe potentielle de ma carte graphique qui pourrait entraîner (dans le pire des cas) un incendie ?


Assurez-vous que le PC est correctement ventilé et qu'il n'y a pas d'obstacle à la circulation de l'air.

59voto

Eugen Rieck Points 19064

Réponse courte : Cela ne devrait pas poser de problème sur un matériel bien conçu.

Réponse longue : Le GPU (et son environnement logiciel : pilotes, système d'exploitation, démons) est conçu pour se protéger contre la surchauffe - le GPU doit d'abord faire tourner les ventilateurs à un régime plus élevé, si cela ne permet pas de maintenir une température sûre, le GPU ralentit la charge de travail (généralement en réduisant la fréquence d'horloge). Cela garantit un profil de chaleur qui n'endommagera pas le GPU et donc pas le PC (ou la pièce).

Mise en garde : il existe des cartes graphiques de contrefaçon bon marché, dont le micrologiciel est spécifiquement conçu pour sacrifier la sécurité au profit de la performance. Je ne pense pas que cela existe pour une 1050, mais je n'en suis pas sûr à 100%. Vous devriez également préférer les pilotes Nvidia téléchargés sur leur site Web aux pilotes "optimisés" des fournisseurs, qui pourraient faire la même chose.

11voto

2KAbhishek Points 29

Un incendie est très peu probable, mais la durée de vie de la carte peut être réduite.

Une surchauffe à long terme de la puce du GPU ne déclenchera probablement pas d'incendie. La puce peut se détériorer et commencer à mal fonctionner ou mourir complètement, mais les puces de silicium ne sont pas très inflammables. Des problèmes surviennent généralement lorsque des condensateurs électrolytiques tombent en panne et explosent, mais ceux-ci ne seront pas sujets à une surchauffe simplement parce que la carte fait beaucoup de bruit et que vous disposez d'un boîtier PC en métal pour contenir les éclats chauds qui résultent de telles défaillances.

Toutefois, les pièces de qualité grand public ne sont généralement pas conçues pour des charges de longue durée, 24 heures sur 24 et 7 jours sur 7. Il est donc assez probable que la carte mourra plus tôt que si elle n'était pas soumise à de telles charges. Il est difficile de dire de combien de temps il s'agit sans disposer de statistiques supplémentaires sur un modèle donné. Certains membres de la communauté HPC préconisent l'utilisation de GPU de jeu haut de gamme au lieu de composants de calcul HPC spéciaux, ce qui semble avoir un certain sens économique. Bien que les pièces de base meurent au bout d'un an environ, il est moins coûteux de continuer à les remplacer car elles sont plusieurs fois moins chères que l'alternative

7voto

Sean Houlihane Points 181

Oui, la carte es risque de s'user plus rapidement s'il est soumis à une charge constante. Pour les petites géométries, Electromigration est une source importante de défaillance des appareils, et ceux-ci sont généralement conçus en fonction d'une durée de vie spécifique. Cette durée peut être généreuse pour un fonctionnement typique (par exemple, 5 ans de fonctionnement continu), mais ne peut pas supposer un point de fonctionnement maximal à 100 % pendant toute cette période. Dès que vous commencez à surcadencer, vous pouvez vous attendre à ce que cet objectif soit considérablement réduit. (De même, un fonctionnement à seulement 80 % de charge pourrait doubler la durée de vie en raison de ce mécanisme de défaillance).

Il existe bien sûr d'autres défaillances liées à l'échauffement des composants ou aux cycles thermiques. Il s'agit simplement de souligner que l'électronique moderne (et même l'électronique des années 1980 lorsqu'elle est mal conçue) peut être sujette à l'"usure".

4voto

tahrey Points 141

Si votre système de refroidissement fonctionne correctement et que votre matériel est de conception un tant soit peu moderne et qu'il comprend un contrôle de la température sur la puce et un système de régulation thermique, de suspension ou d'arrêt, vous ne risquez rien. Il ne peut pas surchauffer tant que le refroidisseur continue à fonctionner, et s'il ne fonctionne pas, les puces se ralentiront jusqu'à ce qu'elles ne produisent pas plus de chaleur qu'elles ne peuvent en dissiper passivement (ce qui peut signifier qu'il faut suspendre complètement l'ordinateur, ce qui peut ressembler à un accrochage ou à un crash).

Dans le pire des cas, si l'étranglement ne se déclenche pas assez vite et assez fort pour compenser la charge thermique accumulée, une partie de la puce peut finir par fondre ou brûler, et vous vous retrouverez avec une carte morte, mais à ce moment-là, le circuit d'étranglement devrait avoir déclenché un arrêt d'urgence complet, peut-être même en déclenchant un fusible (temporaire ou permanent) sur le rail d'alimentation, empêchant toute sorte d'emballement et de déversement de la totalité de la tension d'entrée de manière aléatoire sur la puce et un véritable incendie.

Heureusement, la plate-forme PC a résolu la plupart des problèmes liés à ce type de système de protection thermique il y a 10 à 15 ans, après le petit scandale de certains PIII et Athlons de la génération intermédiaire qui se sont avérés tout à fait capables de s'enfumer complètement (et donc de constituer un risque d'incendie) si le refroidisseur tombait en panne ou tombait alors que le processeur fonctionnait à plein régime. Une génération de puces plus tard, il était facile de démontrer qu'un processeur haut de gamme overclocké dépassait à peine la température nominale maximale à la surface du dissipateur de chaleur si l'on arrachait le dissipateur et le ventilateur en plein milieu d'un benchmark important... l'ordinateur ralentissait ou subissait même un crash "fatal" (pour le logiciel ; le matériel avait juste besoin de remplacer le HSF et de redémarrer), mais les puces survivaient et il n'y avait pas de risque. Il est à espérer qu'aucun fabricant de GPU digne de ce nom ne sera en retard d'une décennie et demie sur la courbe, en particulier lorsque leurs produits peuvent déjà fonctionner à des températures assez proches de leurs limites nominales.

Toutefois, ce type de traitement n'est pas totalement "sûr" pour les transistors de la puce. Le "calcul" lourd (Bitcoin ? Pliage de protéines ?) à l'aide de GPU est désormais un moyen assez tristement célèbre d'user littéralement le silicium. La combinaison d'une tension et d'un courant élevés, d'une commutation continue des milliards de fois par seconde et de températures élevées et soutenues soumet les composants à de fortes contraintes, qu'il s'agisse des puces ou des pièces de support telles que les condensateurs, de sorte que leur durée de vie peut être réduite à deux ans à peine dans certains cas, du moins à pleine vitesse. Ils peuvent alors fonctionner un peu plus longtemps s'ils sont réduits (vitesse d'horloge maximale limitée, etc.) et utilisés à des fins moins exigeantes, comme les jeux de l'année dernière, mais ils sont en sursis dès qu'ils commencent à commettre des erreurs à vitesse maximale.

Elle ne va donc pas prendre feu, mais je ne parierais pas sur le fait que la carte soit encore fiable après son troisième anniversaire dans cet emploi...

2voto

bpalij Points 21

Comme vous l'avez mentionné, la ventilation est bonne, il n'y a donc pas lieu de s'inquiéter de ce facteur de risque.

En ce qui concerne le GPU, il volonté être porté plus fort que lors d'un travail de bureau habituel de 8 à 16 heures par jour, de sorte qu'en cas d'utilisation à 100 % 24/7/365, il est plus facile à porter. peu probable il pourra fonctionner pendant 5 à 10 ans et plus. Mais il faut aussi tenir compte du fait que le GPU peut avoir une mauvaise conception du système de refroidissement du GPU lui-même (pas du PC en général), une mauvaise conception générale, des bogues de logiciels et de micrologiciels, une mauvaise qualité de production ou des défauts de production de gravité et de taux de défauts différents - des défauts isolés aux défauts massifs. Ces facteurs peuvent aggraver l'échauffement, provoquer une défaillance du système, réduire la durée de vie, provoquer des courts-circuits ou même des pannes. pourrait provoquer un incendie ou vous blesser électriquement. Certains facteurs dépendent du modèle et de la révision, d'autres sont progressivement corrigés par les mises à jour du logiciel/firmware, d'autres encore varient d'un article à l'autre. Il est préférable de choisir des modèles dont la réputation de fiabilité n'est plus à faire et dont la révision est correcte (généralement la plus récente possible). En outre, il peut avoir une mauvaise influence et interférer avec les autres composants, par exemple en générant un bruit de signal électrique/électronique supplémentaire. N'oubliez pas non plus que la pâte thermique peut progressivement perdre ses qualités et aggraver le refroidissement.

Je dois préciser que la carte graphique n'est pas le seul composant à prendre en compte, car un PC est un système complexe dont le bon fonctionnement dépend de l'état de plusieurs composants. Chaque petit composant défectueux, même s'il est inutile et inutilisé, même le lecteur de disquettes ou quelques lumières décoratives peut faire tomber le PC en panne ou causer des problèmes proches de ceux mentionnés à propos du GPU. Par exemple, un mauvais bouton marche/arrêt peut provoquer un arrêt ou un redémarrage. Et maintenant, un peu plus de détails sur les composants clés :

  • CPU : dans votre cas d'utilisation, il est probable qu'il ne soit pas plus sollicité que lors d'un usage quotidien ordinaire et que vous n'ayez absolument pas besoin de l'overclocker. De nos jours, les processeurs sont dotés de tous les mécanismes de défense, tels que l'étranglement et l'arrêt d'urgence, et sont considérés comme assez résistants. N'oubliez pas le refroidisseur et la pâte thermique. très peu probable est le point le plus faible du système.
  • Carte mère : presque la même chose que le CPU, mais il y a une forte utilisation de PCI-e et peut-être une forte utilisation de disques, de réseau et de périphériques, mais il vaut mieux choisir des modèles éprouvés.
  • RAM : C'est le cas très peu probable Ce risque ne mérite donc pas que l'on s'en préoccupe. Il suffit d'en utiliser un bon.
  • Disques : pour les tâches qui reposent sur l'utilisation des disques (comme l'exploration et le traitement des données, l'apprentissage d'un réseau neuronal avec les données sur le disque), les disques durs peuvent devenir un point faible en termes de fiabilité - dans les serveurs et les centres de données, il est assez courant de changer un disque au bout de 1 à 3 ans et il est très rare qu'il "vive" pendant 5 ans ou plus. Vous pouvez utiliser RAID 1 et des systèmes de sauvegarde pour augmenter la fiabilité lors d'une utilisation 24/7/365 (RAID 0 sacrifie la fiabilité à la performance, les autres RAID peuvent prendre beaucoup de temps pour restaurer les données. De plus, RAID != sauvegarde, ne négligez donc pas les sauvegardes, si nécessaire). Lors de l'utilisation d'un disque SSD, les opérations qui nécessitent beaucoup d'écriture sur le disque peuvent dépasser la limite des téraoctets écrits et rendre le disque inutilisable - préférez la limite des téraoctets écrits à d'autres caractéristiques. Le RAID 1 avec des disques SSD peut protéger le système contre les défaillances soudaines d'un disque, mais n'est d'aucune utilité pour le taux TBW. Disque dur ou disque SSD - cela dépend de vos besoins, de votre budget et de votre choix. Il est préférable de choisir des modèles dont la réputation de fiabilité n'est plus à faire et qui ont fait l'objet d'une révision appropriée (généralement la plus récente possible).
  • Bloc d'alimentation : il est fortement utilisé par une carte graphique et s'use donc plus intensément - il est donc préférable de choisir des modèles dont la réputation de fiabilité n'est plus à faire, avec une révision appropriée (généralement la plus récente possible) et une puissance au moins 1,5 fois supérieure à la consommation globale du système ou au moins 2 à 2,5 fois supérieure à celle des principaux consommateurs d'énergie (tels que le GPU et le CPU). Veillez à utiliser un bon câble 220V AC, en raison des problèmes suivants les mauvais câbles 220V AC sont susceptibles de provoquer des courts-circuits, des chocs électriques ou des brûlures (ils peuvent simplement dégager de la fumée et s'autodétruire ou déclencher un véritable incendie) !
  • Ventilateurs : bien qu'ils puissent sembler insignifiants, ils sont cruciaux dans de tels cas d'utilisation et leur défaillance constitue un problème majeur pour les systèmes fonctionnant 24/7/365. En règle générale, installez-en autant que possible, mais tenez également compte de leur taille - les plus grands sont plus silencieux et plus efficaces, tandis que les plus petits peuvent, dans certains cas, être installés en plus grand nombre, de sorte que la défaillance d'un seul ventilateur sera moins douloureuse pour le système - à vous de choisir.
  • Systèmes de refroidissement exotiques : le refroidissement par eau est considéré comme compact et efficace dans les systèmes overclockés à haute température, mais les fuites d'eau peuvent endommager gravement les composants de l'ordinateur. Les systèmes à l'azote congelé sont extrêmement efficaces, mais il est probable qu'ils ne soient pas nécessaires, mais ils sont plus encombrants et plus chers.

Les systèmes et composants professionnels d'entreprise 24/7/365 sont mieux conçus pour cela et disposent d'une réserve sur tous les composants, même les CPU et les BIOS, et permettent le remplacement à chaud des composants ou des modules, mais même eux n'offrent pas un temps de fonctionnement de 100 % (proche, mais pas égal), les cartes professionnelles Nvidia sont plus rapides pour CUDA (en particulier les réseaux neuronaux), mais je ne pense pas que cela corresponde à votre cas d'utilisation.

L'assemblage du système n'est pas moins important que les composants eux-mêmes. N'oubliez pas une seule action, ne faites pas d'erreur, ne rendez pas un PC stupide et tout ira bien.

Assurez-vous qu'aucun logiciel n'arrêtera de force, ne redémarrera le PC ou ne tuera le processus. Si vous êtes un utilisateur de Win10, vous pensez peut-être qu'il n'y a aucun moyen de désactiver complètement les mises à jour, mais il existe des solutions de contournement et des logiciels sur le web pour cela (Attention : cela peut violer le contrat de licence d'utilisateur final).

Les périphériques peuvent également causer des problèmes, tout comme les composants du PC. Par exemple, une souris défectueuse ou usée peut enregistrer une pression sur un bouton alors qu'il n'y en a pas.

Sur les principales circonstances extérieures :

  • L'électricité : J'espère que l'électricité dans votre maison est très fiable et stable, car une coupure d'électricité peut vous faire perdre les résultats de votre travail. En cas de problèmes électriques de courte durée, l'onduleur peut vous aider, mais en cas de problèmes de plus longue durée, il ne vous donnera que le temps d'hiberner le système ou de sauvegarder correctement vos progrès.
  • Réseau : si votre tâche dépend de l'internet ou d'une connexion réseau, vérifiez si les câbles/modem/routeur sont en bon état.

En résumé : Il n'existe aucune garantie solide que tout se passera bien (littéralement, seule la mort est garantie) et, de toute façon, vous devez accepter les risques (ils jamais sera égal à zéro), mais un bon choix de composants, un assemblage correct et l'absence de malchance en achetant des composants défectueux vous permettent d'utiliser le PC de cette manière avec un risque moindre, alors l'auteur de la question supposait initialement, à moins que vous ne le fassiez pendant des années et des années et que vous attendiez une fiabilité pendant 5, 10 ans et plus.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X