1 votes

Comment puis-je "aplatir" un nuage de points PDF avec de nombreux points générés avec R ?

J'ai un nuage de points que j'ai généré avec R, il montre plusieurs milliers de points qui se chevauchent. J'ai besoin d'annoter graphiquement le graphique généré, au format PDF, avec Inkscape. Cependant, il est tout simplement impossible de travailler avec ce fichier car il y a trop de points (Inkscape se bloque, devient trop lent pour travailler, les points sont très difficiles à sélectionner, etc.)

Je veux "aplatir" le PDF, c'est-à-dire supprimer toutes les informations qui ne sont pas affichées de toute façon (points cachés sous des tas d'autres points, etc.).

Je veux toujours conserver les informations vectorielles, je ne veux pas rastériser la figure.

Cela doit être fait avec des outils librement disponibles, et je n'ai pas Acrobat X.

J'ai cherché l'aplatissement de PDF dans un contexte bash/linux, mais je trouve ensuite des outils concernés par le traitement de formulaires PDF, ce qui est un sujet absolument différent.

4voto

Breakthrough Points 33693

C'est l'exemple parfait d'un excellent problème à résoudre, mais de la mauvaise question à poser. Vous travaillez déjà avec les données d'entrée dans R, alors pourquoi ne pas les traiter là ? Le PDF est essentiellement binaire, donc vous n'avez aucune chance de faire quoi que ce soit avec lui en l'état.

Votre meilleure chance est de prétraiter les données dans R avant de créer le PDF (c'est pour cela que R a été créé, après tout). La meilleure façon de résoudre ce problème serait de faire une boucle dans vos données d'entrée, et de supprimer tous les autres points partageant les mêmes coordonnées dans un certain seuil. Je l'intégrerais dans une fonction, afin que vous puissiez expérimenter avec différents seuils - mais je suis sûr que vous comprenez l'idée.

Ne compliquez pas trop les choses en introduisant des niveaux d'abstraction inutiles et des formats de fichiers supplémentaires. Vous avez déjà les données , travailler avec les données .


Je pense que les questions suivantes de Stack Overflow peuvent vous aider :

comment supprimer les doublons partiels d'un cadre de données ?

Identifier les données dupliquées avec un seuil


Enfin, vous pouvez envisager d'utiliser une carte thermique, le cas échéant, car elle permet d'afficher les mêmes informations (la couleur représentant la densité des points dans certaines zones) sans avoir à rendre chaque point de données individuellement.

2 votes

Il n'y a pas de mauvaises questions à poser et votre "réponse" est juste condescendante et non constructive.

2 votes

@gojira En tant que personne travaillant avec un ensemble de données dans R, ne pensez-vous pas que le moyen le plus simple serait de générer simplement un nuage de points avec moins de points ? Cela résoudrait littéralement tous les problèmes que vous avez décrits dans votre question. Je pense que ma réponse fournit une solution optimale à ce que vous voulez. Si vous n'êtes pas disposé à envisager au moins une telle solution, alors je dirais que cette question n'est pas constructive en l'état.

0 votes

Cela ne fonctionnerait pas pour les graphiques GWAS Manhattan, chaque point a sa position x et y unique, pas de doublons.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X