Catégories
Start-up et applications

Le monde moderne de la surveillance des applications

La surveillance des performances des applications est plus importante que jamais, en raison de la complexité croissante des applications logicielles, des architectures et de l'infrastructure qui les exécute.

Lorsque les outils de surveillance ont été développés pour la première fois, les systèmes qu'ils examinaient étaient assez simples – il s'agissait d'une application monolithique, exécutée dans un centre de données appartenant à l'entreprise, sur un réseau. L'idée était de regarder la télémétrie – Pourquoi les temps de réponse étaient-ils si bas? Pourquoi l’application n’était-elle pas disponible? – analyser les signaux entrés et trouver la bonne personne pour résoudre le problème. Et, dans un monde où la «gratification instantanée» n’était pas encore une chose, les utilisateurs ne hurleraient pas s’il fallait du temps pour résoudre le problème. Les applications n'étaient pas un moteur d'activité à l'époque, elles étaient perçues comme un support pour les entreprises.

Aujourd'hui, avec l'explosion des microservices, conteneurs, infrastructures cloud et appareils sur lesquels accéder aux applications, les anciens outils APM ne sont pas à la hauteur de la complexité. Et les utilisateurs ne toléreront certainement pas les réponses lentes ou les paniers d'achat défaillants.

CONTENU CONNEXE:
Observabilité: tout dépend des données
APM: ce que cela signifie dans le monde complexe des logiciels d'aujourd'hui

Ce guide examinera deux fournisseurs de logiciels de surveillance qui ont créé des solutions abordant le problème sous différents angles, et ce qu'ils considèrent comme nécessaire pour surveiller efficacement les performances des applications d'aujourd'hui.

Catchpoint Le PDG Mehdi Daoudi a inversé la façon dont l'industrie devrait considérer la surveillance sur sa tête, sous deux angles. Premièrement, les outils APM hérités sont obsédés par ce qui se passe en interne – où se trouve le mauvais code ou quelle partie du réseau est lente. Aujourd'hui, les organisations doivent comprendre l'expérience utilisateur, puis en déduire où se situe le problème. La surveillance de l'expérience numérique, ce que propose Catchpoint, prend une vue extérieure des performances des applications, où d'autres regardent les internes pour essayer de comprendre ce que le client vit.

Deuxièmement, Daoudi pense que l'idée d'acheter des solutions de surveillance avant de comprendre quel problème l'entreprise tente de résoudre est à l'envers. Il a déclaré à SD Times que les entreprises devraient d'abord identifier les problèmes qui existent dans leurs systèmes, puis appliquer des outils à cela.

Lightstep Le directeur technique et co-fondateur Daniel «Spoons» Spoonhower a déclaré que la douleur de trouver et de résoudre les problèmes de performances des applications n'avait pas changé depuis… enfin, pour toujours. Les technologies ont changé, les organisations ont changé et les outils de surveillance doivent changer. Il a déclaré que la promesse d'APM est d'utiliser les données pour pouvoir expliquer ce qui se passe, donc la collecte de données devient critique.Il est important que les outils de surveillance actuels présentent le contexte aux ingénieurs et devraient mettre l'accent sur le traçage comme moyen d'obtenir ce contexte et de commencer à comprendre les relations causales et les dépendances qui sont à l'origine des problèmes et des défaillances du système, a-t-il déclaré.

Lightstep adopte une vision résolument inversée de la surveillance, mais permet des intégrations avec d'autres types d'outils de surveillance pour compléter l'offre, y compris l'expérience utilisateur.

Complexité des logiciels et des systèmes
La technologie est devenue plus complexe, comme indiqué ci-dessus. Mais tout comme les équipes de développement individuelles travaillent sur des pièces plus petites du puzzle global de l'application, c'est la configuration de ces équipes – travaillant de manière autonome sur leur projet, pas nécessairement concernées par les autres parties – qui rend plus difficile la recherche de la cause profonde de problèmes.

"Si je suis juste assis seul dans mon garage à gérer des centaines de microservices, (la surveillance) n'est probablement pas pire", a déclaré Spoonhower. «Je pense que ce qui s'est passé, c'est que les microservices ont permis à ces équipes de travailler de manière indépendante, alors maintenant vous ne faites pas qu'une seule version par semaine; votre organisation fait 20 ou 30 sorties par jour. … Je pense qu'il s'agit davantage de couches de propriété distincte où vous, en tant que propriétaire de services individuel, ne pouvez contrôler que votre seul service. C’est la seule chose que vous pouvez vraiment faire reculer. Mais vous dépendez de toutes ces autres choses et de tous ces autres changements qui se produisent en même temps – changements en termes d'utilisateurs, changements en termes d'infrastructure, d'autres services, fournisseurs tiers – et l'écart où les outils sont vraiment en baisse a plus à voir avec le changement organisationnel qu'avec le fait que nous fonctionnons dans des conteneurs Docker. »

Daoudi a convenu que la fragmentation est un obstacle majeur à la compréhension de ce qui se passe dans les performances des logiciels. Il a utilisé l'image de six personnes aux yeux bandés et d'un éléphant pour la décrire. Une personne attrape sa queue et pense qu'il a une corde. L'un tient une défense et pense que c'est une lance en quelque sorte. L'un touche son côté massif et pense que c'est un mur. Aucun d'entre eux, cependant, ne peut comprendre que ce qu'ils touchent font partie de quelque chose de beaucoup plus grand. Ils ne peuvent pas voir ça.

"Quand vous y pensez, disons que vous et moi dirigeons cette entreprise et nous avons une plate-forme de commerce électronique. Nous l'exécutons sur Google Cloud. Notre infrastructure est Google Cloud, nous avons construit nos services, le panier d'achat, l'inventaire, nous nous connectons à UPS pour expédier des T-shirts à des personnes. Vous devez comprendre l'environnement sur lequel cela fonctionne, puis vous avez les composants de Google Cloud qui ne sont pas disponibles pour vous. Mais lorsque vous songez à fournir cette page Web à un utilisateur de Portland afin qu'il puisse acheter un T-shirt, regardez combien il lui faut passer. Ils doivent passer par T-Mobile à Seattle, par Internet, et nous utilisons probablement NS-1 pour notre réseau, et sur nos sites, nous suivons certaines annonces et faisons des tests A / B. Le défi de la surveillance est, et pourquoi il est toujours si difficile de capturer l'image complète de l'éléphant, c'est que c'est un complexe flippant. Je ne peux pas inventer ça. C'est juste très complexe. Il n'y a rien d'autre. "

L'observabilité est un bon début
L'objectif de la surveillance, a déclaré Daoudi, est de pouvoir comprendre ce qui est cassé, pourquoi il est cassé et où il est cassé. C’est là que l’observabilité entre en jeu. Catchpoint définit l’observabilité comme «une mesure de la façon dont les états internes d’un système peuvent être déduits de la connaissance de sa sortie externe». Catchpoint a créé observability.com pour résoudre ce problème et, comme Daoudi l'a noté, l'observabilité est une façon de faire les choses – pas un outil.

Spoonhower a décrit l'observabilité comme donnant aux organisations un moyen de naviguer rapidement de l'effet à la cause. «Vos utilisateurs se plaignent que votre service est lent, vous venez d'être paginé parce qu'il est en panne, vous devez pouvoir rapidement – en tant que développeur, en tant qu'opérateur – revenir de l'effet à la cause première, même s'il pouvait être des dizaines de milliers, voire des millions, de différentes causes profondes potentielles », a-t-il déclaré. "Vous devez être en mesure de le faire en quelques clics de souris."

Et c'est pourquoi l'utilisation de l'intelligence artificielle et de l'apprentissage automatique gagne en importance. Aujourd'hui, avec les quantités massives de données collectées, il est déraisonnable de croire que les humains peuvent tout digérer et prendre les bonnes décisions à partir de tout le bruit entrant. "Je pense que tout ce qui contient de l'IA va être dans une certaine mesure", Dit Spoonhower. «Pour moi, ce qui est vraiment critique ici, et ce qui, selon moi, a fondamentalement changé en termes de fonctionnement des outils APM, c'est que nous ne nous attendons pas à ce que les humains tirent toutes les conclusions. Il y a trop de signaux, trop de données, pour qu'un être humain puisse s'asseoir et regarder un tableau de bord et utiliser son intuition pour essayer de comprendre ce qui se passe dans le logiciel. Nous devons appliquer une sorte de ML ou AI ou d'autres algorithmes pour aider à passer au crible tous les signaux et à trouver ceux qui sont pertinents. »

Daoudi a déclaré que l'observabilité se concentre sur la collecte de la télémétrie et la mise en un seul endroit où elle peut être corrélée. «AIOps est un mot de fantaisie pour ce que vous et moi rappelons probablement comme corrélation d'événement dans la journée, non? C’est un ensemble de règles. Vous devez définir les dépendances .. cette application fonctionne sur ce serveur, ou ce conteneur… peu importe. Si vous ne comprenez pas, alors tout cela n'est que des signaux, plus d'alertes, plus de gens se fatiguent de répondre à 2 heures du matin aux alarmes, ou ne voient pas du tout le problème. "

À la complexité technique s'ajoute le fait que les équipes changent et sont réorganisées, et que les services ne sont pas statiques. Spoonhower a déclaré: «Établir et maintenir la propriété du service, et comprendre ce que c'est, je pense, est une sorte de problème à double tranchant, à la fois du point de vue du leadership où vous essayez de comprendre, attendez, je connais ce service ici fait partie du problème, mais à qui dois-je en parler? De l'autre côté, des équipes, ce que j'ai vu, c'est que les équipes recevront souvent quelques services qui leur ont été laissés par une réorganisation ou quelqu'un qui est resté, et c'est une position vraiment stressante car, à un certain niveau, ils ont le contrôle, mais ils n'ont pas les connaissances nécessaires pour le faire, c'est donc l'autre endroit où un outil d'observation peut entrer en jeu, dans le cadre de la responsabilisation des équipes et de leur fournir des informations qui ne sont pas nécessaires pour vivre à travers la connaissance tribale. Il devrait y avoir un moyen, lorsque je suis paginé, d’obtenir rapidement une vue de la façon dont ce service se comporte et de la façon dont il interagit avec d’autres services, même si je ne suis pas un expert du code. "

La collecte de données, et leur mise en un seul endroit pour être en mesure de «relier les points» et voir la vue d'ensemble, est ce que les outils de surveillance de modem apportent à la table.

«Le plus gros problème que je vois avec la surveillance n'est pas trop d'alertes; il manque en fait le tout », a déclaré Daoudi. En regardant les mesures individuelles sans avoir une vue globale des applications et du système, vous pourriez détecter un tremblement quelque part mais manquer un tremblement de terre plus important. Ou vous voyez un moteur d'avion commencer à tomber en panne et travailler pour résoudre ce problème, mais vous manquez le fait que les composants externes dont dépend le moteur ont également échoué et ont entraîné un crash.

Les outils ne sont qu'une partie de la solution
Spoonhower et Daoudi ont rapidement souligné que les outils sont importants pour la surveillance, mais ce ne sont que des outils.

Au cœur de la surveillance se trouve le besoin pour les organisations de comprendre rapidement pourquoi les versions échouent ou pourquoi les performances ont baissé. Spoonhower a déclaré: «Je pense que la douleur est que les coûts pour y parvenir sont assez élevés, soit en termes de dollars bruts si vous payez un fournisseur, soit si vous payez pour que l'infrastructure exécute votre propre solution; ou juste le temps qu'il faut à un ingénieur pour… ils ont fait un déploiement, et maintenant ils vont s'asseoir et regarder un tableau de bord pendant 20 ou 30 minutes. C'est beaucoup de temps où ils pourraient faire autre chose. "

Il a déploré le fait que l'approche APM héritée soit centrée sur les outils. «Même les noms, comme les journaux, ne sont pas une solution à un problème; c'est un outil dans votre ceinture à outils », a déclaré Spoonhower. "Les paramètres… c'est une sorte de données, et je pense que la façon dont nous y pensons et je pense que la bonne façon de penser est, quels problèmes les gens essaient-ils de résoudre? Ils essaient de comprendre la cause profonde de cette panne, afin de pouvoir la faire reculer et se rendormir. Et donc, en nous concentrant un peu plus sur les flux de travail, nous trouverons comme solution les bonnes données pour vous aider à résoudre le problème. Ce n'est pas à vous de dire: «Ahh, c'est un problème de métrique; Je devrais utiliser mon outil de mesure. Ou c'est un problème de journalisation; utilisez l'outil de journalisation. "Non. C'est un problème de déploiement, c'est un problème d'incident, c'est un problème de panne."

Daoudi de Catchpoint a déclaré que les gens s'attendaient de façon déraisonnable à pouvoir simplement octroyer une licence à un seul outil pouvant couvrir tous les aspects de la surveillance. "Il n'y a pas d'outil unique qui fait tout cela", a-t-il déclaré. «La plus grande erreur que les gens font, c'est qu'ils obtiennent d'abord l'outil, puis ils posent des questions plus tard. Vous devriez demander: «Qu'est-ce que je veux que mes outils de surveillance m'aident à répondre?», Puis vous commencez à mettre en œuvre un outil de surveillance. Quelle est la question, puis vous collectez des données pour répondre à la question. Vous ne collectez pas de données pour poser plus de questions. C’est une boucle infinie.

"Je dis aux clients, avant d'aller investir des milliards de dollars dans un ensemble d'outils très coûteux, pourquoi ne commencez-vous pas par comprendre ce que vos clients ressentent en ce moment", a poursuivi Daoudi. "C’est là que nous jouons un grand rôle, dans le sens de" laissez-moi vous dire d’abord l’ampleur du problème ". Oh, vous avez 27% de disponibilité. C’est un gros problème. »Ensuite, vous pouvez investir dans les outils qui peuvent vous montrer pourquoi vous avez une disponibilité de 27%. Acheter des outils pour acheter des outils n'aide pas. "

Tout sur le client
Le monde de la technologie joue un rôle plus important dans la conduite des résultats commerciaux, de sorte que les systèmes créés et contrôlés doivent placer les intérêts des clients avant tout. Pour les détaillants, par exemple, les clients n'obtiennent pas le plus souvent leur première impression de votre marque en entrant dans un magasin – ce qui est particulièrement vrai aujourd'hui avec la nouvelle pandémie de coronavirus dans laquelle nous vivons. Ils obtiennent leurs premières impressions de votre site Web ou de votre application mobile.

«Beaucoup de gens parlent d’orientation client. Les équipes informatiques deviennent plus centrées sur le client », a expliqué Daoudi. «Observabilité. SRE. Mais prenons un peu de recul. Pourquoi faisons-nous tout cela? C’est pour ravir nos clients, nos employés, de ne pas perdre leur temps. Si vous voulez acheter quelque chose sur Amazon, la raison pour laquelle vous revenez sur Amazon est qu'ils ne perdent pas notre temps. Cela fonctionne, leur site Web est rapide, vous cliquez sur ajouter, vous cliquez sur le paiement et c'est parti.

"Et c'est pourquoi il est important de toujours surveiller où se trouvent vos clients", a-t-il poursuivi. "Ensuite, vous pouvez déduire ce qui est cassé du point de vue d'un client. Et puis, vous le liez à tous les internes. Par exemple, si je ressentais une douleur au bras en ce moment et que je me rendais chez un micro-neurochirurgien, il demanderait: «Pourquoi venez-vous chez moi? Je ne sais pas ce que tu as. Vous devriez consulter votre médecin habituel. Êtes-vous prêt à subir une intervention chirurgicale au bras? Je peux enlever votre doigt, vous vous sentirez mieux. "Mais d'abord, j'ai mal, je fais une radiographie, je vois ce qui ne va pas et je trouve le bon médecin pour en prendre soin."

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *