Wednesday, November 8, 2017

Big Data, données rapides, données intelligentes pour des décisions pertinentes en temps réel



BIG DATA(LES DONNÉES VOLUMINEUSES) doivent être rapides et intelligentes. Voici pourquoi.

Chaque minute, 48 heures de vidéo sont téléchargées sur YouTube. 204 millions de messages électroniques sont envoyés et 600 nouveaux sites Web générés. 600 000 contenus sont partagés sur Facebook et plus de 100 000 tweets sont envoyés. Et cela ne commence même pas à égratigner la surface de la génération de données, qui s'étend aux capteurs, dossiers médicaux, bases de données d'entreprise, et plus encore.
Comme nous enregistrons et générons une quantité croissante de données à chaque milliseconde, nous devons également être en mesure de comprendre ces données tout aussi rapidement. De la surveillance du trafic au suivi des spreads d'épidémie en passant par les stocks de trading, le temps est essentiel. Un retard de quelques secondes dans la compréhension de l'information pourrait coûter non seulement des fonds, mais aussi des vies.
Le Big Data n'est pas une bulle qui attend d'éclater
Bien que "Big Data" a été récemment considéré comme un mot à la mode overhyped, il ne va pas disparaître de sitôt. La surcharge d'information est un phénomène et un défi auxquels nous sommes confrontés maintenant, et nous continuerons inévitablement à faire face, peut-être avec une sévérité accrue, au cours des prochaines décennies. En fait, l'analyse de données à grande échelle, la modélisation prédictive et la visualisation sont de plus en plus cruciales pour que les entreprises des secteurs de la haute technologie et du grand public puissent survivre. Les capacités de Big Data sont un besoin, pas un voeu aujourd'hui.
"Big Data" est un terme général qui englobe une variété d'angles. Il existe des défis complexes au sein des «Big Data» qui doivent être hiérarchisés et traités - tels que «Fast Data» et «Smart Data».
Smart Data
"Smart Data" signifie des informations qui ont du sens. C'est la différence entre voir une longue liste de chiffres se référant aux ventes hebdomadaires vs identifier les pics(sommets) et les creux du volume des ventes au fil du temps. Les algorithmes transforment des nombres sans signification en idées exploitables. Les données intelligentes sont des données à partir desquelles des signaux et des modèles ont été extraits par des algorithmes intelligents. La collecte de grandes quantités de statistiques et de chiffres apporte peu d'avantages s'il n'y a pas de niveau d'intelligence supplémentaire.
Décisions instantanées
Par "Fast Data", nous parlons d'informations ponctuelles permettant une prise de décision en temps réel. Une agence de relations publiques doit savoir comment les gens parlent des marques de leurs clients en temps réel afin d'atténuer les mauvais messages en les mordant dans l'œuf. Quelques minutes trop tard et les messages viraux sont peut-être indéfinissables. Une entreprise de vente au détail doit savoir comment sa dernière collection se vend dès sa sortie. Les agents de santé publique doivent comprendre les flambées de maladies afin de pouvoir agir pour enrayer la propagation. Une banque doit rester au fait des situations géopolitiques et socio-économiques pour prendre les meilleures décisions d'investissement avec une stratégie globale-macro. Une entreprise de logistique doit savoir comment une catastrophe publique ou un détournement de route affecte l'infrastructure de transport afin qu'ils puissent réagir en conséquence. La liste continue, mais une chose est claire:
Aller en temps réel ou aller obsolète
Les données rapides signifient des informations en temps réel, ou la possibilité d'obtenir des informations à partir des données au fur et à mesure qu'elles sont générées. C'est littéralement comme les choses arrivent. Pourquoi les données en streaming sont-elles si chaudes en ce moment? Parce que le temps de vision est de plus en plus crucial et joue souvent un rôle important dans la prise de décision intelligente et éclairée.
En plus de l'avance commerciale évidente qu'une entreprise tire de sa connaissance exclusive des informations sur le présent ou même l'avenir, les données en continu bénéficient également d'un avantage d'infrastructure.
Avec le big data, il y a des aspects techniques à aborder, dont le problème complexe et coûteux du stockage de données. Mais le stockage de données n'est requis que dans les cas où les données doivent être archivées historiquement. Plus récemment, alors que de plus en plus de données en temps réel sont enregistrées avec l'apparition de capteurs, de téléphones mobiles et de plateformes de médias sociaux, l'analyse en continu à la volée est suffisante et le stockage de toutes ces données est inutile.
Streaming vs stockage, et la date d'expiration des données
Les données historiques sont utiles pour la détection de modèle rétroactif, mais il existe de nombreux cas dans lesquels les analyses de données en temps réel sont plus utiles. Les exemples incluent la détection de contrôle de qualité dans les usines de fabrication, la surveillance météorologique, la propagation des épidémies, le contrôle du trafic, et plus encore. Vous devez agir sur la base des informations arrivant par seconde. La redirection du trafic autour d'un nouveau projet de construction ou d'une grosse tempête nécessite que vous connaissiez le trafic actuel et la situation météorologique, par exemple, rendant les informations de la semaine dernière inutiles.
Lorsque le type de données qui vous intéresse ne nécessite pas d'archivage, ou seulement l'archivage sélectif, il n'est pas logique de prendre en charge l'infrastructure de stockage de données qui stockerait toutes les données historiquement.
Imaginez que vous vouliez écouter des tweets négatifs sur Justin Bieber. Vous pouvez soit stocker des tweets historiques sur la pop star, soit analyser des tweets en streaming sur lui. L'enregistrement de l'histoire entière de Twitter juste à cette fin coûterait des dizaines de milliers de dollars en coûts de serveur, sans parler des exigences physiques de la RAM pour traiter les algorithmes à travers ce stock massif d'informations.
Il est crucial de savoir quel type de données vous possédez et ce que vous voulez analyser afin de choisir une solution d'analyse de données flexible pour répondre à vos besoins. Parfois, les données doivent être analysées à partir du flux, pas stockées. Avons-nous besoin d'une infrastructure de cloud massive si nous n'avons pas besoin de données persistantes? Peut-être avons-nous besoin de plus d'infrastructures de données non persistantes qui permettent des données qui ne doivent pas être stockées éternellement.
TTL (Time-To-Live) de données peut être défini de sorte qu'il expire après un certain laps de temps, ce qui élimine le fardeau de vos capacités de stockage de données. Par exemple, les données sur les ventes de votre entreprise d'il y a deux ans pourraient ne pas être pertinentes pour prédire les ventes de votre entreprise aujourd'hui. Et que des données non pertinentes et périmées devraient être mises au repos en temps opportun. Comme la thésaurisation compulsive est inutile et souvent un obstacle au mode de vie des gens, il en va de même pour le stockage des données.
Au-delà du traitement par lots
En plus de déterminer les cycles de vie des données, il est également important de réfléchir à la façon dont les données doivent être traitées. Regardons les options pour le traitement des données, et le type de données appropriées pour chacun.
Traitement par lots: Le traitement par lots signifie qu'une série de tâches non interactives sont exécutées par l'ordinateur en une fois. Lorsque vous faites référence au traitement par lots pour l'analyse des données, cela signifie que vous devez alimenter manuellement les données sur l'ordinateur, puis émettre une série de commandes que l'ordinateur exécute ensuite en même temps. Il n'y a pas d'interaction avec l'ordinateur pendant l'exécution des tâches. Si vous avez une grande quantité de données à analyser, par exemple, vous pouvez commander les tâches dans la soirée et l'ordinateur analysera les données pendant la nuit, vous livrant les résultats le lendemain matin. Les résultats de l'analyse des données sont statiques et ne changeront pas si les ensembles de données d'origine changent - c'est-à-dire à moins qu'une toute nouvelle série de commandes d'analyse ne soit envoyée à l'ordinateur.
Analyse de données en temps réel: Avec l'analyse de données en temps réel, vous obtenez des résultats actualisés chaque fois que vous interrogez quelque chose. Vous obtenez des réponses en temps quasi réel avec les données les plus récentes jusqu'au moment où la requête a été envoyée. Similaire au traitement par lots, l'analyse en temps réel nécessite que vous envoyiez une commande "query" à l'ordinateur, mais la tâche est exécutée beaucoup plus rapidement et le magasin de données est automatiquement mis à jour lorsque de nouvelles données arrivent.
Analyse en continu: à la différence des analyses par lots et en temps réel, l'analyse des flux signifie que l'ordinateur met automatiquement à jour les résultats de l'analyse des données lorsque de nouvelles données circulent dans le système. Chaque fois qu'une nouvelle information est ajoutée, les signaux sont mis à jour pour tenir compte de ces nouvelles données. L'analyse en continu fournit automatiquement les signaux tels qu'ils se produisent à partir des données entrantes sans qu'il soit nécessaire de demander manuellement quoi que ce soit.
Calcul en temps réel, réparti, tolérant aux pannes
Comment pouvons-nous traiter de grandes quantités de données en temps réel de manière transparente, sécurisée et fiable?
Un moyen d'assurer la fiabilité et de réduire les coûts est l'informatique distribuée. Au lieu d'exécuter des algorithmes sur une machine, nous exécutons un algorithme sur 30 à 50 machines. Cela répartit la puissance de traitement requise et réduit le stress sur chacun.
L'informatique tolérante aux pannes garantit que dans un réseau réparti, si l'un des ordinateurs tombe en panne, un autre ordinateur prendra en charge le travail de l'ordinateur bâclé de manière transparente et automatique. Cela garantit que chaque élément de données est traité et analysé, et qu'aucune information n'est perdue même en cas de panne d'un réseau ou d'un matériel.
À une époque où le temps de compréhension est essentiel dans diverses industries, nous devons réduire le temps de compréhension de quelques semaines à quelques secondes.
La collecte de données analogiques traditionnelles a pris des mois. La police de la circulation ou les médecins noteraient des informations sur les infections des patients ou les accidents de conduite avec facultés affaiblies, et ces formulaires seraient ensuite envoyés à un centre qui regrouperait toutes ces données. Au moment où tous ces détails ont été mis dans un document, un mois s'était écoulé depuis l'apparition d'une nouvelle maladie ou d'un problème de comportement de conduite. Maintenant que les données numériques sont rapidement agrégées, nous avons l'opportunité de donner un sens à cette information aussi rapidement.
Cela nécessite d'analyser des millions d'événements par seconde par rapport à des algorithmes d'apprentissage formés qui détectent des signaux provenant de grandes quantités de données réelles, comme si l'on cherchait rapidement des aiguilles dans une botte de foin. En fait, c'est comme trouver les aiguilles au moment où elles sont déposées dans la botte de foin.
En quoi l'analyse de données en temps réel est-elle utile? Les applications vont de la détection de produits défectueux dans une ligne de fabrication à la prévision des ventes à la surveillance du trafic, entre autres. Ces prochaines années accueilleront un âge d'or non pas pour d'anciennes données, mais pour des données rapides et intelligentes. Un âge d'or pour les idées concrètes à réaliser.

A propos de l’Auteur
Alissa Lorentz est vice-présidente de la création, du marketing et du design chez Augify. 

No comments:

Post a Comment