BIG DATA(LES
DONNÉES VOLUMINEUSES) doivent être rapides et
intelligentes. Voici pourquoi.
Chaque minute, 48 heures de vidéo sont
téléchargées sur YouTube. 204 millions de messages électroniques sont
envoyés et 600 nouveaux sites Web générés. 600 000 contenus sont partagés
sur Facebook et plus de 100 000 tweets sont envoyés. Et cela ne commence
même pas à égratigner la surface de la génération de données, qui s'étend aux
capteurs, dossiers médicaux, bases de données d'entreprise, et plus encore.
Comme nous enregistrons et générons
une quantité croissante de données à chaque milliseconde, nous devons également
être en mesure de comprendre ces données tout aussi rapidement. De la
surveillance du trafic au suivi des spreads d'épidémie en passant par les
stocks de trading, le temps est essentiel. Un retard de quelques secondes
dans la compréhension de l'information pourrait coûter non seulement des fonds,
mais aussi des vies.
Le Big Data n'est pas une bulle qui attend d'éclater
Bien que "Big Data" a été
récemment considéré comme un mot à la mode overhyped, il ne va pas disparaître
de sitôt. La surcharge d'information est un phénomène et un défi auxquels
nous sommes confrontés maintenant, et nous continuerons inévitablement à faire
face, peut-être avec une sévérité accrue, au cours des prochaines décennies. En
fait, l'analyse de données à grande échelle, la modélisation prédictive et la
visualisation sont de plus en plus cruciales pour que les entreprises des
secteurs de la haute technologie et du grand public puissent survivre. Les
capacités de Big Data sont un besoin, pas un voeu aujourd'hui.
"Big Data" est un terme
général qui englobe une variété d'angles. Il existe des défis complexes au
sein des «Big Data» qui doivent être hiérarchisés et traités - tels que «Fast
Data» et «Smart Data».
Smart Data
"Smart Data" signifie des
informations qui ont du sens. C'est la différence entre voir une longue
liste de chiffres se référant aux ventes hebdomadaires vs identifier les pics(sommets)
et les creux du volume des ventes au fil du temps. Les algorithmes
transforment des nombres sans signification en idées exploitables. Les
données intelligentes sont des données à partir desquelles des signaux et des
modèles ont été extraits par des algorithmes intelligents. La collecte de
grandes quantités de statistiques et de chiffres apporte peu d'avantages s'il
n'y a pas de niveau d'intelligence supplémentaire.
Décisions instantanées
Par "Fast Data", nous
parlons d'informations ponctuelles permettant une prise de décision en temps
réel. Une agence de relations publiques doit savoir comment les gens
parlent des marques de leurs clients en temps réel afin d'atténuer les mauvais
messages en les mordant dans l'œuf. Quelques minutes trop tard et les
messages viraux sont peut-être indéfinissables. Une entreprise de vente au
détail doit savoir comment sa dernière collection se vend dès sa sortie. Les
agents de santé publique doivent comprendre les flambées de maladies afin de
pouvoir agir pour enrayer la propagation. Une banque doit rester au fait
des situations géopolitiques et socio-économiques pour prendre les meilleures
décisions d'investissement avec une stratégie globale-macro. Une
entreprise de logistique doit savoir comment une catastrophe publique ou un
détournement de route affecte l'infrastructure de transport afin qu'ils
puissent réagir en conséquence. La liste continue, mais une chose est
claire:
Aller en temps réel ou aller obsolète
Les données rapides signifient des
informations en temps réel, ou la possibilité d'obtenir des informations à
partir des données au fur et à mesure qu'elles sont générées. C'est
littéralement comme les choses arrivent. Pourquoi les données en streaming
sont-elles si chaudes en ce moment? Parce que le temps de vision est de
plus en plus crucial et joue souvent un rôle important dans la prise de
décision intelligente et éclairée.
En plus de l'avance commerciale
évidente qu'une entreprise tire de sa connaissance exclusive des informations
sur le présent ou même l'avenir, les données en continu bénéficient également
d'un avantage d'infrastructure.
Avec le big data, il y a des aspects
techniques à aborder, dont le problème complexe et coûteux du stockage de
données. Mais le stockage de données n'est requis que dans les cas où les
données doivent être archivées historiquement. Plus récemment, alors que
de plus en plus de données en temps réel sont enregistrées avec l'apparition de
capteurs, de téléphones mobiles et de plateformes de médias sociaux, l'analyse
en continu à la volée est suffisante et le stockage de toutes ces données est
inutile.
Streaming vs stockage, et la date d'expiration des données
Les données historiques sont utiles
pour la détection de modèle rétroactif, mais il existe de nombreux cas dans
lesquels les analyses de données en temps réel sont plus utiles. Les
exemples incluent la détection de contrôle de qualité dans les usines de
fabrication, la surveillance météorologique, la propagation des épidémies, le
contrôle du trafic, et plus encore. Vous devez agir sur la base des
informations arrivant par seconde. La redirection du trafic autour d'un
nouveau projet de construction ou d'une grosse tempête nécessite que vous
connaissiez le trafic actuel et la situation météorologique, par exemple,
rendant les informations de la semaine dernière inutiles.
Lorsque le type de données qui vous
intéresse ne nécessite pas d'archivage, ou seulement l'archivage sélectif, il
n'est pas logique de prendre en charge l'infrastructure de stockage de données
qui stockerait toutes les données historiquement.
Imaginez que vous vouliez écouter des
tweets négatifs sur Justin Bieber. Vous pouvez soit stocker des tweets
historiques sur la pop star, soit analyser des tweets en streaming sur lui. L'enregistrement
de l'histoire entière de Twitter juste à cette fin coûterait des dizaines de
milliers de dollars en coûts de serveur, sans parler des exigences physiques de
la RAM pour traiter les algorithmes à travers ce stock massif d'informations.
Il est crucial de savoir quel type de
données vous possédez et ce que vous voulez analyser afin de choisir une
solution d'analyse de données flexible pour répondre à vos besoins. Parfois,
les données doivent être analysées à partir du flux, pas stockées. Avons-nous
besoin d'une infrastructure de cloud massive si nous n'avons pas besoin de données
persistantes? Peut-être avons-nous besoin de plus d'infrastructures de
données non persistantes qui permettent des données qui ne doivent pas être
stockées éternellement.
TTL (Time-To-Live) de données peut
être défini de sorte qu'il expire après un certain laps de temps, ce qui
élimine le fardeau de vos capacités de stockage de données. Par exemple,
les données sur les ventes de votre entreprise d'il y a deux ans pourraient ne
pas être pertinentes pour prédire les ventes de votre entreprise aujourd'hui. Et
que des données non pertinentes et périmées devraient être mises au repos en
temps opportun. Comme la thésaurisation compulsive est inutile et souvent
un obstacle au mode de vie des gens, il en va de même pour le stockage des
données.
Au-delà du traitement par lots
En plus de déterminer les cycles de
vie des données, il est également important de réfléchir à la façon dont les
données doivent être traitées. Regardons les options pour le traitement
des données, et le type de données appropriées pour chacun.
Traitement par lots: Le traitement par
lots signifie qu'une série de tâches non interactives sont exécutées par
l'ordinateur en une fois. Lorsque vous faites référence au traitement par
lots pour l'analyse des données, cela signifie que vous devez alimenter
manuellement les données sur l'ordinateur, puis émettre une série de commandes
que l'ordinateur exécute ensuite en même temps. Il n'y a pas d'interaction
avec l'ordinateur pendant l'exécution des tâches. Si vous avez une grande
quantité de données à analyser, par exemple, vous pouvez commander les tâches
dans la soirée et l'ordinateur analysera les données pendant la nuit, vous
livrant les résultats le lendemain matin. Les résultats de l'analyse des
données sont statiques et ne changeront pas si les ensembles de données
d'origine changent - c'est-à-dire à moins qu'une toute nouvelle série de
commandes d'analyse ne soit envoyée à l'ordinateur.
Analyse de données en temps réel: Avec
l'analyse de données en temps réel, vous obtenez des résultats actualisés
chaque fois que vous interrogez quelque chose. Vous obtenez des réponses
en temps quasi réel avec les données les plus récentes jusqu'au moment où la
requête a été envoyée. Similaire au traitement par lots, l'analyse en
temps réel nécessite que vous envoyiez une commande "query" à
l'ordinateur, mais la tâche est exécutée beaucoup plus rapidement et le magasin
de données est automatiquement mis à jour lorsque de nouvelles données
arrivent.
Analyse en continu: à la différence
des analyses par lots et en temps réel, l'analyse des flux signifie que
l'ordinateur met automatiquement à jour les résultats de l'analyse des données
lorsque de nouvelles données circulent dans le système. Chaque fois qu'une
nouvelle information est ajoutée, les signaux sont mis à jour pour tenir compte
de ces nouvelles données. L'analyse en continu fournit automatiquement les
signaux tels qu'ils se produisent à partir des données entrantes sans qu'il
soit nécessaire de demander manuellement quoi que ce soit.
Calcul en temps réel, réparti, tolérant aux pannes
Comment pouvons-nous traiter de
grandes quantités de données en temps réel de manière transparente, sécurisée
et fiable?
Un moyen d'assurer la fiabilité et de
réduire les coûts est l'informatique distribuée. Au lieu d'exécuter des
algorithmes sur une machine, nous exécutons un algorithme sur 30 à 50 machines. Cela
répartit la puissance de traitement requise et réduit le stress sur chacun.
L'informatique tolérante aux pannes
garantit que dans un réseau réparti, si l'un des ordinateurs tombe en panne, un
autre ordinateur prendra en charge le travail de l'ordinateur bâclé de manière
transparente et automatique. Cela garantit que chaque élément de données
est traité et analysé, et qu'aucune information n'est perdue même en cas de
panne d'un réseau ou d'un matériel.
À une époque où le temps de
compréhension est essentiel dans diverses industries, nous devons réduire le
temps de compréhension de quelques semaines à quelques secondes.
La collecte de données analogiques
traditionnelles a pris des mois. La police de la circulation ou les
médecins noteraient des informations sur les infections des patients ou les
accidents de conduite avec facultés affaiblies, et ces formulaires seraient
ensuite envoyés à un centre qui regrouperait toutes ces données. Au moment
où tous ces détails ont été mis dans un document, un mois s'était écoulé depuis
l'apparition d'une nouvelle maladie ou d'un problème de comportement de
conduite. Maintenant que les données numériques sont rapidement agrégées,
nous avons l'opportunité de donner un sens à cette information aussi
rapidement.
Cela nécessite d'analyser des millions
d'événements par seconde par rapport à des algorithmes d'apprentissage formés
qui détectent des signaux provenant de grandes quantités de données réelles,
comme si l'on cherchait rapidement des aiguilles dans une botte de foin. En
fait, c'est comme trouver les aiguilles au moment où elles sont déposées dans
la botte de foin.
En quoi l'analyse de données en temps
réel est-elle utile? Les applications vont de la détection de produits
défectueux dans une ligne de fabrication à la prévision des ventes à la
surveillance du trafic, entre autres. Ces prochaines années accueilleront
un âge d'or non pas pour d'anciennes données, mais pour des données rapides et
intelligentes. Un âge d'or pour les idées concrètes à réaliser.
A
propos de l’Auteur
Alissa
Lorentz est vice-présidente de la création, du marketing et du design chez
Augify.