La révolution des données est en cours...
L'histoire
Il n'y a pas si longtemps, la plupart des entreprises utilisaient des ordinateurs centraux . Ces ordinateurs coûtaient cher à l'achat et étaient généralement stockés au siège de l'entreprise.
Le personnel interne avait accès aux applications via un terminal central . Les données étaient généralement stockées dans des fichiers VSAM . Les champs individuels étaient déterminés par la position du caractère dans la ligne de données. Le programmeur COBOL a écrit un code pour extraire les données en indiquant les positions de début et de fin pour les champs demandés. Les rapports étaient ensuite envoyés à une imprimante en dehors des heures de travail par lots. Les chefs d’entreprise ont examiné des tonnes de papier pour trouver des informations. C'était un processus lent et fastidieux qui nécessitait des programmeurs expérimentés possédant une connaissance du domaine. L'information n'a pas été partagée librement pour la plupart.
Bases de données relationnelles
La base de données relationnelle a été introduite pour stocker des volumes de données en connectant des tables liées via des clés communes, en connectant des tables liées via des relations de clé primaire et étrangère .
Cela a permis aux langages de programmation de la 4e génération et aux applications de génération de rapports d'interroger la base de données dans un langage appelé SQL . Les données résultantes apparaissent à l'écran au format WYSIWYG (What you see is what
you get/ce que vous voyez est ce que obtenez), qui peuvent être exportées vers une feuille de calcul, un fichier PDF, une imprimante ou par courrier électronique à un autre utilisateur. Cela a éliminé le besoin de programmeurs spécialisés entre les utilisateurs professionnels et les données.
Data Warehouse(Entreposage de données)
Les rapports traditionnels extrayaient les données des systèmes en direct, les verrouillant et posant des problèmes de performances aux applications sous-jacentes. Le Data Warehouse a été introduit pour résoudre ce problème en mettant en œuvre une méthodologie standard de stockage des données.
Un développeur a créé un modèle des données, qu'il s'agisse d'un schéma Star ou d'un schéma Snowflake , à l'aide de tables Fact et Dimension. Les valeurs étaient stockées dans les tables de faits telles que Sommes, Moyennes, Min, Max, etc. et les tables de dimension contenaient des adjectifs descriptifs tels que Client, Emplacement, Heure ou Produit.
Vous pouvez donc manipuler rapidement les données pour déterminer le nombre de ventes réalisées dans une période donnée dans une région donnée par un vendeur particulier dans un magasin spécifique en fonction d'un produit spécifique. Ce processus a extrait les données du système source, les a chargées dans une base de données de staging et les a finalement transférées dans l'entrepôt de données. Au fur et à mesure que les données circulent dans chaque phase du processus d’ extraction, de transformation et de chargement Extract,
Transform and Load (ETL) process, le développeur applique une logique métier, par exemple en créant un «CustomerName» concaténant (Nom +, + + Prénom) afin de se conformer aux normes de l’entreprise et de faciliter la manipulation de données.
Bien que l'entreprise disposait désormais d'une Single Version
of the Truth version unique de la vérité , le coût de la construction et de la maintenance du DW était élevé. Cela a abouti à stocker des ensembles limités de données. Trouver et conserver des programmeurs qualifiés pour la construire et la maintenir était un défi, et ajouter de nouvelles sources de données n'était pas facile non plus.
Self Service Reporting
À mesure que la technologie évoluait, chaque entreprise créait son propre département des technologies de l'information. Mais ils n'étaient toujours pas en mesure de satisfaire les exigences de l'entreprise. Ils ne recevaient pas de données précises en temps voulu. En conséquence, ils ont recruté du personnel interne ou des consultants pour créer des rapports en silos, sans en informer le service informatique. En rassemblant des éléments de données provenant de différents emplacements, de nombreux rédacteurs de rapports n'ont pas suivi les meilleures pratiques ni adhéré aux règles de l'entreprise concernant le stockage et les méthodes utilisées pour accéder aux données. Les fournisseurs ont rapidement vu la demande et ont créé des applications pour permettre aux utilisateurs professionnels de créer leurs propres rapports sans avoir de compétences en programmation . c'est ce que l'on appelle les rapports en libre-service. Désormais, tout service possédant une carte de crédit professionnelle peut accéder aux données de l'entreprise sans l'assistance du service informatique.
Big Data
Les utilisateurs professionnels peuvent désormais générer des rapports en temps réel sur les entrepôts de données, les bases de données relationnelles traditionnelles et le libre service. Cependant, ils ne pouvaient accéder qu'aux données stockées dans le format de base de données. Il y avait encore des montagnes de données inutilisées éparpillées dans chaque organisation. Ces organisations ont été incapables d'utiliser ces jeux de données, principalement parce qu'il s'agissait de données "non structurées" ou "semi-structurées".
Les données semi-structurées ne sont pas conformes aux formats de base de données relationnels standard, mais elles ont un certain degré de prévisibilité. De même, les données non structurées , telles que les archives de courrier électronique, n'ont pas de format de modèle de données prédéfini. Cependant, nous pouvons ajouter une structure aux données en utilisant un nouveau produit appelé Apache Hadoop .
Hadoop est un framework logiciel open-source écrit en Java pour le stockage distribué et le traitement distribué de très grands ensembles de données sur des clusters d’ordinateurs construits à partir de matériel standard.
À l'origine, les développeurs ont écrit un code Java complexe appelé Map Reduce pour analyser les données dans le système de fichiers Hadoop (HDFS) afin de se conformer aux formats de base de données relationnelle.
Hadoop a évolué au fil du temps, permettant l'accès via un langage de requête SQL appelé Apache HiveSQL . Cependant, lorsqu'il existe des limitations de vitesse lorsqu'il est traduit en code de réduction de mappage. Un autre langage appelé Apache Pig permet aux développeurs de manipuler les données pour effectuer des calculs et des agrégations et pour formater les données à des fins de rapport.
Au fil du temps, Hadoop s'est transformé en une suite de mini-applications et ne dépend plus de développeurs Java expérimentés. Hadoop est sous licence logiciel ouvert et disponible en téléchargement gratuit.
Hadoop présente de nombreux avantages. Il permet aux développeurs d'interroger des ensembles de données volumineux, de lire des données structurées et non structurées et de combiner différents types de données. Plus récemment, un nouveau produit appelé Apache Spark permet une manipulation de données similaire et peut être exécuté dans l'écosystème Hadoop ou de manière autonome.
Analytique
L'industrie s'est vite rendue compte que, même si les données étaient jadis "agréables à utiliser", leur statut devenait "obligées", car il était devenu évident que les données pouvaient être utilisées pour orienter les décisions de l'entreprise .
Augmenter les ventes. Réduire les coûts. Rationaliser les processus. Trouvez des modèles dans les données en les convertissant en informations. Et ensuite, analysez les idées et agissez sur les nouvelles informations. Avec la montée en puissance des ensembles de données ouverts, des médias sociaux, de la réduction des coûts en logiciels et matériels et de la disponibilité des programmeurs, les entreprises tirent parti de cette nouvelle technologie pour acquérir un avantage concurrentiel .
Data Scientist
Le nouveau domaine de Data Scientist a été qualifié de travail le plus sexy du 21 e siècle . Ceci est probablement dû au fait que Data Scientist combine les compétences d'un programmeur, d'un statisticien et d'un analyste métier. L'intersection de ces trois champs permet de préparer des données, d'appliquer des algorithmes et de traduire des informations en un langage commun destiné à la consommation. Les scientifiques de données comprennent les données, les activités et les statistiques et peuvent les traiter en utilisant une base de données relationnelle traditionnelle ou des ensembles de données non structurés et semi-structurés. Certains algorithmes sont utilisés pour identifier des modèles et prédire le comportement futur. C’est un poste très recherché dans presque toutes les industries.
Intelligence artificielle
L'Intelligence Artificielle Artificial Intelligence a vu le jour dans les années 50, lorsque les gens ont compris la nécessité des ordinateurs de penser. Même s’ils manquaient de la puissance de traitement à l’époque, ils ont jeté les bases des travaux futurs. Alors que le prix du hardware et de software (logiciel) diminuait avec le temps, la reconnaissance des formes, l'exploration de données et l'analyse prédictive commençaient à progresser. L'un des principaux concepts théoriques utilisés dans ces domaines est celui des Artificial Neural Networks(des réseaux de neurones artificiels).
Il s’agit essentiellement d’une série de nœuds connectés, pondérés par probabilité, activés en fonction de certains critères, qui activent ensuite d’autres nœuds plus en aval. En formant un réseau de neurones, il peut apprendre au fil du temps, se rappeler des choses et des événements, mais aussi effectuer des simulations dans l’avenir afin de mieux prédire l’apparition de différents résultats. Ces algorithmes se développent à la fois dans les espaces public et privé, car ils peuvent automatiser de nombreux processus répétitifs. De nombreuses organisations investissent dans l'IA pour rationaliser leurs processus et réduire leurs frais généraux.
Résumé
Chaque entreprise ou organisation est maintenant dans le secteur des logiciels. En effet, chaque entreprise exécute un logiciel qui accumule des données pouvant être exploitées et mashed avec d’autres données pour fournir des informations utiles.
Cela a créé une explosion de données dans la révolution actuelle des données . Les scientifiques de données sont capables d'extraire des connaissances de grands volumes de données, à partir d'ensembles de données structurés et non structurés. Les entreprises sont désormais en mesure d'extraire des informations personnelles des clients dans les campagnes marketing, via l'analyse des sentiments et des algorithmes permettant de prédire le comportement des clients. Être une entreprise axée sur les données devient la norme.
A propos de l'auteur
Jonathan Bloom travaille dans l’espace Data Science depuis 1995. Basé à Safety Harbor, en Floride, il se spécialise dans les secteurs des services financiers, de l’éducation, de la haute technologie et des assurances.
No comments:
Post a Comment