E-ENCYCLOPEDIE-  -ETRAVE- 
 


                        Visiteurs depuis fin 2012
 


 
 -
    
 Copyright  W4N1B4                                        
                                                                                                                                                            1962 arrivée inaugurale du France à New-York  peint par Marie-Marin     
 

LE BIG DATA : UN PRÉCIEUX MAILLON DANS LA STRATÉGIE DES ENTREPRISES

5/4/14

Usine Digitale




 

Comment le Big data bouleverse l'organisation des entreprises

Par  -

Comment le Big data bouleverse l'organisation des entreprises© D.R. - SNCF

Les "big data", surmédiatisées, ont le vent en poupe. Avec elles, viennent de nouveaux métiers, de nouveaux processus d'organisation et de décision au sein de l'entreprise.

Les interactions, la hiérarchie et la prise de décision au sein de l'entreprise évoluent avec l'intégration des big data, comme l'ont expliqué au Big Data Paris Olivier Mathiot, co-fondateur et directeur marketing et communication de Priceminister-Rakuten, et Mats Carduner, président de l'agence Fifty-five.

NOUVEAUX MÉTIERS...

Mats Carduner, président de l'agence Fifty-five, a expliqué lors de la conférence Big Data Paris que de nouveaux métiers se sont créés dans son entreprise pour tirer parti des big data. L'agence a dû recruter des profils "très business marketing", capables d’analyser des données, et de les faire collaborer avec des techniciens.

Des spécialistes de la visualisation de données ont aussi fait leur entrée. Les "data scientists" ont aussi, bien sûr, la côte en ce moment dans les entreprises. Pour Olivier Mathiot, co-fondateur et directeur marketing et communication de Priceminister, les profils d'employés évoluent, donc les compétences au sein de l'entreprise changent. Cela a un impact direct sur la stratégie de recrutement de l'entreprise, qui s'intéresse aux profils d'analystes.

... ET NOUVELLE ORGANISATION

L'équilibre entre les créatifs et les ingénieurs est devenu primordial dans cette nouvelle organisation des compétences. Chez Priceminister, les analystes sont désormais intégrés aux équipes marketing. Cela dit, pour Olivier Mathiot, les spécialistes des données ne doivent pas remplacer ceux du marketing, car si les données peuvent prédire des comportements, elles peuvent aussi entraver la créativité.

Selon lui, on ne peut pas se reposer uniquement sur la data pour créer des marques puissantes. Ces nouveaux métiers créent toutefois de nouvelles dynamiques de pouvoir au sein de l'entreprise. Mats Carduner insiste sur le fait que l'opinion du "plus haut salaire" n'est plus dominante. De facto, l'objectivité s'installe et les guerres d'opinion ou d'ego ne peuvent résister au poid des chiffres. Pour Olivier Mathiot, cela permet une rapidité accrue du processus de décision.

Par ailleurs, "tout le monde est un peu propriétaire de la data" désormais, ajoute-t-il. L'enjeu crucial relève donc de la collaboration et du partage des informations entre équipes. En effet, le client d'un site de e-commerce comme Priceminister est "atomisé", entre des comportements liés aux clics, aux bannières, au mobile...  L’enjeu technologique du big data est donc de reconstituer l'ensemble du comportement client, à partir de toutes ces source possibles d’informations.

POUR L'INTÉGRER DANS LE PROCESSUS DÉCISIONNEL

Les big data permettent avant tout l’agilité d'une entreprise, a expliqué Olivier Mathiot à L'Usine Digitale. Quand un grand groupe commence à intégrer un responsable des données dans son comité de direction, c'est l’ensemble des décisions de l'entreprise qui en profitent. Il ne faut surtout pas selon mettre la donnée et le digital "à part", comme le secteur publicitaire l'a fait pendant longtemps en créant des agences digitales dédiées.

"Mettre la data au coeur [du processus décisionnel] c'est mettre le client au centre", ajoute-t-il. Ainsi, le retard de la France dans ce domaine, notamment par rapport aux Etats-Unis, se voit selon lui dans l'écart entre un Auchan ou un Carrefour et un Walmart (géant de la distribution américaine). Pour"révolutionner ces anciens secteurs", comme la culture ou le retail, il est crucial selon lui de récupérer les données. C'est en les intégrant dans le processus décisionnel, que ces entreprises pourront rivaliser avec un Google ou un Apple.

Nora Poggi

3/5/13 BIG DATAS WIKIPEDIA
 

 

WIKIPEDIA
 
Une visualisation des données créée par IBM montre que les Big data que Wikipedia modifie à l'aide du bot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations1.

Big data, littéralement les Grosses données, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions politiques2 ou de tendances industrielles, la génomique3, l'épidémiologie ou la lutte contre la criminalité ou la sécurité4.

Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie 2010-2020. Il engendre une dynamique importante tant par l'administration5, que par les spécialistes sur le terrain des technologies ou des usages6.

 

Sommaire

   [masquer

Dimensions des Big Datas [modifier]

Le Big Data recouvre des applications cherchant à analyser des données pour en tirer du sens. Ces analyses sont appelées Big Analytics 7 ou “Broyages de données”. Elles portent sur des données quantitatives complexes avec des méthodes de calcul distribué.

En 2001, un rapport de recherche du META Group (devenu Gartner)8 définit les enjeux et les opportunités de la croissance des données comme étant tri-dimentionnels. Les analyses complexes répondent à la règle dite des 3V : volume, vélocité, variété.9 Aujourd'hui encore, les acteurs du marché du Big Data utilisent largement ce modèle pour décrire ce phénomène10.

Volume [modifier]

Le volume des données stockées aujourd’hui est en pleine explosion. Selon une étude IDC sponsorisée par EMC Gartner, les données numériques créées dans le monde seraient passées de 1,2 zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s'élèveront à 40 zettaoctets en 202011. Twitter génère à l’heure actuelle teraoctets de données chaque jour et Facebook 10 teraoctets12

Ce sont les installations scientifiques qui produisent le plus de données à l’heure actuelle, et de nombreux projets pharaoniques sont en cours. Le radiotelescope “Square Kilometre Array” par exemple, produira 50 teraoctets de données analysées par jour, à un rythme de 7 000 teraoctets de donnée brutes par seconde.13

Variété [modifier]

Le volume des données Big Data met les data centers devant un réel défi : la variété des données. Ce ne sont pas des données relationnelles traditionnelles, ces données sont brutes, semistructurées ou non structurées. Ce sont des données complexes qui proviennent du web (Web Mining), de textes (Text Mining) et d'images (Image Mining). Elles peuvent etre publiques (Open Data, Web des données), géo-démographiques par îlot (adresses I.P), ou sur des consommateurs (Profils 360°). Ce qui les rend difficilement utilisables avec les outils traditionnels.

La démultiplication des outils de collecte sur les individus et sur les objets permettent d’amasser toujours plus de données 14. Et les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures differentes.

Vélocité [modifier]

La vélocité représente à la fois la fréquence à laquelle sont générées, capturées et partagées les données. Les données arrivent en flux et doivent etre analysées en temps réel pour répondre aux besoins des processus chrono-sensibles15. Les systèmes mis en place par les entreprises doivent etre capables de traiter ces données avant qu’un nouveau cycle de génération de ces données n’ait commencé, autrement dit effectuer du Data Stream Mining.

Différence avec le Business Intelligence [modifier]

Si la definition du Gartner en 3V est encore largement reprise (voire augmentée de “V” supplémentaires à l’inspiration des services marketing), la maturation du sujet fait apparaitre un autre critère plus fondamental de difference d’avec le Business Intelligence et concernant les données et leur utilisation :

  • BI, utilisation de Statistique descriptive, sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ;
  • Big Data, utilisation de Statistique inférentielle, sur des données à faible densité en information dont le grand volume permet d’inférer des lois (regressions….) donnant dès lors (avec les limites de l’inférence) au big data des capacités prédictives16.

Representation [modifier]

Modèles [modifier]

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du Big Data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de gérer des bases massivement parallèles. 17 Des patrons d’architecture “Big Data Architecture framework (BDAF)” 18 sont proposés par les acteurs de ce marché comme MapReduce developpé par Google et utilisé dans le framework Hadoop. Avec ce système les requêtes sont séparées et distribuées à des noeuds parallélisés, puis exécutées en parallèles (map). Les résultats sont ensuite rassemblés et récuperés (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées. Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft. 19 Les acteurs du marché s’appuient sur des systèmes à forte scalabilité horizontale et sur des solutions basées sur du NoSQL(MongoDB, Cassandra) plutôt que sur des bases de données relationnelles classiques.20

Stockage [modifier]

Pour répondre aux problématiques Big Data l’architecture de stockage des systèmes doit être repensée et les modèles de stockage se multiplient en conséquence.

  • le cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et en libre service sur des ressources informatiques partagées et configurables. 21Les service les plus connus sont ceux de Google BigQuery, Big Data on Amazon Web Services, microsoft Windows Azure.

Applications des Big Data [modifier]

Les Big Data trouvent une application dans de nombreux domaines : De grands programmes scientifiques (CERN28 Mastodons), de grandes entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA, des entreprises spécialisées (Teradata, Jaspersoft30, Pentaho31...) de l'Open Source (Apache Hadoop, Infobright32, Talend33...) et des Start-up (Bionatics23, Hariba Médical24, SafetyLine25, KwypeSoft26, Vigicolis):

La recherche scientifique [modifier]

Les expériences du Large Hadron Collider représentent environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde. Il y a autour de 600 millions de collisions par seconde, et après filtrage, il reste 100 collisions d’intérêt par seconde. En conséquence, il y a 25 Po de données à stocker chaque année, et 200 Po après réplication.272829

Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a amassé plus de données en quelques semaines que toutes les données collectées dans l’histoire de l’astronomie. Il continue à un rythme de 200Go par nuit, et a aujourd’hui stocké plus de 140 teraoctets d’information. Des prévisions annoncent que le Large Synoptic Survey Telescope, dont la mise en route est prévue en 2015, amassera ce même montant tous les cinq jours.30

Décoder le génome humain a originellement pris 10 ans, cela peut désormais être fait en une semaine.31

Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de données d’observations et de simulations climatiques.32

La politique [modifier]

L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour analyser les opinions politiques de la population.33

Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète.34

La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois terminé, ce data center pourra supporter des yottaoctets d’information collectés par la NSA sur internet.

Le secteur privé [modifier]

Walmart traite plus d’un million de transactions client par heure, celles-ci sont importées dans des bases de données dont on estime qu’elles contiennent plus de 2.5 Po d’information.35

Facebook traite 50 milliards de photos.

D’une manière générale le data mining de Big Data permet l’élaboration de profils clients dont on ne supposait pas l’existence.36

Perspectives et évolutions [modifier]

Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avancées doivent être faites, et ce en suivant trois axes :

La modélisation de données [modifier]

Les méthodes actuelles de modélisation de données ainsi que les systèmes de gestion de base de données ont été conçus pour une utilisation à des fins commerciales de l’information. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il faudra des modélisations de données et des langages de requêtes permettant :

une représentation des données en accord avec les besoins de plusieurs disciplines scientifiques; de décrire des aspect spécifiques à une discipline (modèles de métadonnées), de représenter la provenance des données; de représenter des informations contextuelles sur la donnée; de représenter et supporter l’incertitude; de représenter la qualité de la donnée.37

La gestion de données [modifier]

Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer le principe qui veut qu’une requête sur un SGBD fournisse une réponse complète et correcte sans tenir compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que le SGBD puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui permettraient de guider le scientifique dans sa recherche.38

Les outils de gestion des données [modifier]

Les outils utilisés à l’heure actuelle ne sont pas en adéquation avec les volumes de données engendrés dans l’exploration de Big Data. Il est nécessaire de concevoir des instruments permettant de mieux visualiser, analyser, et cataloguer les ensembles de données afin de permettre une optique de recherche guidée par la donnée.39

Voir aussi [modifier]

Partagez sur les réseaux sociaux

Catégories

Autres publications pouvant vous intéresser :

Commentaires :

Laisser un commentaire
Aucun commentaire n'a été laissé pour le moment... Soyez le premier !



Créer un site
Créer un site