Partager, , Google Plus, Pinterest,

Print

Posted in:

Données textuelles et Big Data

La percée du Big data est venue d’une analyse innovante de l’océan de données. Pour certaines entreprises, le problème principal est l’analyse de volumes massifs de données structurées, principalement numériques, comme pour les sociétés de cartes de crédit avec leurs millions de clients et milliards de transactions, à la recherche de schémas de fraudes. Analyser des volumes gigantesques de données structurées peut nécessiter de nouvelles stratégies ou technologies logicielles mais est généralement assez simple à accomplir.

Mais tous les océans de données ne sont pas structurés. Ils prennent toutes les formes et tailles. La plus grande difficulté de l’analyse des Big Data est qu’une large portion n’est pas structurée, souvent sous la forme de texte non structuré. Pensez à toutes les données utilisées ou créées dans une entreprise standard – courriels, documents, transcriptions audio d’appels clients, prises de notes des réunions ou autres. La majeure partie de ces informations est sous forme non structurée. Même dans une industrie dominée par les chiffres, les textes prolifèrent. Par exemple, dans le secteur bancaire commercial, les relevés financiers et les activités liées aux prêts sont sous forme de données structurées, mais pour comprendre un prêt vous devez lire un dossier rempli de correspondances, analyses écrites et compte rendu de chaque appel téléphonique et réunion. Pour vraiment comprendre les risques associés à un portfolio de prêts, vous devez lire et comprendre chacun des dossiers qui le composent.

Dans le secteur médical, il existe beaucoup de sources de données structurées comme la suite des résultats de tests et les champs codifiés. Toutefois, les informations les plus intéressantes se trouvent dans les notes cliniques des praticiens : ses impressions, ce qu’il a appris d’un entretien avec le patient, pourquoi il est arrivé à un diagnostic ou demandé un test, ce qu’il a conclu des différents résultats de ces tests et bien plus. Dans la plupart des environnements cliniques ces informations forment de grands ensembles de données, mais alors qu’elles sont numérisées, elles sont rarement analysées.

Cliquez pour ICI consulter le livre blanc

Source : http://fr.intersystems.com/

Laisser un commentaire