Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Objectifs

Compétences

Légende :

Formation ouverte et à distance (FOAD)

Condition d'accès / publics visés

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur https://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, le résultat vous est donné immédiatement et n'est pas enregistré.

Objectifs pédagogiques

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Compétences visées

Réaliser la fouille de données massives en utilisant une plate-forme de calcul distribué (Spark) via JupyterHub. Mettre en place un système de recommandation. Réaliser la fouille de textes en exploitant des encodages (word embeddings) et des modèles de langage (language models) en se servant d'une bibliothèque logicielle évoluée (SparkNLP). Mettre en œuvre une visualisation pertinente des données. Traiter des données en flux. Construire des modèles descriptifs et décisionnels sur des données massives. Evaluer des critères observationnels d'équité des prédictions et modifier un modèle prédictif pour respecter des critères d'équité.

Niveau

Niveau 7 (Bac+5)

Contenu de la formation

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, systèmes de recommandation
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage supervisé à large échelle
            f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données

Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Ces TP seront réalisés à l'aide de Apache Spark pour la fouille de données et de réseaux sociaux, et à l'aide de Gephi pour la visualisation de graphes. Pour les travaux pratiques comme pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de https://cedric.cnam.fr/vertigo/Cours/RCP216/

Modalités de validation

Projet(s), Examen final

Description des modalités de validation

Note finale = ((note de projet + note d'examen) / 2).

Accompagnement et suivi

Sous l’autorité pédagogique du certificateur Cnam, les équipes du Cnam Bretagne vous offrent un accompagnement pendant votre parcours de formation à la fois sur les aspects administratifs, financiers, pédagogiques et techniques.

Cette UE est constitutive des diplômes suivants :

Analyste de données massives (CS5900A)

ECTS : 6

Modalité	Volume horaire	Employeur	France travail	Auto-financement
	45 heures	990 €	990 €	450 €

Indexation officielle

FORMACODES

[J0A1B5] Intelligence artificielle - [J0A1] Informatique - Systèmes d’information et numérique - [J0] Electronique

informatique

télécommunication

[J0A1A7A0] Analyse de données - [J0A1A7] Gestion données massives - [J0A1] Informatique - Systèmes d’information et numérique - [J0] Electronique

[Z5A0A0] Application réseau social - [Z5A0] Application - [Z5] Logiciels/outils/applications/services

[C0A1B0A3] Statistique descriptive - [C0A1B0] Statistique - [C0A1] Mathématiques - [C0] Sciences

Mots clés

Datavisualisation, Intelligence artificielle, Flux de données, fouille de donnees, Algorithme d'apprentissage, Data mining, Cloud Computing, big data, data scientist

Indicateurs de résultat

Dernière mise à jour : 01/02/2025

INFOS
PRATIQUES

Durée

45 heures

Modalité

Formation ouverte et à distance (FOAD)

Date de début des cours

13/10/2025

Date de fin des cours

14/02/2026

Examen

Vous habitez en Bretagne, 4 lieux d’examens : Rennes, Saint-Brieuc, Lorient, Brest / Vous habitez une autre région, rapprochez-vous de votre centre Cnam d’inscription

Accessibilité handicap

Comment s’inscrire ?

Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Condition d'accès / publics visés

Objectifs pédagogiques

Compétences visées

Niveau

Contenu de la formation

Modalités de validation

Description des modalités de validation

Accompagnement et suivi

Cette UE est constitutive des diplômes suivants :

Indexation officielle

FORMACODES

Mots clés

Indicateurs de résultat

INFOSPRATIQUES

INFOS
PRATIQUES