Machine Learning Meetup

Hors-Série #1: Data-journalisme

Machine Learning

Kesako ?

  • Discipline qui traite de systèmes capables d'apprendre à partir de données
  • Plus précisément, il s'agit de logiciels qui:
      - pour réaliser une tâche donnée
      - analysent l'expérience passée
      - de manière à devenir plus performants dans le temps (avec de plus en plus de données)

Exemples classiques

  • Classification de mails en SPAM/HAM
  • Reconnaissance d'images (adresses manuscrites, chiens/chats, etc.)
  • Prédiction de comportements utilisateurs, de résultats électoraux, ...

Le Machine Learning est ...

  • Fortement liée à la statistique (buzzword: Data Science)
  • Fortement liée à l'intelligence artificielle
  • Très pertinente aujourd'hui
    (beaucoup de données, CPU-power pas cher)

Data-journalisme

Kesako ?

Selon Wikipédia:
Le journalisme de données (data journalism en anglais) [...] est un mouvement visant à renouveler le journalisme par l'exploitation et la mise à la disposition du public de données statistiques

Le "Manifeste" du datajournalisme (2006): A fundamental way newspaper sites need to change

A quoi sert le data-journalisme ?

  • Augmentation du domaine journalistique aux données brutes
  • Introduire une certaine scientificité dans les traitements journalistiques des données
  • Mise à disposition des données utilisées au grand public
  • Proposer une meilleure compréhesion des données et du monde via des visualisations novatrices (buzzword: dataviz)

Présentations

  1. What is a computational biologist doing at the New York Times?
    Chris Wiggins, Chief Data Scientist au New York Times
  2. Articuler éditorialisation algorithmique et humaine
    Nicolas Sauret (Centre Pompidou), Bertrand Delezoide (CEA)
  3. Dataveyes: Human data interactions
    François-Xavier Fringant, co-fondateur
  4. Syllabs: Analyse sémantique & création de contenus textuels
    Claude de Loupy, co-fondateur

What is a computational biologist doing at the New York Times ?

and what can academia do for a 163-year old company?

Chris Wiggins, Chief Data Scientist au New York Times

Chris Wiggins (@chriswiggins)

  • Chercheur universitaire dans le domaine de la bioinformatique
  • Mène de nombreuses initiatives d'utilisation de données disponibles publiquement
  • Embauché récemment par le NYT pour mener une équipe de 5 Data Scientists

Pourquoi de la Data Science au NYT ?

  • Rendre accessibles et compréhensibles les données produites par le NYT
  • Extraire de la connaissance de ces données, scientifiquement
  • Promovoir des critères de décision quantifiables, plutôt que basés sur l'intuition

Le but: Listen to its readers at web scale

What we're aiming to do is to try to inform product and marketing decisions, as well as potentially newsroom decisions.

Mais que font-ils ?

  • Liste de data visualisations au NYT
  • Les data APIs du NYT
  • Newsroom analytics: s'assurer que le bon journalisme a le plus de lecteurs possible
  • Comprendre et prédire l'"engagement" des lecteurs, leur comportement
  • Étude scientifique des jeux de données utilisés par les l'équipes du NYT (journalistes, marketing, ...)

à lire: NYT chief data scientist Chris Wiggins on the way we create and consume content now

Les pré-requis de la data science

  • Pratiques scientifiques: méthodes, outils mathématiques, etc
  • Compétences techniques: engineering before science
  • Culture: promouvoir les concepts, les méthodes et le scepticisme propre à la science

Datamining et Dataviz chez Médiapart

Nicolas Sauret (Centre Pompidou), Bertrand Delezoide (CEA)

Periplus

Articuler éditorialisation algorithmique et humaine

  • Project INR (24 mois) de valorisation des archives de Médiapart
  • Extraction de données à partir de documents multimédias (non-structurés)
  • Clustering automatisé des archives multimédias
  • Indexation, synthèse de contenus multimédias

Streamgraph

Visualiser le volume d’un cluster éditorial dans le temps

Streamgraph

Treemap

Visualiser l'ensemble des clusters à un instant t

Tree

Page des Archives

Archives

Dataveyes: présentation d'une start-up de dataviz

François-Xavier Fringant, co-fondateur

Actualité du jeu vidéo en temps réel

Vidéo

Coupe du monde 2014 : Visualisation du match France-Suisse en temps réel

Vidéo

Syllabs: Analyse sémantique & création de contenus textuels

Claude de Loupy, co-fondateur

SAAS: Semantic as a service

  1. Collecter - twitter, RSS, web mining
  2. Analyser - classification, structuration
  3. Générér - Production algorythmique de tests de qualité humaine

Exemples: e-tourisme

Génération de descriptions touristiques

L'hôtel Oceania vous accueille dans son établissement design 4 étoiles. Situé en plein cœur de Paris, cet hôtel se trouve à 200 m du parc des expositions et à 3km de la gare. L'hôtel, récemment rénové, est décoré avec goût et bénéficie d'une décoration contemporaine et moderne. Il a une capacité de 250 chambres toutes confortables, luxueuses, contemporaines avec une décoration haut de gamme. Elles sont climatisées, insonorisées et disposent toutes d'un balcon, idéal pour prendre l'air ou pour observer la vue. Pour rester en contact avec vos proches, un accès gratuit à internet est disponible. Si vous avez plutôt besoin de vous dégourdir les jambes, faites une petite balade dans le jardin de l'hôtel qui recouvre une superficie de 700 m2. D'autres possibilités vous sont aussi proposées.. [...]. Cet hôtel est un excellent choix pour la clientèle business ou bien pour les touristes. Pour vos déplacements, un service de navette est proposé. Une navette peut aussi vous déposer ou aller vous chercher à l'aéroport.

Exemples: e-commerce

Génération de descriptions de produits

Le modèle décrit ici est un réfrigérateur NO FROST commercialisé par les équipes Samsung. Ce réfrigérateur comporte un réfrigérateur et un congélateur. Pour aménager de façon plus pratique, ce réfrigérateur est en Pose Libre. Pour une ambiance classique, ce réfrigérateur blanc conviendra très bien. Le congélateur est à gauche. Le réfrigérateur utilise 425 kWh par an. Concernant la congélation, la capacité est de 12 kilos/jour. Ce réfrigérateur dispose d'une contenance de 512L dont 158 litres alloués à la partie congélateur. Cet appareil, de classe A+, consomme en moyenne 10% d'électricité en moins par rapport à un appareil de classe A. De classe climatique SN-T, il doit être dans une pièce possédant une fourchette de température allant de 10 à 43°C. Il dispose d'une autonomie de 12 heures pendant lesquelles vos aliments frais et surgelés seront conservés en toute sécurité. Grâce à son distributeur automatique, vous pourrez vous désaltérer quand vous le souhaitez ! Ce réfrigérateur est large de 91.2 centimètres, haut de 178.9 centimètres et profond de 73.4 cm et son poids est de 116 kilos.

Autres applications

  • Entreprises: Rapports financiers
  • Médias: Fiches éditorialisés (Communes, Entreprises, Personnalités)
  • Médias (cont.): Dépêches, Alertes, Mailings personnalisés

Le secteur

  • Narrative Science - La référence en "Narrative Analytics"
  • Quakebot - Alertes automatisées de tremblements de terre
  • Wordsmith - Génération de rapports d'entreprise à partir de chiffres bruts

L'intox

La désintox

OUI ! Les "robots" :

  • Peuvent écrire des textes standardisés, de qualité HUMAINE
  • Sont déjà en train d'éditorialiser des données brutes dans certains secteurs

La désintox

NON ! Les "robots" ne peuvent pas:

  • Faire des analyses de discours politiques
  • Faire du journalisme d'investigation
  • Écrire des romans

Donc non, Skynet n'est pas prête de se réveiller ...

Ressources