Nous allons pousser notre étude un peu plus loin lors de l'étude du fichier films.csv1. Ce fichier reprend les 517 films les mieux notés sur le site IMDB.
Les descripteurs proposés sont :
Descripteur
Indice
Type Python
Contenu
Ranking
0
int
rang du film dans le classement
Name
1
str
nom du film
Year
2
int
année de production
Minutes
3
int
durée (en minutes)
Genres
4
str
genres associés (voir remarque)
Rating
5
float
note moyenne(sur 10)
Votes
6
int
nombre de votes
Gross
7
float
revenus générés (en M$)
Les genres
Chaque film est associé à au moins un genre, certains à trois genres...
Dans le cas où plusieurs genres sont cités, ceux-ci sont séparés par des virgules.
On profite ici du fait que les deux genres sont incompatibles (dans cette liste de films a minima).
Si l'on souhaite comparer deux genres compatibles, on doit utiliser deux if et pas un if...elif. C'est le cas par exemple avec les genres Adventure et Family
Comment faire pour n'obtenir que les noms des films cités dans le fichier ?
On peut procéder ainsi :
🐍 Console Python
>>> [entree["Name"]forentreeinfilms]['Citizen Kane', 'The Godfather', 'The Wizard of Oz', 'The Shawshank Redemption', 'Pulp Fiction', ...]
Afin de généraliser le procédé, on souhaite écrire une fonction projection qui :
prend en argument la liste de dictionnaires à manipuler ainsi que le nom d'un descripteur,
renvoie la liste ne contenant que les valeurs associées à ce descripteur.
La fonction projection
Compléter le code ci-dessous en saisissant la fonction projection telle que décrite.
Attention, les résultats doivent être dans le même ordre que dans la liste initiale.
###
# Tests publicsbksl-nlassert projection(films, "Ranking")[4] == 5, "Erreur sur la projection de 'Ranking'"bksl-nlassert projection(films, "Name")[4] == "Pulp Fiction", "Erreur sur la projection de 'Name'"bksl-nlassert projection(films, "Year")[4] == 1994, "Erreur sur la projection de 'Year'"bksl-nlbksl-nl# Tests aléatoiresbksl-nldef projectionpy-undcorr(donnees, descripteur):bksl-nl return [entree[descripteur] for entree in donnees]bksl-nlbksl-nlbksl-nlfor descripteur in films[0]:bksl-nl attendu = projectionpy-undcorr(films, descripteur)bksl-nl assert projection(films, descripteur) == attendu, f"Erreur sur la projection de '{descripteur}'"bksl-nlbksl-nlneveux = [bksl-nl {1: "riri", 2: "fifi", 3: "loulou"},bksl-nl {1: "rara", 2: "fafa", 3: "laulau"},bksl-nl]bksl-nlassert projection(neveux, 1) == ["riri", "rara"], "Erreur dans un test secret"bksl-nlassert projection(neveux, 2) == ["fifi", "fafa"], "Erreur dans un test secret"bksl-nlbksl-nl5/5
# --- HDR ---#bksl-nlurlpy-undfichier = "films.csv"bksl-nlencodage = "utf-8"bksl-nlbksl-nlfrom js import fetchbksl-nlbksl-nlreponse = await fetch(f"../{urlpy-undfichier}")bksl-nlcontenu = await reponse.text()bksl-nlbksl-nlwith open(file=urlpy-undfichier, mode="w", encoding=encodage) as fichier:bksl-nl fichier.write(contenu)bksl-nlbksl-nlimport csvbksl-nlbksl-nlfilms = []bksl-nlwith open("films.csv", "r", encoding="utf-8") as fichier:bksl-nl lecteur = csv.DictReader(fichier, delimiter=";")bksl-nl for entree in lecteur:bksl-nl entree["Ranking"] = int(entree["Ranking"])bksl-nl entree["Year"] = int(entree["Year"])bksl-nl entree["Minutes"] = int(entree["Minutes"])bksl-nl entree["Rating"] = float(entree["Rating"])bksl-nl entree["Votes"] = int(entree["Votes"])bksl-nl entree["Gross"] = float(entree["Gross"])bksl-nl films.append(entree)bksl-nl# --- HDR ---#bksl-nldef projection(donnees, descripteur):bksl-nl """Renvoie la liste des valeurs de ce descripteur"""bksl-nl passbksl-nlbksl-nlbksl-nlassert projection(films, "Ranking")[4] == 5, "Erreur sur la projection de 'Ranking'"bksl-nlassert projection(films, "Name")[4] == "Pulp Fiction", "Erreur sur la projection de 'Name'"bksl-nlassert projection(films, "Year")[4] == 1994, "Erreur sur la projection de 'Year'"bksl-nlbksl-nldef projection(donnees, descripteur):bksl-nl """Renvoie la liste des valeurs de ce descripteur"""bksl-nl return [entree[descripteur] for entree in donnees]bksl-nl bksl-nlbksl-nl
A
Z
La fonction projection_multiple
On souhaite désormais récupérer les données associées à plusieurs descripteurs : la fonction projection_multiple prend en argument la liste des données et un tuple contenant les descripteurs à conserver.
Par exemple projection_multiple(films, ("Name", "Year", "Rating")) renverra la liste des tuples formés du nom, de l'année de production et de la note de de chaque film.
Quel est le montant total rapporté par l'ensemble de ces films ? Et le montant moyen ? Pour le savoir il faut dans un premier temps additionner les revenus générés.
Écrivons une fonction pour cela.
La fonction somme
Compléter le code ci-dessous en saisissant la fonction somme qui :
prend en argument la liste de dictionnaires à manipuler ainsi que le nom d'un descripteur,
renvoie la somme de toutes les valeurs associées à ce descripteur.
Remarque
Vous observerez que l'on ne teste pas la stricte égalité des résultats car les valeurs manipulées sont des flottants et qu'il y a des erreurs d'arrondis.
###
# Tests publicsbksl-nlassert abs(somme(films, "Gross") - 33072.07) < 10py-strpy-str-6, "Erreur sur la somme de 'Gross'"bksl-nlbksl-nl# Tests aléatoiresbksl-nldef sommepy-undcorr(donnees, descripteur):bksl-nl return sum([entree[descripteur] for entree in donnees])bksl-nlbksl-nlbksl-nlfor descripteur in ["Year", "Rating", "Votes", "Minutes", "Gross"]:bksl-nl attendu = sommepy-undcorr(films, descripteur)bksl-nl assert abs(somme(films, descripteur) - attendu) < 10py-strpy-str-3, f"Erreur sur la somme de '{descripteur}'"bksl-nlbksl-nlentiers = [bksl-nl {1: 0, 2: 1, 3: 5},bksl-nl {1: 0, 2: 1, 3: 5},bksl-nl]bksl-nlassert somme(entiers, 1) == 0, "Erreur dans un test secret"bksl-nlassert somme(entiers, 2) == 2, "Erreur dans un test secret"bksl-nlassert somme(entiers, 3) == 10, "Erreur dans un test secret"bksl-nlbksl-nl5/5
# --- HDR ---#bksl-nlurlpy-undfichier = "films.csv"bksl-nlencodage = "utf-8"bksl-nlbksl-nlfrom js import fetchbksl-nlbksl-nlreponse = await fetch(f"../{urlpy-undfichier}")bksl-nlcontenu = await reponse.text()bksl-nlbksl-nlwith open(file=urlpy-undfichier, mode="w", encoding=encodage) as fichier:bksl-nl fichier.write(contenu)bksl-nlbksl-nlimport csvbksl-nlbksl-nlfilms = []bksl-nlwith open("films.csv", "r", encoding="utf-8") as fichier:bksl-nl lecteur = csv.DictReader(fichier, delimiter=";")bksl-nl for entree in lecteur:bksl-nl entree["Ranking"] = int(entree["Ranking"])bksl-nl entree["Year"] = int(entree["Year"])bksl-nl entree["Minutes"] = int(entree["Minutes"])bksl-nl entree["Rating"] = float(entree["Rating"])bksl-nl entree["Votes"] = int(entree["Votes"])bksl-nl entree["Gross"] = float(entree["Gross"])bksl-nl films.append(entree)bksl-nl# --- HDR ---#bksl-nldef somme(donnees, descripteur):bksl-nl """Renvoie la somme des valeurs de ce descripteur"""bksl-nl passbksl-nlbksl-nlbksl-nlassert abs(somme(films, "Gross") - 33072.07) < 10py-strpy-str-6, "Erreur sur la somme de 'Gross'"bksl-nlbksl-nldef somme(donnees, descripteur):bksl-nl """Renvoie la somme des valeurs de ce descripteur"""bksl-nl total = 0bksl-nl for entree in donnees:bksl-nl total += entree[descripteur]bksl-nl return totalbksl-nlbksl-nl
A
Il existe plusieurs solutions alternatives :
avec la fonction projection :
🐍 Script Python
defsomme(donnees,descripteur):"""Renvoie la somme des valeurs de ce descripteur"""total=0forvaleurinprojection(donnees,descripteur):total+=valeurreturntotal
avec la fonction sum de Python :
🐍 Script Python
defsomme(donnees,descripteur):"""Renvoie la somme des valeurs de ce descripteur"""returnsum([entree[descripteur]forentreeindonnees])
avec la fonction projection et la fonction sum :
🐍 Script Python
defsomme(donnees,descripteur):"""Renvoie la somme des valeurs de ce descripteur"""returnsum(projection(donnees,descripteur))
Z
Il est désormais possible de calculer la moyenne des valeurs d'un descripteurs. Là encore, écrivons une fonction pour cela.
La fonction moyenne
Compléter le code ci-dessous en saisissant la fonction moyenne qui :
prend en argument la liste de dictionnaires à manipuler ainsi que le nom d'un descripteur,
renvoie la moyenne de toutes les valeurs associées à ce descripteur.
Remarque
Une version de la fonction somme précédente est fournie. Vous pouvez l'utiliser dans votre code.
###
# Tests publicsbksl-nlassert abs(moyenne(films, "Gross") - 63.97) < 10py-strpy-str-3, "Erreur sur la moyenne de 'Gross'"bksl-nlbksl-nl# Tests aléatoiresbksl-nldef moyennepy-undcorr(donnees, descripteur):bksl-nl return sum([entree[descripteur] for entree in donnees]) / len(donnees)bksl-nlbksl-nlbksl-nlfor descripteur in ["Year", "Rating", "Votes", "Minutes", "Gross"]:bksl-nl attendu = moyennepy-undcorr(films, descripteur)bksl-nl assert abs(moyenne(films, descripteur) - attendu) < 10py-strpy-str-2, f"Erreur sur la moyenne de '{descripteur}'"bksl-nlbksl-nlentiers = [bksl-nl {1: 0, 2: 1, 3: 5},bksl-nl {1: 0, 2: 1, 3: 5},bksl-nl]bksl-nlassert moyenne(entiers, 1) == 0, "Erreur dans un test secret"bksl-nlassert moyenne(entiers, 2) == 1, "Erreur dans un test secret"bksl-nlassert moyenne(entiers, 3) == 5, "Erreur dans un test secret"bksl-nlbksl-nl5/5
# --- HDR ---#bksl-nlurlpy-undfichier = "films.csv"bksl-nlencodage = "utf-8"bksl-nlbksl-nlfrom js import fetchbksl-nlbksl-nlreponse = await fetch(f"../{urlpy-undfichier}")bksl-nlcontenu = await reponse.text()bksl-nlbksl-nlwith open(file=urlpy-undfichier, mode="w", encoding=encodage) as fichier:bksl-nl fichier.write(contenu)bksl-nlbksl-nlimport csvbksl-nlbksl-nlfilms = []bksl-nlwith open("films.csv", "r", encoding="utf-8") as fichier:bksl-nl lecteur = csv.DictReader(fichier, delimiter=";")bksl-nl for entree in lecteur:bksl-nl entree["Ranking"] = int(entree["Ranking"])bksl-nl entree["Year"] = int(entree["Year"])bksl-nl entree["Minutes"] = int(entree["Minutes"])bksl-nl entree["Rating"] = float(entree["Rating"])bksl-nl entree["Votes"] = int(entree["Votes"])bksl-nl entree["Gross"] = float(entree["Gross"])bksl-nl films.append(entree)bksl-nl# --- HDR ---#bksl-nldef somme(donnees, descripteur):bksl-nl """Renvoie la somme des valeurs de ce descripteur"""bksl-nl return sum([entree[descripteur] for entree in donnees])bksl-nlbksl-nlbksl-nldef moyenne(donnees, descripteur):bksl-nl """Renvoie la moyenne des valeurs de ce descripteur"""bksl-nl passbksl-nlbksl-nlbksl-nlassert abs(moyenne(films, "Minutes") - 122.57) < 10py-strpy-str-2, "Erreur sur la moyenne de 'Minutes'"bksl-nlbksl-nldef moyenne(donnees, descripteur):bksl-nl """Renvoie la moyenne des valeurs de ce descripteur"""bksl-nl return somme(donnees, descripteur) / len(donnees)bksl-nlbksl-nl
A
Z
La fonction moyenne est donc valide. Pourtant l'appel moyenne(films, "Gross") renvoie un résultat faux !
En effet, pour certains films le revenu total est inconnu. Néanmoins, afin de proposer un fichier csv valide, sans valeurs manquantes, la valeur -1.0 a été ajoutée dans ce cas. C'est le cas par exemple pour le 19ème film du classement (« Les 400 coups » de François Truffaut) :
Quelle année a vu se produire le plus de films présents dans ce classement ? Nous allons compter le nombre de films produits chaque année.
Une approche naïve consisterait à effectuer de nombreuses requêtes, une par année : « quels sont les films produits en 1900 ? », « quels sont les films produits en 1901 ? », etc.
Cette approche présente plusieurs inconvénients :
quelles sont les années à chercher ? On a fait l'hypothèse que les films ont été produits à partir de 1900 mais c'est vraisemblablement incorrect...
Python doit lire l'ensemble des données à chaque requête ! Donc 100 lectures des 517 films si l'on teste tout le XX-ème siècle...
Une approche plus efficace consiste à utiliser un dictionnaire dont les clés sont les années et les valeurs le nombre de films produits cette année-ci. On peut procéder ainsi :
initialement le dictionnaire est vide,
on parcourt l'ensemble des films. Pour chacun :
si son année de production n'est pas présente dans le dictionnaire, on l'ajoute (en tant que clé) avec la valeur 1 (c'est la première fois que l'on rencontre cette valeur)
si l'année est déjà dans le dictionnaire on incrémente simplement la valeur associée.
Films par années
Compléter le script ci-dessous permettant de compléter le dictionnaire annee_films associant à chaque année présente dans la liste des films le nombre de films produits cette année-ci.
Il reste à déterminer l'année durant laquelle le plus de films ont été produits.
La meilleure année
On a chargé en mémoire le dictionnaire annee_films associant à chaque année le nombre de films produits cette année-ci.
Déterminer l'année (nommée annee_maxi) durant laquelle le plus de films ont été produits.
Pas d'égalité !
Une année sort du lot, il n'y a pas d'ex-aequo.
###
attendu = max([(k, v) for k, v in anneepy-undfilms.items()], key=lambda couple: couple[1])[0]bksl-nlbksl-nlassert anneepy-undmaxi == attendu, "Erreur de calcul"bksl-nlbksl-nl5/5
Quel genre de film est cité le plus de fois ? Facile, il suffit de compter les apparitions de chaque genre comme l'on vient de compter les années.
Mais les genres sont mal présentés : chaque film est associé à un, deux ou trois genres, si besoin séparés par des virgules, avec des espaces derrière les virgules...