Bonjour à tous !
Je tente de scrapper des informations sur le site jeuxvideos.com et je fais face à un problème. Je souhaiterai récupérer le nom du jeu et un attribut ‹ href › contenant le lien direct du jeu. Lorsque je tente de récupérer ces informations sur la 1ère page, aucun soucis :
link = 'https://www.jeuxvideo.com/tous-les-jeux/'
page = requests.get(link)
page.text
soup = bs(page.text, "html.parser")
for element in soup.select("h2 > a"):
print(element)
#print(element.text,'\n','href = ', element.attrs['href'])
Lorsque j’affiche les éléments de code HTML je visualise mes balises et mes attributs et la comande en commentaire me permet de récupérer ces informations.
Si j’effectue la même chose sur les pages 2 et plus (le code HTML semble être le même sur l’inspecteur), je n’arrive pas à récupérer les informations et l’on me retourne un None. Si j’affiche le code HTML dans ma console avec ceci :
link = 'https://www.jeuxvideo.com/tous-les-jeux/?p=2'
page = requests.get(link)
page.text
soup = bs(page.text, "html.parser")
for element in soup.find_all('span', class_='gameTitleAndPlatforms__2vxJ4O'):
print(element)
j’observe que les balises ‹ a › d’attribut href n’apparaissent plus et qu’à la place, on a quelque chose du style :
" data-xxx=« true » id="9CWaRYsOSZueXduttseg7w6jyOWt0AHt-41673 "
Des idées pour contourner le problème ?
Merci pour vos réponses et bonne journée à tous