Vamos a realizar un programa en lenguaje Python para realizar Web Scraping de una página web en específico.
Primero lo que tenemos que realizar es instalar dos bibliotecas, para ello tenemos que ir al cmd y vamos a escribir :
pip install bueautifulsoup4
pip install lxml
pip install requests
Y ya podemos iniciar a realizar nuestro programa, lo que va hacer es obtener el titulo de los libros que posean 4 o 5 estrellas de la web con dirección https://books.toscrape.com/
import bs4import requests
url_base = 'https://books.toscrape.com/catalogue/page-{}.html'
titulos_rating_alto = []
for pagina in range(1, 51):
#crear sopa en cada pagina
url_pagina = url_base.format(pagina)
resultado = requests.get(url_pagina)
sopa = bs4.BeautifulSoup(resultado.text, 'lxml')
#seleccion datos de los libros. Lo hacemos mediante una clase que se encuentra en un article
libros = sopa.select('.product_pod')
#iterar en los libros
for libro in libros:
# chequear que tengan 4 o 5 estrellas
if len(libro.select('.star-rating.Four')) != 0 or len(libro.select('.star-rating.Five')) != 0:
# guardar titulo en variable
titulo_libro = libro.select('a')[1]['title']
#agregar libro a la lista
titulos_rating_alto.append(titulo_libro)
for t in titulos_rating_alto:
print(t)
Por supuesto este programa solamente serviría para esta web, ya que cada una posee sus clases determinadas por el programador web que la haya realizado.
No hay comentarios:
Publicar un comentario
Gracias por participar en esta página.