Las Cosas de Mariano Garrido: Realizar Web Scraping de una página web

miércoles, 16 de febrero de 2022

Realizar Web Scraping de una página web

Vamos a realizar un programa en lenguaje Python para realizar Web Scraping de una página web en específico.

Primero lo que tenemos que realizar es instalar dos bibliotecas, para ello tenemos que ir al cmd y vamos a escribir :

pip install bueautifulsoup4

pip install lxml

pip install requests

Y ya podemos iniciar a realizar nuestro programa, lo que va hacer es obtener el titulo de los libros que posean 4 o 5 estrellas de la web con dirección https://books.toscrape.com/

import bs4
import requests

# vamos a obtener los titulos de los libros que tengan 4 o más estrellas
url_base = 'https://books.toscrape.com/catalogue/page-{}.html'

# lista de titulos con 4 o 5 estrellas
titulos_rating_alto = []

#iterar paginas
for pagina in range(1, 51):
   #crear sopa en cada pagina
   url_pagina = url_base.format(pagina)
   resultado = requests.get(url_pagina)
   sopa = bs4.BeautifulSoup(resultado.text, 'lxml')

   #seleccion datos de los libros. Lo hacemos mediante una clase que se encuentra en un article
   libros = sopa.select('.product_pod')

   #iterar en los libros
   for libro in libros:

       # chequear que tengan 4 o 5 estrellas
       if len(libro.select('.star-rating.Four')) != 0 or len(libro.select('.star-rating.Five')) != 0:

           # guardar titulo en variable
           titulo_libro = libro.select('a')[1]['title']

           #agregar libro a la lista
           titulos_rating_alto.append(titulo_libro)

# ver libros de 4 u 5 estrellas en consola
for t in titulos_rating_alto:
print(t)

Por supuesto este programa solamente serviría para esta web, ya que cada una posee sus clases determinadas por el programador web que la haya realizado.

No hay comentarios:

Publicar un comentario

Gracias por participar en esta página.

Páginas

miércoles, 16 de febrero de 2022

Realizar Web Scraping de una página web

No hay comentarios:

Publicar un comentario