miércoles, 16 de febrero de 2022

Realizar Web Scraping de una página web

 Vamos a realizar un programa en lenguaje Python para realizar Web Scraping de una página web en específico.

Primero lo que tenemos que realizar es instalar dos bibliotecas, para ello tenemos que ir al cmd y vamos a escribir :

pip install bueautifulsoup4

pip install lxml

pip install requests

Y ya podemos iniciar a realizar nuestro programa, lo que va hacer es obtener el titulo de los libros que posean 4 o 5 estrellas de la web con dirección https://books.toscrape.com/

import bs4
import requests

# vamos a obtener los titulos de los libros que tengan 4 o más estrellas
url_base = 'https://books.toscrape.com/catalogue/page-{}.html'

# lista de titulos con 4 o 5 estrellas
titulos_rating_alto = []

#iterar paginas
for pagina in range(1, 51):
    #crear sopa en cada pagina
    url_pagina = url_base.format(pagina)
    resultado = requests.get(url_pagina)
    sopa = bs4.BeautifulSoup(resultado.text, 'lxml')

    #seleccion datos de los libros. Lo hacemos mediante una clase que se encuentra en un article
    libros = sopa.select('.product_pod')

    #iterar en los libros
    for libro in libros:

        # chequear que tengan 4 o 5 estrellas
        if len(libro.select('.star-rating.Four')) != 0 or len(libro.select('.star-rating.Five')) != 0:

            # guardar titulo en variable
            titulo_libro = libro.select('a')[1]['title']

            #agregar libro a la lista
            titulos_rating_alto.append(titulo_libro)


# ver libros de 4 u 5 estrellas en consola
for t in titulos_rating_alto:
    print(t)

Por supuesto este programa solamente serviría para esta web, ya que cada una posee sus clases determinadas por el programador web que la haya realizado.




No hay comentarios:

Publicar un comentario

Gracias por participar en esta página.