Scrapea una web entera en segundos
Hoy vamos a ver una herramienta que nos va a facilitar enormemente la tarea de extraer datos de una web, lo que se conoce como web scrapping, o simplemente scrapear.. en muchas ocasiones esto puede ser útil y perfectamente legal, pero en otras muchas ocasiones se hace para robar contenido de otras webs, la utilidad que le des es cosa tuya, yo sólo te voy a enseñar a hacerlo con una herramienta muy simple, no necesitarás conocer programación y es gratis.
La herramienta se llama Import.io, y es muy sencilla de usar, lo puedes hacer directamente desde su página web sin ni siquiera registrarte, aunque también tienes la opción de descargar su software a tu ordenador y tendrás más opciones.
Vamos a ver primero la opción más sencilla, scrapear una web desde Import.io, imagina que tienes un blog de decoración, Ikea es uno de los mayores fabricantes de muebles del mundo, seguramente hablarás de alguno de sus muebles en el blog, seguramente te vendrá bien crear un excel donde almacenar todos los modelos de sus muebles y marcar sobre los que ya hayas escrito o algo así.
Scrapeando una web
1.- Dirígete a la web Import.io
2.- En el campo debes introducir la URL de la que queremos extraer los datos, ej: http://www.ikea.com/es/es/search/?query=sillas
3.- A continuación te mostrará los resultados de los datos extraídos
En este apartado puedes renombrar las columnas, eliminar las que no quieras extraer y lo más importante seleccionar dónde quieres almacenar los datos extraídos, puedes copiar la tabla o descargar todos los datos a tu ordenador.
Y el resultado es un excel (csv) con el que podrás trabajar, insertar en una base de datos, modificar, etc, etc…
Y esto es sólo el principio. Si quieres aprovechar al máximo esta herramienta de scrapeo puedes bajarte la versión de escritorio desde aqui.
En la versión de escritorio encuentras muchas opciones útiles como:
- API From Url 2.0
- Magic API – Es la opción que vamos a usar, no se necesita configurar nada como en las otras y nos permite extraer datos de una web de forma inmediata.
- API From URL (Extractor)
- API From Automation (Connector)
- Crawler – Araña, recorre la web y extrae los datos que quieras.
- API From Authenticated URL
- API From Authenticated Automation
- Data Set – Te permite extraer datos de varias webs a la vez y unificarlos.
Cada opción sirve para algo en concreto, pero en definitiva, todas hacen algo excepcionalmente fácil y rápido extraer datos de webs. Podríamos estar horas hablando de cada opción, pero entonces el título «Scrapea una web entera en segundos» no tendría mucho sentido, así que si quieres saber cómo trabajar con cada una de las opciones, te dejo el manual de Import.io para que te lo estudies a fondo.
Nosotros vamos a trabajar con la opción Magic API, que realmente parece mágica, sólo necesitas introducir la URL del blog o web que deseas extraer datos y voilá.
Como ves, sólo con introducir la URL de mi blog, tenemos un listado de los posts publicados, imagen, título, descripción, categoría, fecha de publicación…
Y ahora un truco SEO para que obtengas ideas (no copies contenido) sobre qué escribir, sólo tienes que seleccionar varios blogs de tu sector y utilizando el Import.io, recoger todos los posts de los blogs para ver cuáles son los más comentados. Por ejemplo en mi caso podría fijarme en los blogs de Chuiso, chuiso.com, Dean Romero, blogger3cero.com, Enrique Moris, enriquemoris.com… que aparte de ser profesionales destacados en mi sector, son los últimos con los que he hablado..jaja
Para hacerlo ve a New – Magic API e introduce la URL del blog a analizar, una vez se muestren los resultados, pincha abajo donde pone GET API.
Con esto, almacenamos esta URL como una fuente de donde obtener datos. Y ahora podemos ir a New – Data Set.
Ahora en + Add data, podremos añadir las fuentes que hemos ido almacenando en Magic API. Podemos añadir tantas fuentes como hayamos creado.
Y la columna que nos interesa es «Comments link», osea, comentarios que tiene esa publicación, lo ordenamos de mayor a menor y podemos ver los artículos que más interesan a los lectores de blogs de la misma temática que la nuestra y ahora ya sí, puedes ponerte a escribir de lo que creas que va a ser útil a tus lectores.
Esta herramienta es una de las más útiles que he encontrado últimamente y es tan flexible que puedes hacer mil cosas con ella, extraer datos, exportar los datos extraídos, integrarlos con otros datos, etc, etc.. eso ya os lo dejo a vuestra imaginación, espero que os sirva.
Jorge
Hola Javier!
He llegado a tu post y quería hacerte una pregunta: Cuano meto la URL me saca solo los datos que aparecen visibles en esa página concreto.
Por ejemplo, si pongo ikea.es solo me coge algún dato de la home, pero no todo lo que tiene el dominio en sí.
¿Cómo puedo conseguir que rastree todos los datos?
Gracias y enhorabuena por el blog! No me lo pierdo.
Javier Flores
Hola Jorge, tiene una opción para ir añadiendo páginas manualmente, o bien para seguir un ciclo, osea si es ikea.es/producto.php?id=1.. que vaya recorriendo ikea.es/producto.php?id=2, ikea.es/producto.php?id=3… descargate sino lo has hecho ya la versión de escritorio que tiene más opciones. Gracias por tu opinión, espero poder ayudarte.. 😉 un saludo!