Screaming Frog, Extracción de datos

Índice

Extracción de datos con Screaming Frog

Extracciones personalizadas de Screaming Frog: una guía para extraer datos de rastreo

Screaming Frog es una poderosa herramienta de SEO con muchas funciones de optimización de motores de búsqueda. Una de las características menos conocidas, Screaming Frog Custom Extracciones, le permite extraer fácilmente datos de sus rastreos. ¡Esta publicación de blog discutirá cómo funciona Screaming Frog Custom Extraction y por qué puede ayudar a mejorar sus esfuerzos de SEO!

Extracción de datos con screaming frog
Screaming Frog, Extracción de datos 6

Los sitios web tienen toneladas de información útil; la mayoría de las veces, es demasiado laborioso o complicado visitar todas las páginas de un sitio web para copiar datos de productos, metadatos , etiquetas de título y texto ancla en una hoja de cálculo. Aquí es donde Screaming Frog viene al rescate con extracciones de datos personalizadas para automatizar el proceso. Las extracciones personalizadas son una forma de raspado web , recolección web o extracción de datos web que se utiliza para raspar y extraer datos de sitios web, lo que le permite almacenarlos localmente en su computadora.

Para los principiantes, preguntas básicas:

¿Qué es Screaming Frog SEO Spider?

El software Screaming Frog SEO Spider es un rastreador de sitios web que mejora el SEO en el sitio al extraer y analizar los datos de su sitio web mediante una interfaz gráfica de usuario (GUI).

¿Qué son las extracciones personalizadas?

Las extracciones personalizadas son funciones de araña SEO de Screaming Frogs para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para SEO técnico , incluidos los resultados de búsqueda, recopilan datos esenciales en su copia y ayudan a localizar y corregir errores.

¿Cómo se hace la extracción de datos?

El proceso de extracción de datos implica extraer los datos requeridos en su sitio web utilizando una araña web Screaming Frog. La información se guarda en la memoria de Screaming Frog , lo que le brinda la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión.

¿Por qué es crítica la extracción de datos?

La extracción de datos le permite recolectar grandes cantidades de datos de manera rápida y eficiente. Esta automatización te da resultados inmediatos de arquitectura web . Este proceso le ahorra tiempo y recursos mientras le brinda los datos valiosos que necesitará para planificar y diseñar estrategias de optimización de motores de búsqueda.  

Screaming Frog es la herramienta Web Scraper para SEO. Las opciones son infinitas; aquí hay un montón de sintaxis personalizadas de web-scraping.

Cómo extraer datos personalizados usando Screaming Frog

1. En ScreamingFrog, vaya a Configuración > Personalizado > Extracción.

Extracción personalizada de Screaming Frog
Extracción personalizada de Screaming Frog

2. A continuación, deberá + Agregar y configurar sus reglas de extracción.

Configuración de extracción personalizada
Seleccione elementos de HTML interno mediante la pestaña Extracción personalizada

3. Agregue un título ,
4. Seleccione si necesita CSSPath, XPath o Regex ,
5. Agregue su función de búsqueda .

Si no está seguro de qué selector o función necesita, consulte los ejemplos a continuación o use la función de inspección de elementos en Google Chrome Dev Tools . Puede abrir Dev Tools haciendo clic con el botón derecho en el navegador Google Chrome.

Ejemplo:

Aquí hay un ejemplo de cómo rasparías una ID de píxel de Facebook

Extracción de ID de píxel de Facebook
Extracción de ID de píxel de Facebook

En los resultados , puedes ver que a una de mis páginas le falta un píxel de Facebook:

Falta la identificación de Facebook
Falta la identificación de Facebook

A continuación se muestran conjuntos de datos de extracción personalizados predefinidos para que pueda comenzar.

Sintaxis básica para usar XPath Web Scraping

SINTAXISFUNCIÓN
//Buscar en cualquier parte del documento
/Buscar dentro de la raíz del sitio web
@Seleccionar un atributo específico de un elemento
*El comodín se utiliza para seleccionar cualquier elemento.
[ ]Encuentra un elemento específico
.Especifica el elemento actual
..Especifica el elemento padre

Funciones XPath

XPATHPRODUCCIÓN
//h1Extraer todas las etiquetas H1
//h2[1]Extraiga la primera etiqueta H2
//h2[2]Extraiga la segunda etiqueta H2
//div/pExtrae cualquier <p> contenido dentro de un <div>
//div[@class='author']Extrae cualquier <div> con clase «autor»
//p[@class='content']Extrae cualquier <p> con clase «contenido»
//*[@class='content']Extrae cualquier elemento con clase «contenido»
//ul/li[last()]Extrae el último <li> en un <ul>
//ol[@class='cat']/li[1]Extrae el primer <li> en un <ol> con clase “gato”
count(//h2)Cuenta el número de H2 (establezca el filtro de extracción en «Valor de función»)
//a[contains(.,'learn more')]Extrae cualquier enlace con texto ancla que contenga «aprender más»
//a[starts-with(@title,'Written by')]Extrae cualquier enlace con un título que comience con «Escrito por».

Cómo extraer elementos HTML comunes

XPATHPRODUCCIÓN
//@hrefExtrae todos los enlaces
//a[starts-with(@href,'mailto')]/@hrefExtrae el enlace que comienza con «mailto:» (dirección de correo electrónico)
//a[starts-with(@href,'tel')]/@hrefExtrae el enlace que comienza con “tel:” (número de teléfono)
//img/@srcExtrae todas las URL de origen de la imagen
//img[contains(@class,'aligncenter')]/@srcExtrae todas las URL de origen de imágenes para las imágenes que contienen el nombre de clase «aligncenter».
//link[@rel='alternate']Extrae elementos con el atributo rel establecido en «alternativo».
//@hreflangExtrae todos los valores hreflang

Extraer metaetiquetas (usar elemento HTML interno)

XPATHPRODUCCIÓN
//meta[@property='article:published_time']/@contentExtrae la fecha de publicación del artículo (metaetiqueta común en los sitios web de WordPress)

Extraer gráfico abierto

XPATHPRODUCCIÓN
//meta[@property='og:type']/@contentExtrae el objeto de tipo Open Graph
//meta[@property='og:image']/@contentExtrae la URL de la imagen destacada de Open Graph
//meta[@property='og:updated_time']/@contentExtrae la hora actualizada de Open Graph

Extraer tarjetas de Twitter

XPATHPRODUCCIÓN
//meta[@name='twitter:card']/@contentExtrae el tipo de Twitter Card
//meta[@name='twitter:title']/@contentExtrae el título de la tarjeta de Twitter
//meta[@name='twitter:site']/@contentExtrae el objeto del sitio de Twitter Card (identificador de Twitter)

Extraer tipos de esquema

XPATHPRODUCCIÓN
//*[@itemtype]/@itemtypeExtrae todos los tipos de marcado de esquema en una página

Extraer esquema de migas de pan

Estas son las extracciones personalizadas que usa para verificar las migas de pan en Screaming Frog .

XPATHPRODUCCIÓN
//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrae todos los enlaces de migas de pan
//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrae el primer enlace de migas de pan
//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrae nombres de migas de pan (establezca el filtro de extracción en «Extraer texto»)
count(//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop])Cuenta el número de elementos de la lista de migas de pan (establezca el filtro de extracción en «Valor de la función»)

Extraer esquema de producto

XPATHPRODUCCIÓN
//*[@itemprop='name']/@contentExtrae el nombre del producto
//*[@itemprop='description']/@contentExtrae la descripción del producto
//*[@itemprop='price']/@contentExtrae el precio del producto
//*[@itemprop='priceCurrency']/@contentExtrae la moneda del producto
//*[@itemprop='availability']/@hrefExtrae la disponibilidad del producto
//*[@itemprop='sku']/@contentExtrae el SKU del producto

Extraer esquema de revisión

XPATHPRODUCCIÓN
//*[@itemprop='reviewCount']Recuento de reseñas de extractos
//*[@itemprop='ratingValue']Extrae el valor de calificación
//*[@itemprop='bestRating']Extrae la mejor calificación de revisión
//*[@itemprop='review']/*[@itemprop='name']Extrae el nombre de la reseña
//*[@itemprop='review']/*[@itemprop='author']Autor de la revisión de extractos
//*[@itemprop='review']/*[@itemprop='datePublished']/@contentExtrae la fecha de publicación de las reseñas.
//*[@itemprop='review']/*[@itemprop='reviewBody']Extrae el contenido del cuerpo de las reseñas.

Extraer esquema de empresa y organización local

XPATHPRODUCCIÓN
//*[contains(@itemtype,'Organization')]/*[@itemprop='name']Extrae el nombre de la organización.
//*[@itemprop='address']/*[@itemprop='streetAddress']Extrae la dirección de la calle
//*[@itemprop='address']/*[@itemprop='addressLocality']Extrae la localidad de la dirección
//*[@itemprop='address']/*[@itemprop='addressRegion']Extrae la región de direcciones
//*[@itemprop='telephone']Extrae el número de teléfono
//*[@itemprop='sameAs']/@hrefExtrae los enlaces «igual que»

Extraer el esquema del artículo

XPATHPRODUCCIÓN
//*[contains(@itemtype,'Article')]/*[@itemprop='headline']Extrae el título del artículo.
//*[@itemprop='author']/*[@itemprop='name']/@contentExtrae autor-nombre
//*[@itemprop='publisher']/*[@itemprop='name']/@contentExtrae el nombre del editor
//*[@itemprop='datePublished']/@contentExtrae la fecha de publicación
//*[@itemprop='dateModified']/@contentExtractos modificados fecha

Extracción de datos personalizados con Regex

comodines

SINTAXISFUNCIÓN
.Coincide con cualquier 1 carácter
*Coincide con el carácter anterior 0 o más veces
?Coincide con el carácter anterior 0 o 1 vez
+Coincide con el carácter anterior 1 o más veces
|O

anclas

SINTAXISFUNCIÓN
^La cadena comienza con el carácter siguiente.
$La cadena termina con el carácter anterior.

Grupos

SINTAXISFUNCIÓN
( )Coincide con los caracteres encerrados en el orden exacto
[ ]Coincide con los caracteres encerrados en cualquier orden
Coincide con cualquier carácter dentro del rango especificado

Escapar

SINTAXISFUNCIÓN
\Trate el carácter literalmente, no como expresión regular.

Extracción de datos personalizados Regex

REGEXPRODUCCIÓN
["'](UA-.*?)["']Extraiga el ID de seguimiento de Google Analytics
["'](G-.*?)["']Extraiga el ID de seguimiento de Google Analytics 4 (GA4)
["'](AW-.*?)["']Extraiga el ID de conversión de Google Ads y/o la etiqueta de remarketing
["'](GTM-.*?)["']Extraiga el Google Tag Manager y/o el ID de Google Optimize
fbq\(["']init["'], ["'](.*?)["']Extraiga la identificación del píxel de Facebook
\{ti:["'](.*?)["']\}Extraer la etiqueta de UET de Bing Ads
adroll_adv_id = ["'](.*?)["']Extraiga el ID de anunciante de AdRoll
adroll_pix_id = ["'](.*?)["']Extraiga el ID de píxel de AdRoll

Extraiga todo el marcado de esquema y los tipos de esquema

REGEXPRODUCCIÓN
["']application/ld\+json["']>(.*?)</script>Extrae todas las marcas de esquema JSON-LD
["']@type["']: *["'](.*?)["']Extrae todos los tipos de marcado de esquema JSON-LD en una página

Extraer esquema de migas de pan

REGEXPRODUCCIÓN
["']item["']: *\{["']@id["']: *["'](.*?)["']Extrae enlaces de migas de pan
["']item["']: *\{["']@id["']: *["'].*?["'], *["']name["']: *["'](.*?)["']Extrae nombres de migas de pan

Extraer esquema de producto

REGEXPRODUCCIÓN
["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del producto
["']@type["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extrae la descripción del producto
["']@type["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrae el precio del producto
["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrae la moneda del producto
["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrae la disponibilidad del producto
["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrae el SKU del producto

Extraer esquema de revisión

REGEXPRODUCCIÓN
["']reviewCount["']: *["'](.*?)["']Recuento de reseñas de extractos
["']ratingValue["']: *["'](.*?)["']Extrae el valor de calificación
["']bestRating["']: *["'](.*?)["']Extrae la mejor calificación

Extraer esquema de empresa y organización local

REGEXPRODUCCIÓN
["']@type["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Extrae el nombre de la organización
["']streetAddress["']: *["'](.*?)["']Extrae la dirección de la calle
["']addressLocality["']: *["'](.*?)["']Extrae la localidad de la dirección
["']addressRegion["']: *["'](.*?)["']Extrae la región de direcciones
["']telephone["']: *["'](.*?)["']Extrae el número de teléfono
["']sameAs["']: *\[(.*?)\]Extrae los enlaces «igual que»

Extraer artículo o esquema de publicación de blog

REGEXPRODUCCIÓN
["']headline["']: *["'](.*?)["']Extractos del título del artículo
["']author["'].*?["']name["']: *["'](.*?)["']Extrae autor-nombre
["']publisher["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del editor
["']datePublished["']: *["'](.*?)["']Extrae la fecha de publicación
["']dateModified["']: *["'](.*?)["']Extractos modificados fecha

Las posibilidades son infinitas; por favor, hágame saber si desea que se agreguen extracciones a esta lista.

VER MAS ENTRADAS
virus rat la caixa
OPTIMIZACION SEO
Ibm Trusteer Caixabank, Virus RAT que genera transferencias de dinero

Cómo eliminar el malware RAT de IBM Trusteer: Herramientas y consejos
Descripción: El malware RAT de IBM Trusteer puede causar graves problemas de seguridad y privacidad en su ordenador. ¿Sospecha que su ordenador ha sido infectado? Descubra cómo eliminar el malware RAT de IBM Trusteer con una lista ordenada de herramientas que incluye herramientas de eliminación de IBM Trusteer, programas antivirus y antimalware, herramientas de escaneo en línea, firewalls y herramientas de limpieza y optimización de sistema. Haga clic aquí para obtener consejos útiles y precauciones para proteger su ordenador y cuentas en línea.

Leer más »