Splunk es una tecnología que existe desde hace más de 15 años y sigue siendo utilizada por muchas empresas en la actualidad. Tiene muchas ventajas y desventajas, pero si estás buscando algunos casos de uso o cómo aprender Splunk sigue leyendo.
¿Qué es Splunk?
Splunk es una empresa de tecnología que proporciona herramientas de monitorización y análisis de datos. Esto incluye software y servicios para recopilar, almacenar y analizar datos en varias plataformas, como Windows, Linux, y Mac.
Hace algo más de una década, Splunk era un nombre del que quizá hayas oído hablar si te dedicas a la informática o la seguridad. Era una herramienta de código abierto que permitía a los usuarios hacer cosas como monitorizar su red en busca de actividad inusual y registrar todo a varios niveles, por ejemplo, los registros de un servidor web.
Desde entonces, Splunk se ha convertido en un nombre muy conocido en el análisis de datos. Es utilizado por empresas de todos los tamaños para supervisar los entornos de producción y la infraestructura desde un solo dashboard, todo ello sin necesidad de conocimientos especiales o experiencia. De hecho, es muy fácil de usar.
Características
Splunk es una plataforma de análisis de datos en tiempo real que permite supervisar y analizar toda la infraestructura de TI. Esto incluye desde servidores y aplicaciones hasta dispositivos de red, bases de datos y servicios en la nube. También ofrece algunas características realmente útiles, como la capacidad de profundizar en áreas específicas de interés, crear dashboards personalizados en función de sus necesidades y generar informes que se pueden compartir con otros usuarios como business intelligence.
La arquitectura de Splunk consta de tres componentes principales: El indexador recibe los datos de las diferentes fuentes y los almacena en una base de datos interna. A continuación, se envía a un componente inicial de búsqueda, que filtra solo la información que es necesaria antes de enviarla de nuevo al indexador para su almacenamiento. Por último, dispone de una consola de análisis que permite ver los resultados, crear visualizaciones y realizar búsquedas avanzadas.
Splunk también puede integrarse con otras herramientas, como la aplicación para AWS CloudTrail. Esta aplicación funciona enviando todos los archivos de registro de AWS CloudTrail a Splunk y utilizándolos después para crear dashboards, informes y alertas personalizados.
En el caso de Azure, Splunk también se puede integrar con Azure Monitor para proporcionar una visión centralizada de todos sus recursos de Azure. Esto puede ser especialmente útil si estás gestionando muchos entornos diferentes en varias regiones o suscripciones. También con el servicio Azure Log Analytics. Esto le permite enviar sus registros de Azure directamente a Splunk y luego utilizarlo como una plataforma de análisis.
Ventajas de Splunk
Splunk ofrece una buena flexibilidad en sus opciones de despliegue, ya que puede ser desplegado onpremise o en cloud en función de sus necesidades. También puede ayudar a ahorrar tiempo y dinero al reducir el número de personas necesarias para realizar tareas de monitorización.
También proporciona capacidades de monitorización en tiempo real, lo que significa que será posible actuar sobre alguna alerta de inmediato en lugar de tener que esperar hasta más tarde.
Con Splunk también se puede realizar análisis avanzados para cualquier tipo de recopilación de datos. Por ejemplo, esto incluye la búsqueda de tendencias o patrones para tomar mejores decisiones sobre qué información es más importante y cómo debe presentarse a los usuarios finales. El uso de visualizaciones con Splunk permite ver las tendencias y los patrones visualmente antes de realizar cualquier otro tipo de análisis en sus datos. Esto significa que, si hay problemas con su sistema, serán más fáciles de detectar, ya que serán visibles inmediatamente.
Desventajas de Splunk
También hay algunas desventajas, aunque no tantas como otras soluciones que existen (por ejemplo). Un problema es que Splunk ocupa más espacio que otras soluciones como
Casos de Uso
Splunk proporciona una plataforma que puede utilizarse para recopilar, analizar y visualizar grandes cantidades de datos. Es una herramienta especialmente útil para las industrias que tienen que manejar datos.
Estas son algunas de las formas en que puede utilizar Splunk:
- Supervisar el rendimiento del sistema
- Asegurarse de que sus aplicaciones son seguras y fiables
- Ayudar a averiguar lo que está sucediendo en su red, ya sea a través de registros u otros medios (como SIEM)
- Vigilar la actividad de los usuarios y las políticas de seguridad
- Recoger datos de su red, ya sea a través de registros u otros medios
Cómo Aprender Splunk y Siguientes Pasos
Splunk tiene una gran cantidad de documentación, pero se necesita tiempo para aprender a utilizarlo con eficacia. Si necesitas algo más estructurado, te recomiendo estos dos cursos impartidos directamente por Splunk en Coursera:
Experto en Splunk Search
Al completar Search Expert 101, 102 y 103, podrás escribir búsquedas eficientes, realizar correlaciones, crear visualizaciones y aprovechar las subbúsquedas y búsquedas. Este curso también te mostrará cómo empezar a utilizar los datos de infraestructura para proporcionar informes y dashboards procesables para su organización.
Splunk Knowledge Manager
Al completar Knowledge Manager 101, 102 y 103, serás capaz de crear objetos de conocimiento, incluyendo búsquedas, modelos de datos y diferentes tipos de campos. Además, aprenderás a construir dashboards y añadir entradas para el filtrado.
¿Cómo se implementa y administra Splunk?
La implementación y administración de Splunk implica varios pasos y procesos, como planificar y diseñar el entorno, instalar y configurar el software, integrar con otras herramientas y sistemas, monitorizar y administrar el rendimiento y la salud del sistema, y realizar tareas de mantenimiento y actualización regularmente.
La implementación y administración de Splunk puede ser realizada por un equipo de TI experimentado o con la ayuda de un proveedor de servicios. Es importante seguir las mejores prácticas y documentar el proceso de implementación y administración para asegurarse de que Splunk funcione de manera eficiente y efectiva en la organización.
¿Cuáles son las limitaciones y desafíos de Splunk?
Splunk puede ser una herramienta costosa y compleja de implementar y administrar, y puede requerir una buena planificación y ejecución para asegurarse de que el sistema pueda manejar una gran cantidad de datos y usuarios. Cuenta con una comunidad activa y soporte comercial disponible, pero puede requerir esfuerzos adicionales para obtener ayuda y asistencia si se encuentran problemas o dificultades.
¿Cuál es la comunidad y el soporte disponibles para Splunk?
Splunk cuenta con una comunidad activa y en crecimiento, que incluye desarrolladores, usuarios y expertos. La comunidad de Splunk se reúne regularmente en eventos y conferencias, y se comunica a través de foros en línea, grupos de discusión y redes sociales. Esta comunidad es valiosa para obtener ayuda, consejos y soluciones a problemas comunes, así como para compartir conocimientos y experiencias con otros usuarios.
Además de la comunidad, Splunk ofrece soporte comercial a través de sus socios y proveedores de servicios. El soporte comercial puede incluir asistencia para la implementación y configuración, soporte técnico y resolución de problemas, así como capacitación y asesoría para mejorar el uso y aprovechamiento de Splunk en la organización.
¿Cuáles son las opciones de licenciamiento y precios de Splunk?
Splunk ofrece diferentes opciones de licenciamiento y precios, dependiendo del tipo de uso y la capacidad requerida. Las opciones de licenciamiento incluyen licencia de uso comercial, licencia de uso educativo y licencia de uso personal, y pueden incluir diferentes descuentos y promociones.
Además de la opción de licencia, Splunk también ofrece soporte y servicios profesionales, como implementación, configuración, capacitación y soporte técnico, que pueden ser adquiridos por un precio adicional. Es importante verificar los precios y opciones de licenciamiento disponibles con el proveedor de Splunk para entender las opciones y restricciones de licenciamiento disponibles.
Usando Splunk para el Análisis de los Logs del SEO de tu proyecto
En Splunk, saben un par de cosas sobre los archivos de registro. Splunk Enterprise y Splunk Cloud , sus productos estrella, son algunas de las mejores herramientas de la industria para comprender los registros, buscar anomalías, crear paneles y visualizaciones, configurar alertas y hacer todo tipo de cosas útiles con los archivos de registro.
Muchos equipos dentro de Splunk usan nuestros propios productos para una variedad de casos de uso y el equipo de SEO, dentro de la organización de Growth Marketing, usa Splunk Cloud para el análisis de archivos de registro de SEO. Esta publicación de blog mostrará solo algunas de las formas en que estamos usando Splunk para mejorar nuestro propio SEO técnico.
Monitoreo de estado 5xx
Cuando Googlebot ve una respuesta de Estado 500 u otro error 5xx, es una indicación de que hay un problema con el servidor. Esto es diferente de un 404, en el que el servidor responde, pero el contenido solicitado simplemente no está disponible.
Muchos sitios web están configurados para brindar una respuesta de Status 500 a los bots maliciosos. Los sitios web también mostrarán con frecuencia esta respuesta si el servidor está sobrecargado con solicitudes, como durante un ataque DDoS. Y en su forma más básica, si el servidor está fuera de línea o los usuarios recibirán una respuesta de Estado 500.
Sin duda, es importante que los usuarios nunca, o rara vez, reciban un error de estado 500 cuando están usando un sitio web. También es importante que Googlebot no vea este mensaje. Si Googlebot ve esta respuesta de error crítico, Googlebot intentará ingresar la URL nuevamente. Si continúa recibiendo la respuesta, seguirá solicitando la URL a un ritmo más lento (ya que solicitar demasiado rápido puede ser la causa del error). Eventualmente, sin embargo, si una gran sección de un sitio web arroja constantemente 500 errores, Googlebot dejará de rastrear el sitio y dejará de mostrar las páginas a los usuarios de la Búsqueda de Google.
Google quiere enviar a los usuarios al mejor contenido de la web , ¡y Google ciertamente no quiere que sus usuarios pasen un mal momento al hacer clic en los resultados de búsqueda que los llevan a los errores de estado 500!
Puede obtener más información sobre cómo Google maneja los errores de estado 500 en este video de Horas de oficina de Google:
Para comenzar a encontrar errores de estado 500, podemos usar una consulta de lenguaje de procesamiento de búsqueda (SPL) como:
index="webmkt" uri_path="/en_us/*" "googlebot" estado="5*"
Después de esto, podemos sumergirnos en consultas más avanzadas y refinadas, correlacionar interrupciones con cambios en el sitio de períodos de tiempo específicos y determinar si los problemas que causaron los errores se han resuelto. Además, al usar el menú desplegable «Guardar como», podemos guardar fácilmente esta vista (o cualquier otra) como un informe, un panel de control o una alerta.

¡Tenga en cuenta que algunos errores de Status 5xx son intencionales y beneficiosos! Por ejemplo, si ha identificado un bot o rastreador que está causando problemas en su sitio web, puede decidir bloquearlos y sería bueno ver que ciertos agentes de usuario o direcciones IP obtengan una respuesta 5xx.
Podemos ver todos los agentes de usuario (ya no se limitan a Googlebot) y ver los últimos 30 días con esta consulta:
index="webmkt" uri_path="/en_us/*" status="5*"
Es fácil ver que hubo exactamente 3 días el mes pasado que fueron responsables de la mayor parte de la actividad. Mirando más de cerca, los patrones comienzan a aparecer. En el ejemplo n. ° 1 a continuación, es el agente de usuario de Screaming Frog el que está siendo bloqueado. Esto es intencional, esperado, no motivo de preocupación. Sin embargo, el n.° 2 y el n.° 3 de la lista tienen huellas digitales casi idénticas con cadenas de consulta coincidentes muy extrañas en las URL. Probablemente no sea un usuario humano normal de un sitio web y no parece ser ningún bot benévolo conocido.

Supervisar las visitas de Googlebot
Usando la visualización integrada de Splunk, podemos ver cómo Googlebot visita cada vez más una nueva sección del sitio web. Establecer en el marco de tiempo para el año pasado, utilizando esta consulta:
index="webmkt" uri_path="/en_us/blog/learn/*" robot de Google | gráfico de tiempo contar por día

Podríamos editar la consulta para identificar las 100 URL principales en un período de tiempo que recibe visitas de Googlebot
index="webmkt" uri_path="/en_us/blog/learn/*" robot de Google | límite superior = 100 uri
O ajuste aún más la consulta para encontrar las URL que tuvieron la menor cantidad de visitas de Googlebot (pero aún así, al menos 1 visita):
index="webmkt" uri_path="/en_us/blog/learn/*" robot de Google | uri raro
Análisis de sitios web
Si bien Splunk Enterprise y Cloud normalmente no reemplazan algo como Google Analytics, se pueden usar para análisis y, en algunos casos, tiene mucho sentido. En caso de que su empresa desee obtener análisis del sitio web sin utilizar JavaScript o cookies, la aplicación Splunk para análisis web puede permitirle acceder a datos analíticos similares a Google Analytics o Adobe Analytics tanto para datos históricos como para nuevos flujos de datos en tiempo real. Puede obtener más información sobre cómo funciona en esta publicación de blog .


Si su empresa confía en Google Analytics, Adobe Analytics o cualquier otra herramienta común de análisis de sitios web, Splunk aún puede ayudarlo como respaldo. Es una realidad desafortunada que a veces ocurren errores en la producción, incluida la pérdida de códigos de seguimiento de análisis. Si tiene Splunk ejecutándose, incluso sin usar Splunk App for Web Analytics, puede servir como un reemplazo rápido para sus herramientas normales de análisis de sitios web si está en un aprieto.
Supongamos, por ejemplo, que nuestro sitio web experimentó una interrupción de Google Analytics en las últimas dos semanas, por lo que tenemos problemas para confirmar que nuestro tráfico es estable o está creciendo. necesitamos informar sobre el tráfico que ingresa a una sección particular del sitio proveniente de Google, lo que puede servir como una aproximación aproximada para el tráfico de búsqueda natural en caso de apuro.
Usando una consulta como:
index="webmkt" uri_path="/en_us/blog/learn/*" referer_domain="*google*" status="200"
Podemos ver claramente un crecimiento en el tráfico a la sección del sitio desde el referente que nos interesa.

Se podría utilizar un enfoque similar para realizar un seguimiento de las visitas al sitio web con cadenas de consulta específicas u otros códigos de seguimiento, y para comprender de dónde proviene ese tráfico.
Usando una consulta ligeramente editada:
index="webmkt" uri_path="/en_us/blog/learn/*" referer_domain="*google*" status="200" | límite superior = 10 uri
…y junto con las herramientas de visualización integradas, podemos ver fácilmente las 10 publicaciones de blog principales en una sección del último mes o año, y compararlas con un período anterior para comprender el crecimiento o la disminución del tráfico por URL o carpeta.

Encontrar lo errores 404
Los 404 generalmente no son algo malo: son una parte natural de un sitio web. A veces, es necesario anular la publicación de una página y no se mueve ni se reemplaza con nada. En estos casos, es útil utilizar una página 404 para que los usuarios sepan que lo que buscan ya no está disponible. Por supuesto, ¡nunca querrá vincular a un error 404! Por lo general, un rastreador de sitios web como ScreamingFrog es la mejor opción para encontrar enlaces a errores 404 en su sitio web.
Pero hay otro escenario: cuando los visitantes están llegando a 404 en su sitio web, pero no los está vinculando. Esto puede suceder si retiró una página, dejó de vincularla, pero todavía hay correos electrónicos, aplicaciones u otros sitios web que apuntan a las antiguas URL ahora 404. Debe descubrir estas URL para investigar más a fondo y considerar la posibilidad de realizar una acción (como actualizar/editar/eliminar el enlace ofensivo en alguna otra plataforma). Este es el tipo de 404 del que ScreamingFrog nunca puede alertarte.
En este caso, podemos usar una consulta SPL como:
index="webmkt" status="404" uri_path="/en_us/*" | límite superior = 100 uri
Con este tipo de consulta, podemos comenzar a identificar las principales URL en una sección del sitio en particular y el período de tiempo que generan una respuesta 404. Después de refinar e investigar más, puedo comenzar a encontrar referencias y, por lo tanto, soluciones procesables para resolver estos errores 404.
Estas mismas técnicas son perfectas para identificar nuevos errores 404 que ocurren directamente después del lanzamiento de un cambio importante en el sitio web, rediseño, migración, etc. Al observar fechas específicas antes y después de los principales lanzamientos, es fácil encontrar pistas sobre los errores que experimentan los usuarios.