Repositorio y analítica web: combinando los datos de navegación con las colecciones para obtener mejores insights

Por: Jesús Anderson Morales-Alvira

Una de las funciones de la biblioteca universitaria es contribuir con la recolección, preservación y difusión de la producción académica de la institución a la que pertenecen, asegurando procesos que permitan a cualquier persona acceder a esta información, de acuerdo con las políticas de publicación establecidas por los autores de los documentos.

Así mismo, es la biblioteca universitaria quien se encarga de crear estrategias que permitan potenciar la visibilidad, el uso y el impacto de estos documentos con el fin de compartir el conocimiento generado a partir de las diferentes tipologías de documentos que se producen con el quehacer de los estudiantes, docentes e investigadores. Estas estrategias se basan en la catalogación de dichos documentos, la asignación de materias normalizadas, el cumplimiento de estándares e inclusión dentro del ambiente universal de la producción académica dentro del repositorio institucional.

Para ello, se hace necesario el conocimiento de las colecciones que se encuentran almacenadas, cómo se utilizan y el impacto que tienen con el entorno al que están dirigidos, consultando la mayor cantidad de información posible de estas interacciones y aplicando métodos estadísticos para aprovechar la información que se produce al ingresar e interactuar con los documentos del Repositorio.

En el caso de la Biblioteca Octavio Arizmendi Posada, el repositorio Intellectum es la herramienta  institucional creada para tal fin; fundado en el año 2013 cuenta con una colección de aproximadamente 32.000 documentos a la fecha, distribuidos en documentos resultado de Trabajos de Grado, el Archivo Histórico Cipriano Rodriguez Santa María, Publicaciones académicas, documentos de Memoria Institucional, Artículos de investigación indexados, Recursos Educativos Digitales Abiertos  y otros documentos de relevancia institucional.

Ahora bien, con el fin de obtener más información de este y sacar provecho de su funcionamiento, la Mesa de Analítica de la Biblioteca inició un proyecto que consistía en desarrollar un dashboard (tablero interactivo con los principales indicadores de gestión) que fuese capaz de suplir las necesidades de información descriptiva y brindar herramientas que fundamenten la toma de decisiones y la implementación de estrategias. Por otra parte, también se propuso elaborar otro dashboard para ser alojado en una sección pública de estadísticas dentro de la página web, para que pueda ser consultado por cualquier usuario.

Para esto, fue necesario identificar la materia prima, las herramientas y la implementación de técnicas de ETL, minería de texto y visualización de datos, para lograr el objetivo. A continuación se describen los pasos recorridos:

  1. Fuentes de datos

Para iniciar el proyecto, se identificaron dos fuentes de datos necesarias:

  • BME: Contiene los metadatos de los documentos almacenados en el repositorio; se optó por crear una copia de la base de datos que compone el repositorio y dejarla en un almacén de datos creado para este fin, siendo actualizado con una periodicidad mensual por el analista encargado del repositorio.
  • Google Analytics: brinda información de las interacciones de los usuarios en la página web a través de la herramienta con el mismo nombre, la cual se encarga de medir el tráfico web, el cual se ha implementado en el dominio del repositorio desde el año 2016.
  1. Herramientas

En cuanto a las herramientas usadas para la creación del dashboard, hemos optado por Power BI de Microsoft, suficientemente poderosa para generar las conexiones con las fuentes de datos y realizar los procesos de ETL, minería y creación de los dashboards.

Así mismo, se ha utilizado la API de Google Analytics, la cual permite lanzar consultas a la cuenta vinculada al dominio del repositorio, para posteriormente cosechar los datos dentro de Power BI.

Finalmente, se emplea SharePoint de Microsoft en su versión institucional para almacenar los datos en la nube y de esta manera no ligar Power BI a un equipo en específico.

  1. Extracción y carga de los datos

La conexión a la fuente de datos BME, la ejecutamos empleando la URL de acceso al archivo en línea, dentro del lago de datos creado.

Para la extracción de los datos de Google Analytics, usamos la API para cosecharlos dentro de Power BI, no obstante, encontramos que dicha API contiene dos tipos de límites: de registros y de consultas por tiempo; por lo cual debimos realizar consultas por mes, y esperando cierto tiempo para continuar con la carga de datos.

Los límites de la API los puedes consultar aquí.

  1. Transformación de los datos

Respecto a la fuente BME, se opta por no efectuar transformaciones a los registros que contienen campos errados, errores de digitación, u otros con el fin de detectar estos para posteriormente hacer el cambio directamente en el registro. Como resultado, se identifican las categorías relacionadas en la Imagen 1.

Respecto a los datos provenientes de Google Analytics, se hacen transformaciones básicas de traducción de las categorías, cambios de nombres de columnas, entre otros, identificando 10 categorías relacionadas también en la Imagen 1.

Imagen 1. Categorías seleccionadas de las fuentes de datos.
 

Luego de esto, y para la construcción del informe de tráfico web, surgió la necesidad de identificar los documentos consultados en la página web, para posteriormente obtener toda la información de sus metadatos y de esta manera enriquecer el dashboard, equivalente a encontrar un campo que nos permitiera cruzar información entre las dos bases de datos.

Imagen 2. Integración de las fuentes de datos

Para ello, identificamos que podríamos usar el handle de los documentos almacenados dentro de BME y extraer el mismo de las URL provenientes de Google Analytics usando minería de texto para crear el campo ‘key’ y lograr conectar las dos fuentes de datos.

Imagen 3. Creación del campo key

Posterior a esto, identificamos que las URL nos brindaban un poco más de información que podría ser empleada para la creación del dashboard de tráfico web, razón por la cual se extrajo información del tipo de interacción y los términos de búsqueda utilizados por los usuarios.

Finalmente, se detectaron dentro de las búsquedas, aquellas que empleaban técnicas de búsqueda avanzada como el uso de operadores booleanos, de proximidad y de truncamiento.

Imagen 4. Identificación del tipo de consulta
  1. Medidas

La selección de medidas la realizamos teniendo en cuenta el enfoque del informe, mezclando indicadores y medidas ampliamente usadas para analizar el tráfico web, junto a medidas específicas de la colección digital de Intellectum.

  • Documentos: Cantidad de documentos únicos identificados dentro de la fuente de datos BME.
  • Autores: Cantidad de autores de los documentos.
  • Idiomas: Diferentes idiomas de los documentos.
  • Documentos en acceso abierto: cantidad de documentos en Open Access.
  • Tipos de documentos: Identifica las diferentes tipologías de documentos almacenados.
  • Sesiones: Ingreso de un usuario por un periodo de 30 minutos de interacciones.
  • Usuarios nuevos: usuarios que ingresan por primera vez al dominio.
  • Porcentaje de rebote: El porcentaje de visitantes de un sitio web en particular que navegan fuera del sitio después de ver solo una página.
  • Duración media: tiempo promedio de permanencia en una página (tiene en cuenta la última interacción del usuario)
  • Consultas y descargas: cantidad de sesiones que implican la interacción con un documento identificado dentro de la fuente de datos BME.
  • Búsquedas: Cantidad de sesiones que presentan búsquedas.
  • Búsquedas avanzadas: cantidad de búsquedas que contienen operadores booleanos, de truncamiento o de proximidad.
  1. Creación de dashboards

Una vez establecidas las fuentes de datos, y seleccionadas las medidas, iniciamos con el desarrollo de los dashboards planteados en función de los objetivos del proyecto, dando como resultado dos dashboards:

  • Versión pública

Diseñado para ser incrustado dentro de la página web del repositorio, con información general de navegación, tendencias de consulta, países de consulta, comunidades, colecciones y documentos más consultados y descargados.

Imagen 5. Dashboard versión pública.
  • Versión de consulta administrativa

Más robusta que la anterior y segmentada en dos categorías de visualización: colecciones y tráfico web.

Imagen 6. Menú principal dashboard de consulta administrativa

La sección de colecciones contiene información relacionada con los documentos almacenados en el repositorio junto a sus características, usando como fuente de datos únicamente a BME.

Imagen 7. Sección colecciones dashboard de consulta administrativa

La sección de tráfico web, contiene una primera vista general de la información proveniente de las dos fuentes de datos utilizadas en el modelo y permite enfocarse posteriormente en los dos tipos de interacciones identificados en las URL cosechadas de Google Analytics.

Imagen 8. Sección tráfico web dashboard de consulta administrativa

La Consulta Bibliográfica se refiere a todas aquellas interacciones que incluyan un documento relacionado dentro de la fuente de datos BME, esto quiere decir, todas las interacciones que incluyen a una URL que contiene un handle almacenado dentro de la base de datos del repositorio.

Como resultado, se logra separar para su análisis, el comportamiento de consulta bibliográfica del repositorio, e identificar si el usuario realiza una consulta a la ficha bibliográfica del documento o la descarga de este.

Imagen 9. Subsección consulta bibliográfica de tráfico web

Por otra parte, la sección Consulta Interfaz contiene información de la interacción que tienen los usuarios con la interfaz misma de la página web del repositorio, aquí se encuentran incluidas las palabras usadas en las búsquedas, tipos de consulta, navegación, transacciones administrativas, fuente de tráfico, dispositivos, visitas a la página principal, páginas de información general, entre otros.

Imagen 10. Subsección consulta interfaz de tráfico web
  1. Conclusiones

La creación del presente modelo, brinda a la Biblioteca información suficiente para indagar acerca de sus colecciones y el uso que tienen las mismas dentro de la página web del repositorio, sin embargo, es necesario tener en cuenta que en el caso de la información proveniente de Google Analytics, esta se encuentra ligada a la ejecución de la herramienta dentro de las páginas web, razón por la cual se pueden excluir aquellas consultas que se hagan directo al servidor sin ejecutar la herramienta.

Por otra parte, se maneja una pequeña categoría de otras consultas dentro de la sección de tráfico web y consulta interfaz, que equivale a la diferencia de documentos detectados en Google Analytics, pero que no se encuentran dentro de BME, que puede obedecer a documentos que aún no han sido catalogados o sujetos a revisión por analista encargado del repositorio.

También identificamos que el modelo es capaz de detectar registros bibliográficos que presentan errores, lo que nos ayuda a mejorar el catálogo y que puede ser traducido en un aumento de la visibilidad de los documentos, recuperación acertada de la información y detección de cambios globales.

Finalmente, el reto es continuar con el mejoramiento del modelo, comparando las estadísticas de descargas del servidor en función de las contabilizadas con Google Analytics, identificando nuevos insights en la información y el uso de técnicas de ciencias de datos que nos permitan seguir creando estrategias para lograr los objetivos de los que hablamos inicialmente:  potenciar la visibilidad, el uso y el impacto de Intellectum.

Referencias

What is ETL (Extract, Transform, Load)? (s. f.). Recuperado 13 de diciembre de 2021, de https://www.ibm.com/cloud/learn/etl

Límites y cuotas en las solicitudes a API  |  API de administración de Analytics  |  Google Developers. (s. f.). Recuperado 13 de diciembre de 2021, de https://developers.google.com/analytics/devguides/config/mgmt/v3/limits-quotas

Deja un comentario