Desarrollo de Web Scraper para Extracción de Datos Judiciales del C...
Description
Se busca un desarrollador o equipo con experiencia para realizar la extracción de datos (web scraping) de la web oficial del Consejo General del Poder Judicial (CGPJ) en España (.) El objetivo principal es construir una base de datos estructurada y completa con toda la información pública disponible sobre jueces, magistrados y órganos judiciales.
La plataforma del CGPJ contiene directorios y buscadores que requieren ser recorridos para extraer todos los registros. Es fundamental manejar la navegación dinámica, formularios de búsqueda, filtros y paginación que puedan presentarse en la web.
Los datos a recopilar por cada entrada deben incluir, siempre que estén disponibles:
Nombre del juez o magistrado
Tipo (juez, magistrado, etc.)
ÓRgano judicial o juzgado al que pertenece
Tipo de juzgado (penal, civil, social, mercantil, etc.)
Provincia
Ciudad
Comunidad autónoma
Dirección del juzgado
Dependencia o institución
Cualquier otro dato adicional presente en la ficha
Es crucial mantener correctamente las relaciones entre jueces y juzgados en la base de datos resultante. Se prefiere un enfoque de scraping automático, aunque se considerará un enfoque mixto si la web presenta limitaciones técnicas significativas.
Se valorará el desarrollo en Python utilizando librerías como BeautifulSoup, Scrapy o Selenium, pero se aceptarán otras tecnologías siempre que garanticen un resultado fiable y de alta calidad. La escalabilidad y reutilización del código serán puntos a favor.
La entrega final del proyecto debe incluir:
Una base de datos estructurada (en formatos como CSV, Excel o similar) con todos los datos extraídos.
Datos limpios, organizados y listos para su uso.
Opcionalmente, el código fuente utilizado para la extracción.
Category: IT & Programming Subcategory: Web development What is the scope of the project?: Create a new custom site
Skills
Want AI to find more roles like this?
Upload your CV once. Get matched to relevant assignments automatically.