En este ejercicio se trabajará con un conjunto de datos reales publicados para la shared-task ProfNER, celebrada en el año 2021. Este conjunto de datos son tweets en español que tienen asignada una etiqueta numérica, que representa la presencia (valor 1) o no (valor 0) de menciones de profesiones en el tweet.
Para el ejercicio se entrenan diferentes modelos de clasificación que permiten clasificar correctamente los tweets. Para ello se crean y utilizan funciones de preprocesado de datos, se aplicar estrategian de vectorización de trextos como TF-IDF o embeddings, y se entrenan/evaluan modelos de clasificación.