Software sviluppato in Python per l'estrazione automatica dei dati. L'applicazione si concentra su due diversi obiettivi: il primo riguarda l'estrazione di informazioni e di recensioni degli hotel per una determinata città, il secondo (che può essere o meno correlato con il primo) riguarda l'estrazione dei prezzi degli hotel per un periodo di tempo prestabilito.
Usare python3
Installare le seguenti librerie utilizzando pip https://pip.pypa.io/en/stable/quickstart/
seleniumhttps://selenium-python.readthedocs.io/mysql connectorhttps://dev.mysql.com/doc/connector-python/en/connector-python-installation-binary.htmlrehttps://docs.python.org/3/library/re.htmlconfigparserhttps://docs.python.org/3/library/configparser.htmlargparsehttps://docs.python.org/3/library/argparse.html
Scaricare il driver per la vostra versione di Google Chrome da questo link https://chromedriver.chromium.org/downloads.
DBstruttura.sql: file in formato sql che contiene la struttura del database utilizzato.config.ini: file di configurazione per l'accesso al database.URIextractor.py: file python che esegue l'estrazione delle url per la città selezionata e per il periodo di tempo specificato.InfoReviews.py: file python che esegue l'estrazione delle informazioni principali di tutti gli hotel per una specificata città.Prices.py: file python che esegue l'estrazione dei prezzi di tutti gli hotel utilizzando le url estratte dal file URIextractor.py.utility.py: file python contenente funzioni utilizzate nel file URIextractor.py.run.sh: file con estensione sh che esegue in ordine i file: URIextractor.py, InfoReviews.py, Prices.py.
Procedimento di estrazione delle informazioni e delle recensioni per gli hotel di una determinata città
- Importare la struttura del database utilizzando il file
DBstruttura.sql, creando così il DB (verificare che non sia presente un omonimo DB). - Modificare il file
config.inisecondo le proprie credenziali. - Eseguire il file
InfoReviews.py.- Argomenti utilizzabili:
- -c seguito dalla città desiderata. Obbligatorio.
- -v per il primo livello di debug, -vv per il secondo con conseguente aumento di messaggi in output. Se omesso mostrerà in output solo messaggi di errore. Facoltativo.
- -ph seguito da un numero intero per stabilire quante pagine di hotel estrarre. Se omesso sarà esguita l'estrazione su tutte. Facoltativo.
- -nr seguito da un numero intero per stabilire quante pagine di recensioni per ogni hotel estrarre. Se non specificato verranno estratte informazioni da tutte le pagini disponibili. Facoltativo.
- Argomenti utilizzabili:
- Esempio: python InfoReviews.py -c pisa -ph 2 -nr 1 -vv

- Importare la struttura del database utilizzando il file
DBstruttura.sql, creando così il DB (verificare che non sia presente un omonimo DB). - Modificare il file
config.inisecondo le proprie credenziali. - Eseguire il file
URIextractor.py- Argomenti utilizzabili:
- -c seguito dalla città desiderata. Obbligatorio.
- -d seguito ,tra doppi apici, da mese e anno dai quali si desidera iniziare l'estrazione. Obbligatorio.
- -m seguito dal numero di mesi per cui effettuare l'estrazione. Obbligatorio.
- Argomenti utilizzabili:

