Skip to content

gmt1996/DOTApy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

160 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scraper DOTApy

Software sviluppato in Python per l'estrazione automatica dei dati. L'applicazione si concentra su due diversi obiettivi: il primo riguarda l'estrazione di informazioni e di recensioni degli hotel per una determinata città, il secondo (che può essere o meno correlato con il primo) riguarda l'estrazione dei prezzi degli hotel per un periodo di tempo prestabilito.

Requisiti

Usare python3

Installare le seguenti librerie utilizzando pip https://pip.pypa.io/en/stable/quickstart/

Scaricare il driver per la vostra versione di Google Chrome da questo link https://chromedriver.chromium.org/downloads.

Struttura progetto

  • DBstruttura.sql: file in formato sql che contiene la struttura del database utilizzato.
  • config.ini: file di configurazione per l'accesso al database.
  • URIextractor.py: file python che esegue l'estrazione delle url per la città selezionata e per il periodo di tempo specificato.
  • InfoReviews.py: file python che esegue l'estrazione delle informazioni principali di tutti gli hotel per una specificata città.
  • Prices.py: file python che esegue l'estrazione dei prezzi di tutti gli hotel utilizzando le url estratte dal file URIextractor.py.
  • utility.py: file python contenente funzioni utilizzate nel file URIextractor.py.
  • run.sh: file con estensione sh che esegue in ordine i file: URIextractor.py, InfoReviews.py, Prices.py.

Procedimento di estrazione delle informazioni e delle recensioni per gli hotel di una determinata città

  • Importare la struttura del database utilizzando il file DBstruttura.sql, creando così il DB (verificare che non sia presente un omonimo DB).
  • Modificare il file config.ini secondo le proprie credenziali.
  • Eseguire il file InfoReviews.py.
    • Argomenti utilizzabili:
      • -c seguito dalla città desiderata. Obbligatorio.
      • -v per il primo livello di debug, -vv per il secondo con conseguente aumento di messaggi in output. Se omesso mostrerà in output solo messaggi di errore. Facoltativo.
      • -ph seguito da un numero intero per stabilire quante pagine di hotel estrarre. Se omesso sarà esguita l'estrazione su tutte. Facoltativo.
      • -nr seguito da un numero intero per stabilire quante pagine di recensioni per ogni hotel estrarre. Se non specificato verranno estratte informazioni da tutte le pagini disponibili. Facoltativo.
  • Esempio: python InfoReviews.py -c pisa -ph 2 -nr 1 -vv estrazioneInfohotelRec

Procedimento di estrazione dei prezzi per gli hotel di una determinata città

  • Importare la struttura del database utilizzando il file DBstruttura.sql, creando così il DB (verificare che non sia presente un omonimo DB).
  • Modificare il file config.ini secondo le proprie credenziali.
  • Eseguire il file URIextractor.py
    • Argomenti utilizzabili:
      • -c seguito dalla città desiderata. Obbligatorio.
      • -d seguito ,tra doppi apici, da mese e anno dai quali si desidera iniziare l'estrazione. Obbligatorio.
      • -m seguito dal numero di mesi per cui effettuare l'estrazione. Obbligatorio.
  • Esempio: python URIextractor.py -c pisa -d "maggio 2020" -m 6 estrazioneUrl
  • Eseguire il file Prices.py che permette l'estrazione dei prezzi di tutti gli hotel per il periodo selezionato con il programma URIextractor.py. Esempio: python Prices.py estrazionePrezzo

About

No description or website provided.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors