Assignment Big Data

Assignment sviluppato per il corso di Big Data. Si compone di 2 Job sviluppati sia utilizzando MapReduce di Hadoop che Spark.

I Job sono sviluppati utilizzando questo dataset, che raccoglie birre, birrerie e recensioni, da parte di diverse persone, delle birre.

I due Job sono così definiti:

Top N birrerie (N passabile come parametro, default 20) con almeno N birre diverse (N secondo parametro, default 5) con le medie di voti piu alta.(N recensioni minime per ogni birra, terzo parametro, 50 default).
Prima vengono classificate le birre in base alla media dei voti, poi vengono divise in classi di voto: media voto <= 2 bassa qualita; 2< media voto <= 4 media qualita; media voto > 4 alta qualità. Per ogni birreria viene calcolata la quantità di birre in ogni classe; alla fine, le birrerie vengono ordinate in base ad uno score, calcolato in base al numero di birre presente in ogni categoria, normalizzato rispetto al massimo numero di ogni classe di birre assegnate alle birrerie.

Per eseguire i vari job è possibile utilizzare i seguenti comandi:

Job1 Hadoop:

 hadoop jar progettoBD-1.0-SNAPSHOT.jar hadoop.job1.Job1 N1 N2 N3

I tre parametri sono tutti opzionali, con N1 = Numero birrerie da mettere in classifica finale; N2 = minimo di birre per ogni birrerie per essere considerate nella classifica; N3 = minimo di recensioni per ogni birra per essere considerate nella media dei voti.

Per vedere il risultato è possibile eseguire il comando:

hdfs dfs -cat giovannim/datasets/output/datasetprogetto/hadoop/job1/*

Job2 Hadoop:

 hadoop jar progettoBD-1.0-SNAPSHOT.jar hadoop.job2.Job2 N1 N2

I due parametri sono opzionali, con N1 = Numero birrerie da mettere in classifica finale; N2 = minimo di recensioni per ogni birra per essere considerate nella media dei voti.

Per vedere il risultato è possibile eseguire il comando:

hdfs dfs -cat giovannim/dataset/output/datasetprogetto/hadoop/job2/*

Job1 Spark:

spark2-submit --class spark.job1.Job1 progettoBD-1.0-SNAPSHOT.jar N1 N2 N3

I tre parametri sono tutti opzionali, con N1 = Numero birrerie da mettere in classifica finale; N2 = minimo di birre per ogni birrerie per essere considerate nella classifica; N3 = minimo di recensioni per ogni birra per essere considerate nella media dei voti.

Per vedere il risultato è possibile eseguire il comando:

hdfs dfs -cat giovannim/dataset/output/datasetprogetto/spark/job1/*

Job2 Spark:

spark2-submit --class spark.job2.Job2 progettoBD-1.0-SNAPSHOT.jar N1 N2

I due parametri sono opzionali, con N1 = Numero birrerie da mettere in classifica finale; N2 = minimo di recensioni per ogni birra per essere considerate nella media dei voti.

Per vedere il risultato è possibile eseguire il comando:

hdfs dfs -cat giovannim/dataset/output/datasetprogetto/spark/job2/*

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.idea		.idea
gradle/wrapper		gradle/wrapper
src/main		src/main
.gitignore		.gitignore
README.md		README.md
RelazioneBigData.pdf		RelazioneBigData.pdf
build.gradle		build.gradle
gradlew		gradlew
gradlew.bat		gradlew.bat
settings.gradle		settings.gradle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Assignment Big Data

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Assignment Big Data

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages