From e90edc18a1d25e9dffa94a1909cebeebd4058dd0 Mon Sep 17 00:00:00 2001
From: Joe Nievelt <jnievelt@twitter.com>
Date: Thu, 14 May 2015 13:18:29 -0700
Subject: [PATCH 01/72] Prepare for release of 0.14.0

---
 CHANGES.md                                    | 46 +++++++++++++++++++
 README.md                                     |  2 +-
 project/Build.scala                           |  2 +-
 .../src/main/scala/com/twitter/package.scala  |  2 +-
 .../ExecutionTutorial.scala                   |  2 +-
 version.sbt                                   |  2 +-
 6 files changed, 51 insertions(+), 5 deletions(-)

diff --git a/CHANGES.md b/CHANGES.md
index a6bdf9a5d0..9d066bc5b2 100644
--- a/CHANGES.md
+++ b/CHANGES.md
@@ -1,5 +1,51 @@
 # Scalding #
 
+### Version 0.14.0 ###
+* add .unit to Execution object #1189
+* Override hashCode for Args #1190
+* Put a value in a exception message #1191
+* Add an exclusiveUpper method to DateRange #1194
+* Covert LzoTextDelimited to Cascading scheme. #1179
+* Remove Travis IRC notifications #1200
+* add LookupJoin and LookupJoinTest changes from summingbird #1199
+* Add a new ExecutionApp tutorial #1196
+* Move main simple example to be the typed API, and put the .'s at the sta... #1193
+* Add Execution.withArgs #1205
+* Config/Cascading updater #1197
+* Remove algebird serializers #1206
+* remove warnings in CumulativeSum #1215
+* Implicit execution context / easier switching between modes #1113
+* add row l1 normalize #1214
+* provide Args as an implicit val #1219
+* call sourceConfInit when reading from taps in local mode #1228
+* Add distinctCount and distinctValues helper methods to KeyedList. #1232
+* import hygiene: remove unused imports and remove JavaConversions use #1239
+* Swap hash and filename for filename-extension-sensitive code #1243
+* Remove more unused imports #1240
+* Provide useHdfsLocalMode for an easy switch to mapreduce local mode #1244
+* upgrade scalacheck and scalatest #1246
+* Optimize string and (hopefully) number comparisons a bit #1241
+* Note the active FlowProcess for Joiners #1235
+* Make sure Executions are executed at most once #1253
+* Fix Config.getUniqueIDs #1254
+* Add MustHasReducers trait. #1252
+* Make sure the EvalCache thread isDaemon #1255
+* Use non-regex split function #1251
+* make InputSizeReducerEstimator work for any CompositeTap #1256
+* TimePathedSource helper methods #1257
+* Fix for reducer estimation not working correctly if withReducers is set to 1 reducer #1263
+* Add make(dest) to TypedPipe #1217
+* Fix SimpleDateFormat caching by default #1265
+* upgrade sbt and sbt launcher script #1270
+* Add TypedPipeDiff for comparing typed pipes #1266
+* Change separator from \1 to \u0001 #1271
+* Disable reducer estimation for map-only steps #1276
+* Local sources support multiple paths #1275
+* fix the spelling of the cumulativeSumTest file #1281
+* Hydrate both sides of sampledCounts in skewJoinWithSmaller #1278
+* Bijection 0.8.0, algebird 0.10.0, chill 0.6.0, scala 2.10.5 #1287
+* Remove some deprecated items #1288
+
 ### Version 0.13.1 ###
 * Back out 4 changes to be binary compatible: https://github.com/twitter/scalding/pull/1187
 * Use java.util.Random instead of scala.util.Random: https://github.com/twitter/scalding/pull/1186
diff --git a/README.md b/README.md
index fc1b882d4d..595d146b82 100644
--- a/README.md
+++ b/README.md
@@ -4,7 +4,7 @@ Scalding is a Scala library that makes it easy to specify Hadoop MapReduce jobs.
 
 ![Scalding Logo](https://raw.github.com/twitter/scalding/develop/logo/scalding.png)
 
-Current version: `0.13.1`
+Current version: `0.14.0`
 
 ## Word Count
 
diff --git a/project/Build.scala b/project/Build.scala
index 737b4ba60d..4079e594b5 100644
--- a/project/Build.scala
+++ b/project/Build.scala
@@ -224,7 +224,7 @@ object ScaldingBuild extends Build {
     Some(subProj)
       .filterNot(unreleasedModules.contains(_))
       .map {
-      s => "com.twitter" % ("scalding-" + s + "_2.10") % "0.13.0"
+      s => "com.twitter" % ("scalding-" + s + "_2.10") % "0.14.0"
     }
 
   def module(name: String) = {
diff --git a/scalding-core/src/main/scala/com/twitter/package.scala b/scalding-core/src/main/scala/com/twitter/package.scala
index f712d2d353..45904fe714 100644
--- a/scalding-core/src/main/scala/com/twitter/package.scala
+++ b/scalding-core/src/main/scala/com/twitter/package.scala
@@ -34,7 +34,7 @@ package object scalding {
   /**
    * Make sure this is in sync with version.sbt
    */
-  val scaldingVersion: String = "0.13.1"
+  val scaldingVersion: String = "0.14.0"
 
   object RichPathFilter {
     implicit def toRichPathFilter(f: PathFilter) = new RichPathFilter(f)
diff --git a/tutorial/execution-tutorial/ExecutionTutorial.scala b/tutorial/execution-tutorial/ExecutionTutorial.scala
index f27ee2da8e..b4b57345ea 100644
--- a/tutorial/execution-tutorial/ExecutionTutorial.scala
+++ b/tutorial/execution-tutorial/ExecutionTutorial.scala
@@ -30,7 +30,7 @@ To test it, first build the assembly jar from root directory:
  ./sbt execution-tutorial/assembly
 
 Run:
-  scala -classpath  tutorial/execution-tutorial/target/execution-tutorial-assembly-0.13.1.jar \
+  scala -classpath  tutorial/execution-tutorial/target/execution-tutorial-assembly-0.14.0.jar \
     com.twitter.scalding.tutorial.MyExecJob --local \
     --input tutorial/data/hello.txt \
     --output tutorial/data/execution_output.txt
diff --git a/version.sbt b/version.sbt
index beb9953b43..501eb5530c 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1 @@
-version in ThisBuild := "0.13.1"
+version in ThisBuild := "0.14.0"

From 2d5aa36139655a0ece5baf83c3665cf9bc1d9e2c Mon Sep 17 00:00:00 2001
From: Ian O'Connell <ianoconnell@gmail.com>
Date: Tue, 2 Feb 2016 08:04:52 -0800
Subject: [PATCH 02/72] Merge pull request #1488 from
 rubanm/rubanm/drop_parquet_cascading

Remove dependency on parquet-cascading
---
 .travis.blacklist                             |   4 +-
 project/Build.scala                           |  53 ++++--
 .../src/test/resources/test.thrift            |   7 +
 .../parquet/scrooge/ParquetScroogeScheme.java |   2 +-
 .../scrooge/Parquet346ScroogeScheme.scala     |   4 +-
 .../scrooge/ParquetScroogeSchemeTest.java     |   2 +-
 .../scalding/parquet/ParquetValueScheme.java  | 166 +++++++++++++++++
 .../parquet/thrift/ParquetTBaseScheme.java    |  64 +++++++
 .../parquet/tuple/ParquetTupleConverter.java  |  92 ++++++++++
 .../parquet/tuple/ParquetTupleScheme.java     | 173 ++++++++++++++++++
 .../parquet/tuple/SchemaIntersection.java     |  45 +++++
 .../parquet/tuple/TupleReadSupport.java       |  60 ++++++
 .../tuple/TupleRecordMaterializer.java        |  27 +++
 .../parquet/tuple/TupleWriteSupport.java      |  94 ++++++++++
 .../thrift/Parquet346TBaseScheme.scala        |   4 +-
 .../parquet/thrift/ParquetThrift.scala        |   9 +-
 .../scalding/parquet/tuple/ParquetTuple.scala |   3 +-
 .../thrift/TestParquetTBaseScheme.java        | 168 +++++++++++++++++
 .../parquet/tuple/TestParquetTupleScheme.java | 165 +++++++++++++++++
 scalding-parquet/src/test/resources/names.txt |   3 +
 20 files changed, 1123 insertions(+), 22 deletions(-)
 create mode 100644 scalding-parquet-fixtures/src/test/resources/test.thrift
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java
 create mode 100644 scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java
 create mode 100644 scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
 create mode 100644 scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
 create mode 100644 scalding-parquet/src/test/resources/names.txt

diff --git a/.travis.blacklist b/.travis.blacklist
index 62bf89b1be..a30e311bf7 100644
--- a/.travis.blacklist
+++ b/.travis.blacklist
@@ -5,5 +5,7 @@ scalding-benchmarks
 # These are just for fixtures, so blacklist for 2.10 and 2.11
 scalding-thrift-macros-fixtures
 scalding-thrift-macros-fixtures
+scalding-parquet-fixtures
+scalding-parquet-fixtures
+scalding-parquet-scrooge-fixtures
 scalding-parquet-scrooge-fixtures
-scalding-parquet-scrooge-fixtures
\ No newline at end of file
diff --git a/project/Build.scala b/project/Build.scala
index faaec2e027..d21c382c60 100644
--- a/project/Build.scala
+++ b/project/Build.scala
@@ -14,6 +14,8 @@ import scala.collection.JavaConverters._
 
 object ScaldingBuild extends Build {
 
+  import ScroogeSBT.autoImport._
+
   def scalaBinaryVersion(scalaVersion: String) = scalaVersion match {
     case version if version startsWith "2.10" => "2.10"
     case version if version startsWith "2.11" => "2.11"
@@ -22,6 +24,7 @@ object ScaldingBuild extends Build {
   def isScala210x(scalaVersion: String) = scalaBinaryVersion(scalaVersion) == "2.10"
 
   val algebirdVersion = "0.11.0"
+  val apacheCommonsVersion = "2.2"
   val avroVersion = "1.7.4"
   val bijectionVersion = "0.8.1"
   val cascadingAvroVersion = "2.1.2"
@@ -347,10 +350,38 @@ object ScaldingBuild extends Build {
     )
   ).dependsOn(scaldingCore)
 
+  lazy val scaldingParquetFixtures = module("parquet-fixtures")
+    .settings(ScroogeSBT.newSettings:_*)
+    .settings(
+      scroogeThriftSourceFolder in Test <<= baseDirectory {
+        base => base / "src/test/resources"
+      },
+      sourceGenerators in Test <+= (
+          streams,
+          scroogeThriftSources in Test,
+          scroogeIsDirty in Test,
+          sourceManaged
+      ).map { (out, sources, isDirty, outputDir) =>
+        // for some reason, sbt sometimes calls us multiple times, often with no source files.
+        if (isDirty && sources.nonEmpty) {
+          out.log.info("Generating scrooge thrift for %s ...".format(sources.mkString(", ")))
+          ScroogeSBT.compile(out.log, outputDir, sources.toSet, Set(), Map(), "java", Set("--language", "java"))
+        }
+        (outputDir ** "*.java").get.toSeq
+      },
+      libraryDependencies ++= Seq(
+        "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+        "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
+        "org.apache.thrift" % "libthrift" % thriftVersion
+      )
+    )
+
   lazy val scaldingParquet = module("parquet").settings(
     libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+      "org.apache.parquet" % "parquet-column" % parquetVersion,
+      "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
+      "org.apache.parquet" % "parquet-thrift" % parquetVersion
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-      "org.apache.parquet" % "parquet-cascading" % parquetVersion
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-core"),
@@ -359,12 +390,11 @@ object ScaldingBuild extends Build {
       "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
       "org.scala-lang" % "scala-reflect" % scalaVersion,
       "com.twitter" %% "bijection-macros" % bijectionVersion,
-      "com.twitter" %% "chill-bijection" % chillVersion
+      "com.twitter" %% "chill-bijection" % chillVersion,
+      "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
     ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
   }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full))
-    .dependsOn(scaldingCore, scaldingHadoopTest % "test")
-
-  import ScroogeSBT.autoImport._
+    .dependsOn(scaldingCore, scaldingHadoopTest % "test", scaldingParquetFixtures % "test->test")
 
   lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
     .settings(ScroogeSBT.newSettings:_*)
@@ -387,25 +417,24 @@ object ScaldingBuild extends Build {
       },
       libraryDependencies ++= Seq(
         "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+        "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
         "org.apache.thrift" % "libthrift" % thriftVersion
+      )
     )
-  )
 
   lazy val scaldingParquetScrooge = module("parquet-scrooge")
     .settings(
       libraryDependencies ++= Seq(
+        "org.slf4j" % "slf4j-api" % slf4jVersion,
         // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-        "org.apache.parquet" % "parquet-cascading" % parquetVersion
+        "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
           exclude("org.apache.parquet", "parquet-pig")
           exclude("com.twitter.elephantbird", "elephant-bird-pig")
           exclude("com.twitter.elephantbird", "elephant-bird-core"),
-         "org.slf4j" % "slf4j-api" % slf4jVersion,
-        "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests",
-         "com.twitter" %% "scrooge-serializer" % scroogeVersion,
+        "com.twitter" %% "scrooge-serializer" % scroogeVersion,
         "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
         "com.novocode" % "junit-interface" % "0.11" % "test",
         "junit" % "junit" % junitVersion % "test"
-
       )
   ).dependsOn(scaldingCore, scaldingParquet % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
 
@@ -564,7 +593,7 @@ object ScaldingBuild extends Build {
   addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
   ).dependsOn(scaldingCore)
 
-lazy val scaldingThriftMacrosFixtures = module("thrift-macros-fixtures")
+  lazy val scaldingThriftMacrosFixtures = module("thrift-macros-fixtures")
     .settings(ScroogeSBT.newSettings:_*)
     .settings(
       scroogeThriftSourceFolder in Test <<= baseDirectory {
diff --git a/scalding-parquet-fixtures/src/test/resources/test.thrift b/scalding-parquet-fixtures/src/test/resources/test.thrift
new file mode 100644
index 0000000000..f30e354571
--- /dev/null
+++ b/scalding-parquet-fixtures/src/test/resources/test.thrift
@@ -0,0 +1,7 @@
+namespace java com.twitter.scalding.parquet.thrift_java.test
+#@namespace scala com.twitter.scalding.parquet.thrift_scala.test
+
+struct Name {
+  1: required string first_name,
+  2: optional string last_name
+}
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java
index a4ef0bb2f6..cff692b347 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java
+++ b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java
@@ -22,11 +22,11 @@
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
 
+import com.twitter.scalding.parquet.ParquetValueScheme;
 import com.twitter.scrooge.ThriftStruct;
 
 import cascading.flow.FlowProcess;
 import cascading.tap.Tap;
-import org.apache.parquet.cascading.ParquetValueScheme;
 import org.apache.parquet.filter2.predicate.FilterPredicate;
 import org.apache.parquet.hadoop.ParquetInputFormat;
 import org.apache.parquet.hadoop.ParquetOutputFormat;
diff --git a/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala b/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala
index fe1444f222..afc15ebc6b 100644
--- a/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala
+++ b/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala
@@ -2,10 +2,10 @@ package com.twitter.scalding.parquet.scrooge
 
 import cascading.flow.FlowProcess
 import cascading.tap.Tap
+import com.twitter.scalding.parquet.ParquetValueScheme
 import com.twitter.scalding.parquet.thrift.Parquet346StructTypeRepairer
 import com.twitter.scrooge.{ ThriftStruct, ThriftStructCodec }
 import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
-import org.apache.parquet.cascading.ParquetValueScheme
 import org.apache.parquet.hadoop.thrift.ThriftReadSupport
 import org.apache.parquet.schema.MessageType
 import org.apache.parquet.thrift.struct.ThriftType.StructType
@@ -83,4 +83,4 @@ class Parquet346ScroogeRecordConverter[T <: ThriftStruct](thriftClass: Class[T],
 
   // this is the fix -- we add in the missing structOrUnionType metadata
   // before passing it along
-  Parquet346StructTypeRepairer.repair(thriftType))
\ No newline at end of file
+  Parquet346StructTypeRepairer.repair(thriftType))
diff --git a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java
index 4055da43b6..bd626832ea 100644
--- a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java
+++ b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java
@@ -45,9 +45,9 @@
 import org.apache.thrift.protocol.TProtocolFactory;
 import org.apache.thrift.transport.TIOStreamTransport;
 import org.junit.Test;
-import org.apache.parquet.cascading.ParquetValueScheme.Config;
 import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
 import org.apache.parquet.hadoop.util.ContextUtil;
+import com.twitter.scalding.parquet.ParquetValueScheme.Config;
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.TestPersonWithAllInformation;
 import com.twitter.scalding.parquet.scrooge.thrift_java.test.Address;
 import com.twitter.scalding.parquet.scrooge.thrift_java.test.Phone;
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java
new file mode 100644
index 0000000000..2d71c44896
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java
@@ -0,0 +1,166 @@
+package com.twitter.scalding.parquet;
+
+import java.io.IOException;
+import java.io.Serializable;
+
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.mapred.OutputCollector;
+import org.apache.hadoop.mapred.RecordReader;
+
+import cascading.flow.FlowProcess;
+import cascading.scheme.Scheme;
+import cascading.scheme.SinkCall;
+import cascading.scheme.SourceCall;
+import cascading.tap.Tap;
+import cascading.tuple.Tuple;
+import cascading.tuple.TupleEntry;
+import org.apache.parquet.filter2.predicate.FilterPredicate;
+import org.apache.parquet.hadoop.ParquetInputFormat;
+import org.apache.parquet.hadoop.mapred.Container;
+import org.apache.parquet.hadoop.thrift.ParquetThriftInputFormat;
+import org.apache.parquet.hadoop.thrift.ThriftReadSupport;
+
+import static org.apache.parquet.Preconditions.checkNotNull;
+
+/**
+ * A Cascading Scheme that returns a simple Tuple with a single value, the "value" object
+ * coming out of the underlying InputFormat.
+ *
+ * This is an abstract class; implementations are expected to set up their Input/Output Formats
+ * correctly in the respective Init methods.
+ */
+public abstract class ParquetValueScheme<T> extends Scheme<JobConf, RecordReader, OutputCollector, Object[], Object[]>{
+
+  public static final class Config<T> implements Serializable {
+    private final FilterPredicate filterPredicate;
+    private final String deprecatedProjectionString;
+    private final String strictProjectionString;
+    private final Class<T> klass;
+
+    private Config(Class<T> klass, FilterPredicate filterPredicate, String deprecatedProjectionString, String strictProjectionString) {
+      this.filterPredicate = filterPredicate;
+      this.deprecatedProjectionString = deprecatedProjectionString;
+      this.strictProjectionString = strictProjectionString;
+      this.klass = klass;
+    }
+
+    public Config() {
+      filterPredicate = null;
+      deprecatedProjectionString = null;
+      strictProjectionString = null;
+      klass = null;
+    }
+
+    public FilterPredicate getFilterPredicate() {
+      return filterPredicate;
+    }
+
+    @Deprecated
+    public String getProjectionString() {
+      return deprecatedProjectionString;
+    }
+
+    public String getStrictProjectionString() {
+      return strictProjectionString;
+    }
+
+    public Class<T> getKlass() {
+      return klass;
+    }
+
+    public Config<T> withFilterPredicate(FilterPredicate f) {
+      return new Config<T>(this.klass, checkNotNull(f, "filterPredicate"), this.deprecatedProjectionString, this.strictProjectionString);
+    }
+
+    @Deprecated
+    public Config<T> withProjectionString(String p) {
+      return new Config<T>(this.klass, this.filterPredicate, checkNotNull(p, "projectionString"), this.strictProjectionString);
+    }
+
+    public Config<T> withStrictProjectionString(String p) {
+      return new Config<T>(this.klass, this.filterPredicate, this.deprecatedProjectionString, checkNotNull(p, "projectionString"));
+    }
+
+    public Config<T> withRecordClass(Class<T> klass) {
+      return new Config<T>(checkNotNull(klass, "recordClass"), this.filterPredicate, this.deprecatedProjectionString, this.strictProjectionString);
+    }
+  }
+
+  private static final long serialVersionUID = 157560846420730043L;
+  protected final Config<T> config;
+
+  public ParquetValueScheme() {
+    this(new Config<T>());
+  }
+
+  public ParquetValueScheme(FilterPredicate filterPredicate) {
+    this(new Config<T>().withFilterPredicate(filterPredicate));
+  }
+
+  public ParquetValueScheme(Config<T> config) {
+    this.config = config;
+  }
+
+  @Deprecated
+  private void setProjectionPushdown(JobConf jobConf) {
+    if (this.config.deprecatedProjectionString != null) {
+      ThriftReadSupport.setProjectionPushdown(jobConf, this.config.deprecatedProjectionString);
+    }
+  }
+
+  private void setStrictProjectionPushdown(JobConf jobConf) {
+    if (this.config.strictProjectionString != null) {
+      ThriftReadSupport.setStrictFieldProjectionFilter(jobConf, this.config.strictProjectionString);
+    }
+  }
+
+  private void setPredicatePushdown(JobConf jobConf) {
+    if (this.config.filterPredicate != null) {
+      ParquetInputFormat.setFilterPredicate(jobConf, this.config.filterPredicate);
+    }
+  }
+  @Override
+  public void sourceConfInit(FlowProcess<JobConf> jobConfFlowProcess, Tap<JobConf, RecordReader, OutputCollector> jobConfRecordReaderOutputCollectorTap, final JobConf jobConf) {
+    setPredicatePushdown(jobConf);
+    setProjectionPushdown(jobConf);
+    setStrictProjectionPushdown(jobConf);
+    setRecordClass(jobConf);
+  }
+
+  private void setRecordClass(JobConf jobConf) {
+    if (config.klass != null) {
+      ParquetThriftInputFormat.setThriftClass(jobConf, config.klass);
+    }
+  }
+
+  @SuppressWarnings("unchecked")
+  @Override
+  public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader> sc)
+      throws IOException {
+    Container<T> value = (Container<T>) sc.getInput().createValue();
+    boolean hasNext = sc.getInput().next(null, value);
+    if (!hasNext) { return false; }
+
+    // Skip nulls
+    if (value == null) { return true; }
+
+    sc.getIncomingEntry().setTuple(new Tuple(value.get()));
+    return true;
+  }
+
+  @SuppressWarnings("unchecked")
+  @Override
+  public void sink(FlowProcess<JobConf> fp, SinkCall<Object[], OutputCollector> sc)
+      throws IOException {
+    TupleEntry tuple = sc.getOutgoingEntry();
+
+    if (tuple.size() != 1) {
+      throw new RuntimeException("ParquetValueScheme expects tuples with an arity of exactly 1, but found " + tuple.getFields());
+    }
+
+    T value = (T) tuple.getObject(0);
+    OutputCollector output = sc.getOutput();
+    output.collect(null, value);
+  }
+
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java
new file mode 100644
index 0000000000..d62596b98d
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java
@@ -0,0 +1,64 @@
+package com.twitter.scalding.parquet.thrift;
+
+import com.twitter.scalding.parquet.ParquetValueScheme;
+
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.mapred.OutputCollector;
+import org.apache.hadoop.mapred.RecordReader;
+import org.apache.thrift.TBase;
+
+import cascading.flow.FlowProcess;
+import cascading.tap.Tap;
+import org.apache.parquet.filter2.predicate.FilterPredicate;
+import org.apache.parquet.hadoop.ParquetInputFormat;
+import org.apache.parquet.hadoop.mapred.DeprecatedParquetInputFormat;
+import org.apache.parquet.hadoop.mapred.DeprecatedParquetOutputFormat;
+import org.apache.parquet.hadoop.thrift.ThriftReadSupport;
+import org.apache.parquet.hadoop.thrift.TBaseWriteSupport;
+import org.apache.parquet.thrift.TBaseRecordConverter;
+
+public class ParquetTBaseScheme<T extends TBase<?,?>> extends ParquetValueScheme<T> {
+
+  // In the case of reads, we can read the thrift class from the file metadata
+  public ParquetTBaseScheme() {
+    this(new Config<T>());
+  }
+
+  public ParquetTBaseScheme(Class<T> thriftClass) {
+    this(new Config<T>().withRecordClass(thriftClass));
+  }
+
+  public ParquetTBaseScheme(FilterPredicate filterPredicate) {
+    this(new Config<T>().withFilterPredicate(filterPredicate));
+  }
+
+  public ParquetTBaseScheme(FilterPredicate filterPredicate, Class<T> thriftClass) {
+    this(new Config<T>().withRecordClass(thriftClass).withFilterPredicate(filterPredicate));
+  }
+
+  public ParquetTBaseScheme(ParquetValueScheme.Config<T> config) {
+    super(config);
+  }
+
+  @Override
+  public void sourceConfInit(FlowProcess<JobConf> fp,
+      Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
+    super.sourceConfInit(fp, tap, jobConf);
+    jobConf.setInputFormat(DeprecatedParquetInputFormat.class);
+    ParquetInputFormat.setReadSupportClass(jobConf, ThriftReadSupport.class);
+    ThriftReadSupport.setRecordConverterClass(jobConf, TBaseRecordConverter.class);
+  }
+
+  @Override
+  public void sinkConfInit(FlowProcess<JobConf> fp,
+      Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
+
+    if (this.config.getKlass() == null) {
+      throw new IllegalArgumentException("To use ParquetTBaseScheme as a sink, you must specify a thrift class in the constructor");
+    }
+
+    DeprecatedParquetOutputFormat.setAsOutputFormat(jobConf);
+    DeprecatedParquetOutputFormat.setWriteSupportClass(jobConf, TBaseWriteSupport.class);
+    TBaseWriteSupport.<T>setThriftClass(jobConf, this.config.getKlass());
+  }
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java
new file mode 100644
index 0000000000..4f313d7392
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java
@@ -0,0 +1,92 @@
+package com.twitter.scalding.parquet.tuple;
+
+import cascading.tuple.Tuple;
+
+import org.apache.parquet.io.api.Binary;
+import org.apache.parquet.io.api.Converter;
+import org.apache.parquet.io.api.GroupConverter;
+import org.apache.parquet.io.api.PrimitiveConverter;
+import org.apache.parquet.schema.GroupType;
+import org.apache.parquet.schema.Type;
+
+public class ParquetTupleConverter extends GroupConverter {
+
+  protected Tuple currentTuple;
+  private final Converter[] converters;
+
+  public ParquetTupleConverter(GroupType parquetSchema) {
+    int schemaSize = parquetSchema.getFieldCount();
+
+    this.converters = new Converter[schemaSize];
+    for (int i = 0; i < schemaSize; i++) {
+      Type type = parquetSchema.getType(i);
+      converters[i] = newConverter(type, i);
+    }
+  }
+
+  private Converter newConverter(Type type, int i) {
+    if(!type.isPrimitive()) {
+      throw new IllegalArgumentException("cascading can only build tuples from primitive types");
+    } else {
+      return new TuplePrimitiveConverter(this, i);
+    }
+  }
+
+  @Override
+  public Converter getConverter(int fieldIndex) {
+    return converters[fieldIndex];
+  }
+
+  @Override
+  final public void start() {
+    currentTuple = Tuple.size(converters.length);
+  }
+
+  @Override
+  public void end() {
+  }
+
+  final public Tuple getCurrentTuple() {
+    return currentTuple;
+  }
+
+  static final class TuplePrimitiveConverter extends PrimitiveConverter {
+    private final ParquetTupleConverter parent;
+    private final int index;
+
+    public TuplePrimitiveConverter(ParquetTupleConverter parent, int index) {
+      this.parent = parent;
+      this.index = index;
+    }
+
+    @Override
+    public void addBinary(Binary value) {
+      parent.getCurrentTuple().setString(index, value.toStringUsingUTF8());
+    }
+
+    @Override
+    public void addBoolean(boolean value) {
+      parent.getCurrentTuple().setBoolean(index, value);
+    }
+
+    @Override
+    public void addDouble(double value) {
+      parent.getCurrentTuple().setDouble(index, value);
+    }
+
+    @Override
+    public void addFloat(float value) {
+      parent.getCurrentTuple().setFloat(index, value);
+    }
+
+    @Override
+    public void addInt(int value) {
+      parent.getCurrentTuple().setInteger(index, value);
+    }
+
+    @Override
+    public void addLong(long value) {
+      parent.getCurrentTuple().setLong(index, value);
+    }
+  }
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java
new file mode 100644
index 0000000000..203f3cd67c
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java
@@ -0,0 +1,173 @@
+package com.twitter.scalding.parquet.tuple;
+
+import java.io.IOException;
+import java.util.List;
+
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.mapred.OutputCollector;
+import org.apache.hadoop.mapred.RecordReader;
+
+import cascading.flow.FlowProcess;
+import cascading.scheme.Scheme;
+import cascading.scheme.SinkCall;
+import cascading.scheme.SourceCall;
+import cascading.tap.CompositeTap;
+import cascading.tap.Tap;
+import cascading.tap.TapException;
+import cascading.tap.hadoop.Hfs;
+import cascading.tuple.Fields;
+import cascading.tuple.Tuple;
+import cascading.tuple.TupleEntry;
+import org.apache.parquet.filter2.predicate.FilterPredicate;
+import org.apache.parquet.hadoop.Footer;
+import org.apache.parquet.hadoop.ParquetInputFormat;
+import org.apache.parquet.hadoop.ParquetOutputFormat;
+import org.apache.parquet.hadoop.mapred.Container;
+import org.apache.parquet.hadoop.mapred.DeprecatedParquetInputFormat;
+import org.apache.parquet.hadoop.mapred.DeprecatedParquetOutputFormat;
+import org.apache.parquet.schema.MessageType;
+
+import static org.apache.parquet.Preconditions.checkNotNull;
+
+/**
+  * A Cascading Scheme that converts Parquet groups into Cascading tuples.
+  * If you provide it with sourceFields, it will selectively materialize only the columns for those fields.
+  * The names must match the names in the Parquet schema.
+  * If you do not provide sourceFields, or use Fields.ALL or Fields.UNKNOWN, it will create one from the
+  * Parquet schema.
+  * Currently, only primitive types are supported. TODO: allow nested fields in the Parquet schema to be
+  * flattened to a top-level field in the Cascading tuple.
+  *
+  * @author Avi Bryant
+  */
+
+public class ParquetTupleScheme extends Scheme<JobConf, RecordReader, OutputCollector, Object[], Object[]>{
+
+  private static final long serialVersionUID = 0L;
+  private String parquetSchema;
+  private final FilterPredicate filterPredicate;
+
+  public ParquetTupleScheme() {
+    super();
+    this.filterPredicate = null;
+  }
+
+  public ParquetTupleScheme(Fields sourceFields) {
+    super(sourceFields);
+    this.filterPredicate = null;
+  }
+
+  public ParquetTupleScheme(FilterPredicate filterPredicate) {
+    this.filterPredicate = checkNotNull(filterPredicate, "filterPredicate");
+  }
+
+  public ParquetTupleScheme(FilterPredicate filterPredicate, Fields sourceFields) {
+    super(sourceFields);
+    this.filterPredicate = checkNotNull(filterPredicate, "filterPredicate");
+  }
+
+  /**
+   * ParquetTupleScheme constructor used a sink need to be implemented
+   *
+   * @param sourceFields used for the reading step
+   * @param sinkFields used for the writing step
+   * @param schema is mandatory if you add sinkFields and needs to be the
+   * toString() from a MessageType. This value is going to be parsed when the
+   * parquet file will be created.
+   */
+  public ParquetTupleScheme(Fields sourceFields, Fields sinkFields, final String schema) {
+    super(sourceFields, sinkFields);
+    parquetSchema = schema;
+    this.filterPredicate = null;
+  }
+
+  @SuppressWarnings("rawtypes")
+  @Override
+  public void sourceConfInit(FlowProcess<JobConf> fp,
+      Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
+
+    if (filterPredicate != null) {
+      ParquetInputFormat.setFilterPredicate(jobConf, filterPredicate);
+    }
+
+    jobConf.setInputFormat(DeprecatedParquetInputFormat.class);
+    ParquetInputFormat.setReadSupportClass(jobConf, TupleReadSupport.class);
+    TupleReadSupport.setRequestedFields(jobConf, getSourceFields());
+ }
+
+ @Override
+ public Fields retrieveSourceFields(FlowProcess<JobConf> flowProcess, Tap tap) {
+    MessageType schema = readSchema(flowProcess, tap);
+    SchemaIntersection intersection = new SchemaIntersection(schema, getSourceFields());
+
+    setSourceFields(intersection.getSourceFields());
+
+    return getSourceFields();
+  }
+
+  private MessageType readSchema(FlowProcess<JobConf> flowProcess, Tap tap) {
+    try {
+      Hfs hfs;
+
+      if( tap instanceof CompositeTap )
+        hfs = (Hfs) ( (CompositeTap) tap ).getChildTaps().next();
+      else
+        hfs = (Hfs) tap;
+
+      List<Footer> footers = getFooters(flowProcess, hfs);
+
+      if(footers.isEmpty()) {
+        throw new TapException("Could not read Parquet metadata at " + hfs.getPath());
+      } else {
+        return footers.get(0).getParquetMetadata().getFileMetaData().getSchema();
+      }
+    } catch (IOException e) {
+      throw new TapException(e);
+    }
+  }
+
+   private List<Footer> getFooters(FlowProcess<JobConf> flowProcess, Hfs hfs) throws IOException {
+     JobConf jobConf = flowProcess.getConfigCopy();
+     DeprecatedParquetInputFormat format = new DeprecatedParquetInputFormat();
+     format.addInputPath(jobConf, hfs.getPath());
+     return format.getFooters(jobConf);
+   }
+
+  @SuppressWarnings("unchecked")
+  @Override
+  public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader> sc)
+      throws IOException {
+    Container<Tuple> value = (Container<Tuple>) sc.getInput().createValue();
+    boolean hasNext = sc.getInput().next(null, value);
+    if (!hasNext) { return false; }
+
+    // Skip nulls
+    if (value == null) { return true; }
+
+    sc.getIncomingEntry().setTuple(value.get());
+    return true;
+  }
+
+
+  @SuppressWarnings("rawtypes")
+  @Override
+  public void sinkConfInit(FlowProcess<JobConf> fp,
+          Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
+    DeprecatedParquetOutputFormat.setAsOutputFormat(jobConf);
+    jobConf.set(TupleWriteSupport.PARQUET_CASCADING_SCHEMA, parquetSchema);
+    ParquetOutputFormat.setWriteSupportClass(jobConf, TupleWriteSupport.class);
+  }
+
+  @Override
+  public boolean isSink() {
+    return parquetSchema != null;
+  }
+
+  @Override
+  public void sink(FlowProcess<JobConf> fp, SinkCall<Object[], OutputCollector> sink)
+          throws IOException {
+    TupleEntry tuple = sink.getOutgoingEntry();
+    OutputCollector outputCollector = sink.getOutput();
+    outputCollector.collect(null, tuple);
+  }
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java
new file mode 100644
index 0000000000..4afee64f8a
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java
@@ -0,0 +1,45 @@
+package com.twitter.scalding.parquet.tuple;
+
+import org.apache.parquet.schema.MessageType;
+import org.apache.parquet.schema.Type;
+
+import cascading.tuple.Fields;
+
+import java.util.List;
+import java.util.ArrayList;
+
+public class SchemaIntersection {
+
+  private final MessageType requestedSchema;
+  private final Fields sourceFields;
+
+  public SchemaIntersection(MessageType fileSchema, Fields requestedFields) {
+    if(requestedFields == Fields.UNKNOWN)
+      requestedFields = Fields.ALL;
+
+    Fields newFields = Fields.NONE;
+    List<Type> newSchemaFields = new ArrayList<Type>();
+    int schemaSize = fileSchema.getFieldCount();
+
+    for (int i = 0; i < schemaSize; i++) {
+      Type type = fileSchema.getType(i);
+      Fields name = new Fields(type.getName());
+
+      if(requestedFields.contains(name)) {
+        newFields = newFields.append(name);
+        newSchemaFields.add(type);
+      }
+    }
+
+    this.sourceFields = newFields;
+    this.requestedSchema = new MessageType(fileSchema.getName(), newSchemaFields);
+  }
+
+  public MessageType getRequestedSchema() {
+    return requestedSchema;
+  }
+
+  public Fields getSourceFields() {
+    return sourceFields;
+  }
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java
new file mode 100644
index 0000000000..e3dd32dc2f
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java
@@ -0,0 +1,60 @@
+package com.twitter.scalding.parquet.tuple;
+
+import java.util.Map;
+
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.commons.lang.StringUtils;
+
+import cascading.tuple.Tuple;
+import cascading.tuple.Fields;
+
+import org.apache.parquet.hadoop.api.ReadSupport;
+import org.apache.parquet.hadoop.api.ReadSupport.ReadContext;
+import org.apache.parquet.io.api.RecordMaterializer;
+import org.apache.parquet.schema.MessageType;
+
+
+public class TupleReadSupport extends ReadSupport<Tuple> {
+  static final String PARQUET_CASCADING_REQUESTED_FIELDS = "parquet.cascading.requested.fields";
+
+  static protected Fields getRequestedFields(Configuration configuration) {
+    String fieldsString = configuration.get(PARQUET_CASCADING_REQUESTED_FIELDS);
+
+    if(fieldsString == null)
+      return Fields.ALL;
+
+    String[] parts = StringUtils.split(fieldsString, ":");
+    if(parts.length == 0)
+      return Fields.ALL;
+    else
+      return new Fields(parts);
+  }
+
+  static protected void setRequestedFields(JobConf configuration, Fields fields) {
+    String fieldsString = StringUtils.join(fields.iterator(), ":");
+    configuration.set(PARQUET_CASCADING_REQUESTED_FIELDS, fieldsString);
+  }
+
+  @Override
+  public ReadContext init(Configuration configuration, Map<String, String> keyValueMetaData, MessageType fileSchema) {
+    Fields requestedFields = getRequestedFields(configuration);
+    if (requestedFields == null) {
+      return new ReadContext(fileSchema);
+    } else {
+      SchemaIntersection intersection = new SchemaIntersection(fileSchema, requestedFields);
+      return new ReadContext(intersection.getRequestedSchema());
+    }
+  }
+
+  @Override
+  public RecordMaterializer<Tuple> prepareForRead(
+      Configuration configuration,
+      Map<String, String> keyValueMetaData,
+      MessageType fileSchema,
+      ReadContext readContext) {
+    MessageType requestedSchema = readContext.getRequestedSchema();
+    return new TupleRecordMaterializer(requestedSchema);
+  }
+
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java
new file mode 100644
index 0000000000..ba53b20722
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java
@@ -0,0 +1,27 @@
+package com.twitter.scalding.parquet.tuple;
+
+import cascading.tuple.Tuple;
+
+import org.apache.parquet.io.api.GroupConverter;
+import org.apache.parquet.io.api.RecordMaterializer;
+import org.apache.parquet.schema.GroupType;
+
+public class TupleRecordMaterializer extends RecordMaterializer<Tuple> {
+
+  private ParquetTupleConverter root;
+
+  public TupleRecordMaterializer(GroupType parquetSchema) {
+    this.root = new ParquetTupleConverter(parquetSchema);
+  }
+
+  @Override
+  public Tuple getCurrentRecord() {
+    return root.getCurrentTuple();
+  }
+
+  @Override
+  public GroupConverter getRootConverter() {
+    return root;
+  }
+
+}
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java
new file mode 100644
index 0000000000..69b0cc382c
--- /dev/null
+++ b/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java
@@ -0,0 +1,94 @@
+package com.twitter.scalding.parquet.tuple;
+
+import cascading.tuple.TupleEntry;
+import java.util.HashMap;
+import java.util.List;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.parquet.hadoop.api.WriteSupport;
+import org.apache.parquet.hadoop.api.WriteSupport.WriteContext;
+import org.apache.parquet.io.api.Binary;
+import org.apache.parquet.io.api.RecordConsumer;
+import org.apache.parquet.schema.MessageType;
+import org.apache.parquet.schema.MessageTypeParser;
+import org.apache.parquet.schema.PrimitiveType;
+import org.apache.parquet.schema.Type;
+
+/**
+ *
+ *
+ * @author Mickaël Lacour <m.lacour@criteo.com>
+ */
+public class TupleWriteSupport extends WriteSupport<TupleEntry> {
+
+  private RecordConsumer recordConsumer;
+  private MessageType rootSchema;
+  public static final String PARQUET_CASCADING_SCHEMA = "parquet.cascading.schema";
+
+  //@Override
+  public String getName() {
+    return "cascading";
+  }
+
+  @Override
+  public WriteContext init(Configuration configuration) {
+    String schema = configuration.get(PARQUET_CASCADING_SCHEMA);
+    rootSchema = MessageTypeParser.parseMessageType(schema);
+    return new WriteContext(rootSchema, new HashMap<String, String>());
+  }
+
+  @Override
+  public void prepareForWrite(RecordConsumer recordConsumer) {
+    this.recordConsumer = recordConsumer;
+  }
+
+  @Override
+  public void write(TupleEntry record) {
+    recordConsumer.startMessage();
+    final List<Type> fields = rootSchema.getFields();
+
+    for (int i = 0; i < fields.size(); i++) {
+      Type field = fields.get(i);
+
+      if (record == null || record.getObject(field.getName()) == null) {
+        continue;
+      }
+      recordConsumer.startField(field.getName(), i);
+      if (field.isPrimitive()) {
+        writePrimitive(record, field.asPrimitiveType());
+      } else {
+        throw new UnsupportedOperationException("Complex type not implemented");
+      }
+      recordConsumer.endField(field.getName(), i);
+    }
+    recordConsumer.endMessage();
+  }
+
+  private void writePrimitive(TupleEntry record, PrimitiveType field) {
+    switch (field.getPrimitiveTypeName()) {
+      case BINARY:
+        recordConsumer.addBinary(Binary.fromString(record.getString(field.getName())));
+        break;
+      case BOOLEAN:
+        recordConsumer.addBoolean(record.getBoolean(field.getName()));
+        break;
+      case INT32:
+        recordConsumer.addInteger(record.getInteger(field.getName()));
+        break;
+      case INT64:
+        recordConsumer.addLong(record.getLong(field.getName()));
+        break;
+      case DOUBLE:
+        recordConsumer.addDouble(record.getDouble(field.getName()));
+        break;
+      case FLOAT:
+        recordConsumer.addFloat(record.getFloat(field.getName()));
+        break;
+      case FIXED_LEN_BYTE_ARRAY:
+        throw new UnsupportedOperationException("Fixed len byte array type not implemented");
+      case INT96:
+        throw new UnsupportedOperationException("Int96 type not implemented");
+      default:
+        throw new UnsupportedOperationException(field.getName() + " type not implemented");
+    }
+  }
+}
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
index 4e6a4f9235..4d07c7edf8 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
@@ -1,9 +1,11 @@
 package com.twitter.scalding.parquet.thrift
 
+import com.twitter.scalding.parquet.ParquetValueScheme
+import com.twitter.scalding.parquet.thrift.ParquetTBaseScheme
+
 import cascading.flow.FlowProcess
 import cascading.tap.Tap
 import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
-import org.apache.parquet.cascading.{ ParquetTBaseScheme, ParquetValueScheme }
 import org.apache.parquet.hadoop.thrift.ThriftReadSupport
 import org.apache.parquet.io.ParquetDecodingException
 import org.apache.parquet.schema.MessageType
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/ParquetThrift.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/ParquetThrift.scala
index ee8cc7eb7b..1fa0ebc88c 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/ParquetThrift.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/ParquetThrift.scala
@@ -16,10 +16,15 @@ limitations under the License.
 
 package com.twitter.scalding.parquet.thrift
 
-import org.apache.parquet.cascading.{ ParquetTBaseScheme, ParquetValueScheme }
 import cascading.scheme.Scheme
 import com.twitter.scalding._
-import com.twitter.scalding.parquet.{ StrictColumnProjectionString, DeprecatedColumnProjectionString, HasColumnProjection, HasFilterPredicate }
+import com.twitter.scalding.parquet.{
+  StrictColumnProjectionString,
+  DeprecatedColumnProjectionString,
+  HasColumnProjection,
+  HasFilterPredicate,
+  ParquetValueScheme
+}
 import com.twitter.scalding.source.{ DailySuffixSource, HourlySuffixSource }
 import java.io.Serializable
 import org.apache.thrift.{ TBase, TFieldIdEnum }
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/ParquetTuple.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/ParquetTuple.scala
index f80fafdf30..dced2b1c88 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/ParquetTuple.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/ParquetTuple.scala
@@ -16,7 +16,6 @@ limitations under the License.
 
 package com.twitter.scalding.parquet.tuple
 
-import org.apache.parquet.cascading.ParquetTupleScheme
 import cascading.scheme.Scheme
 import cascading.tuple.Fields
 import com.twitter.scalding._
@@ -62,4 +61,4 @@ class HourlySuffixParquetTuple(
 
 class FixedPathParquetTuple(
   override val fields: Fields,
-  paths: String*) extends FixedPathSource(paths: _*) with ParquetTupleSource
\ No newline at end of file
+  paths: String*) extends FixedPathSource(paths: _*) with ParquetTupleSource
diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
new file mode 100644
index 0000000000..5d4a2fb898
--- /dev/null
+++ b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
@@ -0,0 +1,168 @@
+package com.twitter.scalding.parquet.thrift;
+
+import com.twitter.scalding.parquet.thrift_java.test.Name;
+
+import cascading.flow.Flow;
+import cascading.flow.FlowProcess;
+import cascading.flow.hadoop.HadoopFlowConnector;
+import cascading.operation.BaseOperation;
+import cascading.operation.Function;
+import cascading.operation.FunctionCall;
+import cascading.pipe.Each;
+import cascading.pipe.Pipe;
+import cascading.scheme.Scheme;
+import cascading.scheme.hadoop.TextLine;
+import cascading.tap.Tap;
+import cascading.tap.hadoop.Hfs;
+import cascading.tuple.Fields;
+import cascading.tuple.Tuple;
+import cascading.tuple.TupleEntry;
+
+import org.apache.commons.io.FileUtils;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.io.BytesWritable;
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.mapreduce.TaskAttemptID;
+import org.apache.thrift.protocol.TCompactProtocol;
+import org.apache.thrift.protocol.TProtocol;
+import org.apache.thrift.protocol.TProtocolFactory;
+import org.apache.thrift.transport.TIOStreamTransport;
+import org.junit.Test;
+import static org.junit.Assert.*;
+
+import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
+import org.apache.parquet.hadoop.util.ContextUtil;
+
+import java.io.File;
+import java.io.ByteArrayOutputStream;
+import java.util.HashMap;
+import java.util.Map;
+
+public class TestParquetTBaseScheme {
+  final String txtInputPath = "src/test/resources/names.txt";
+  final String parquetInputPath = "target/test/ParquetTBaseScheme/names-parquet-in";
+  final String parquetOutputPath = "target/test/ParquetTBaseScheme/names-parquet-out";
+  final String txtOutputPath = "target/test/ParquetTBaseScheme/names-txt-out";
+
+  @Test
+  public void testWrite() throws Exception {
+    Path path = new Path(parquetOutputPath);
+    JobConf jobConf = new JobConf();
+    final FileSystem fs = path.getFileSystem(jobConf);
+    if (fs.exists(path)) fs.delete(path, true);
+
+    Scheme sourceScheme = new TextLine( new Fields( "first", "last" ) );
+    Tap source = new Hfs(sourceScheme, txtInputPath);
+
+    Scheme sinkScheme = new ParquetTBaseScheme(Name.class);
+    Tap sink = new Hfs(sinkScheme, parquetOutputPath);
+
+    Pipe assembly = new Pipe( "namecp" );
+    assembly = new Each(assembly, new PackThriftFunction());
+    HadoopFlowConnector hadoopFlowConnector = new HadoopFlowConnector();
+    Flow flow  = hadoopFlowConnector.connect("namecp", source, sink, assembly);
+
+    flow.complete();
+
+    assertTrue(fs.exists(new Path(parquetOutputPath)));
+    assertTrue(fs.exists(new Path(parquetOutputPath + "/_metadata")));
+    assertTrue(fs.exists(new Path(parquetOutputPath + "/_common_metadata")));
+  }
+
+  @Test
+  public void testRead() throws Exception {
+    doRead(new ParquetTBaseScheme(Name.class));
+  }
+
+  @Test
+  public void testReadWithoutClass() throws Exception {
+    doRead(new ParquetTBaseScheme());
+  }
+
+  private void doRead(Scheme sourceScheme) throws Exception {
+    createFileForRead();
+
+    Path path = new Path(txtOutputPath);
+    final FileSystem fs = path.getFileSystem(new Configuration());
+    if (fs.exists(path)) fs.delete(path, true);
+
+    Tap source = new Hfs(sourceScheme, parquetInputPath);
+
+    Scheme sinkScheme = new TextLine(new Fields("first", "last"));
+    Tap sink = new Hfs(sinkScheme, txtOutputPath);
+
+    Pipe assembly = new Pipe( "namecp" );
+    assembly = new Each(assembly, new UnpackThriftFunction());
+    Flow flow  = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
+
+    flow.complete();
+    String result = FileUtils.readFileToString(new File(txtOutputPath+"/part-00000"));
+    assertEquals("Alice\tPractice\nBob\tHope\nCharlie\tHorse\n", result);
+  }
+
+
+  private void createFileForRead() throws Exception {
+    final Path fileToCreate = new Path(parquetInputPath+"/names.parquet");
+
+    final Configuration conf = new Configuration();
+    final FileSystem fs = fileToCreate.getFileSystem(conf);
+    if (fs.exists(fileToCreate)) fs.delete(fileToCreate, true);
+
+    TProtocolFactory protocolFactory = new TCompactProtocol.Factory();
+    TaskAttemptID taskId = new TaskAttemptID("local", 0, true, 0, 0);
+    ThriftToParquetFileWriter w = new ThriftToParquetFileWriter(fileToCreate, ContextUtil.newTaskAttemptContext(conf, taskId), protocolFactory, Name.class);
+
+    final ByteArrayOutputStream baos = new ByteArrayOutputStream();
+    final TProtocol protocol = protocolFactory.getProtocol(new TIOStreamTransport(baos));
+
+    Name n1 = new Name();
+    n1.setFirst_name("Alice");
+    n1.setLast_name("Practice");
+    Name n2 = new Name();
+    n2.setFirst_name("Bob");
+    n2.setLast_name("Hope");
+    Name n3 = new Name();
+    n3.setFirst_name("Charlie");
+    n3.setLast_name("Horse");
+
+    n1.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    baos.reset();
+    n2.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    baos.reset();
+    n3.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    w.close();
+  }
+
+  private static class PackThriftFunction extends BaseOperation implements Function {
+    @Override
+    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
+      TupleEntry arguments = functionCall.getArguments();
+      Tuple result = new Tuple();
+
+      Name name = new Name();
+      name.setFirst_name(arguments.getString(0));
+      name.setLast_name(arguments.getString(1));
+
+      result.add(name);
+      functionCall.getOutputCollector().add(result);
+    }
+  }
+
+  private static class UnpackThriftFunction extends BaseOperation implements Function {
+    @Override
+    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
+      TupleEntry arguments = functionCall.getArguments();
+      Tuple result = new Tuple();
+
+      Name name = (Name) arguments.get(0);
+      result.add(name.getFirst_name());
+      result.add(name.getLast_name());
+      functionCall.getOutputCollector().add(result);
+    }
+  }
+}
diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
new file mode 100644
index 0000000000..b6300a7857
--- /dev/null
+++ b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
@@ -0,0 +1,165 @@
+package com.twitter.scalding.parquet.tuple;
+
+import com.twitter.scalding.parquet.thrift_java.test.Name;
+
+import cascading.flow.Flow;
+import cascading.flow.FlowProcess;
+import cascading.flow.hadoop.HadoopFlowConnector;
+import cascading.operation.BaseOperation;
+import cascading.operation.Function;
+import cascading.operation.FunctionCall;
+import cascading.pipe.Each;
+import cascading.pipe.Pipe;
+import cascading.scheme.Scheme;
+import cascading.scheme.hadoop.TextLine;
+import cascading.tap.Tap;
+import cascading.tap.hadoop.Hfs;
+import cascading.tuple.Fields;
+import cascading.tuple.Tuple;
+import cascading.tuple.TupleEntry;
+import org.apache.commons.io.FileUtils;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.io.BytesWritable;
+import org.apache.hadoop.mapreduce.TaskAttemptContext;
+import org.apache.hadoop.mapreduce.TaskAttemptID;
+import org.apache.thrift.protocol.TCompactProtocol;
+import org.apache.thrift.protocol.TProtocol;
+import org.apache.thrift.protocol.TProtocolFactory;
+import org.apache.thrift.transport.TIOStreamTransport;
+import org.junit.Test;
+import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
+import org.apache.parquet.hadoop.util.ContextUtil;
+
+import java.io.ByteArrayOutputStream;
+import java.io.File;
+
+import static org.junit.Assert.assertEquals;
+
+public class TestParquetTupleScheme {
+  final String parquetInputPath = "target/test/ParquetTupleIn/names-parquet-in";
+  final String txtOutputPath = "target/test/ParquetTupleOut/names-txt-out";
+
+  @Test
+  public void testReadPattern() throws Exception {
+    String sourceFolder = parquetInputPath;
+    testReadWrite(sourceFolder);
+
+    String sourceGlobPattern = parquetInputPath + "/*";
+    testReadWrite(sourceGlobPattern);
+
+    String multiLevelGlobPattern = "target/test/ParquetTupleIn/**/*";
+    testReadWrite(multiLevelGlobPattern);
+  }
+
+  @Test
+  public void testFieldProjection() throws Exception {
+    createFileForRead();
+
+    Path path = new Path(txtOutputPath);
+    final FileSystem fs = path.getFileSystem(new Configuration());
+    if (fs.exists(path)) fs.delete(path, true);
+
+    Scheme sourceScheme = new ParquetTupleScheme(new Fields("last_name"));
+    Tap source = new Hfs(sourceScheme, parquetInputPath);
+
+    Scheme sinkScheme = new TextLine(new Fields("last_name"));
+    Tap sink = new Hfs(sinkScheme, txtOutputPath);
+
+    Pipe assembly = new Pipe("namecp");
+    assembly = new Each(assembly, new ProjectedTupleFunction());
+    Flow flow = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
+
+    flow.complete();
+    String result = FileUtils.readFileToString(new File(txtOutputPath + "/part-00000"));
+    assertEquals("Practice\nHope\nHorse\n", result);
+  }
+
+  public void testReadWrite(String inputPath) throws Exception {
+    createFileForRead();
+
+    Path path = new Path(txtOutputPath);
+    final FileSystem fs = path.getFileSystem(new Configuration());
+    if (fs.exists(path)) fs.delete(path, true);
+
+    Scheme sourceScheme = new ParquetTupleScheme(new Fields("first_name", "last_name"));
+    Tap source = new Hfs(sourceScheme, inputPath);
+
+    Scheme sinkScheme = new TextLine(new Fields("first", "last"));
+    Tap sink = new Hfs(sinkScheme, txtOutputPath);
+
+    Pipe assembly = new Pipe("namecp");
+    assembly = new Each(assembly, new UnpackTupleFunction());
+    Flow flow = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
+
+    flow.complete();
+    String result = FileUtils.readFileToString(new File(txtOutputPath + "/part-00000"));
+    assertEquals("Alice\tPractice\nBob\tHope\nCharlie\tHorse\n", result);
+  }
+
+  private void createFileForRead() throws Exception {
+    final Path fileToCreate = new Path(parquetInputPath + "/names.parquet");
+
+    final Configuration conf = new Configuration();
+    final FileSystem fs = fileToCreate.getFileSystem(conf);
+    if (fs.exists(fileToCreate)) fs.delete(fileToCreate, true);
+
+    TProtocolFactory protocolFactory = new TCompactProtocol.Factory();
+    TaskAttemptID taskId = new TaskAttemptID("local", 0, true, 0, 0);
+    ThriftToParquetFileWriter w = new ThriftToParquetFileWriter(fileToCreate, ContextUtil.newTaskAttemptContext(conf, taskId), protocolFactory, Name.class);
+
+    final ByteArrayOutputStream baos = new ByteArrayOutputStream();
+    final TProtocol protocol = protocolFactory.getProtocol(new TIOStreamTransport(baos));
+
+    Name n1 = new Name();
+    n1.setFirst_name("Alice");
+    n1.setLast_name("Practice");
+    Name n2 = new Name();
+    n2.setFirst_name("Bob");
+    n2.setLast_name("Hope");
+    Name n3 = new Name();
+    n3.setFirst_name("Charlie");
+    n3.setLast_name("Horse");
+
+    n1.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    baos.reset();
+    n2.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    baos.reset();
+    n3.write(protocol);
+    w.write(new BytesWritable(baos.toByteArray()));
+    w.close();
+  }
+
+  private static class UnpackTupleFunction extends BaseOperation implements Function {
+    @Override
+    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
+      TupleEntry arguments = functionCall.getArguments();
+      Tuple result = new Tuple();
+
+      Tuple name = new Tuple();
+      name.addString(arguments.getString(0));
+      name.addString(arguments.getString(1));
+
+      result.add(name);
+      functionCall.getOutputCollector().add(result);
+    }
+  }
+
+  private static class ProjectedTupleFunction extends BaseOperation implements Function {
+    @Override
+    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
+      TupleEntry arguments = functionCall.getArguments();
+      Tuple result = new Tuple();
+
+      Tuple name = new Tuple();
+      name.addString(arguments.getString(0));
+//      name.addString(arguments.getString(1));
+
+      result.add(name);
+      functionCall.getOutputCollector().add(result);
+    }
+  }
+}
diff --git a/scalding-parquet/src/test/resources/names.txt b/scalding-parquet/src/test/resources/names.txt
new file mode 100644
index 0000000000..e2d0408c8f
--- /dev/null
+++ b/scalding-parquet/src/test/resources/names.txt
@@ -0,0 +1,3 @@
+Alice	Practive
+Bob	Hope
+Charlie	Horse

From d336e3c087363453f3273d9f0666a9c1436e2c43 Mon Sep 17 00:00:00 2001
From: "P. Oscar Boykin" <johnynek@users.noreply.github.com>
Date: Tue, 2 Feb 2016 11:48:30 -1000
Subject: [PATCH 03/72] Merge pull request #1491 from twitter/oscar/updatebuild

Update the build
---
 .gitignore                                    |   1 +
 build.sbt                                     | 643 ++++++++++++++++++
 project/Build.scala                           | 633 -----------------
 project/plugins.sbt                           |  19 +-
 .../thrift/Parquet346TBaseScheme.scala        |   1 -
 .../macros/MacroOrderingProperties.scala      |   2 +-
 scripts/build_assembly_no_test.sh             |   2 +-
 scripts/scald.rb                              |   4 +-
 8 files changed, 658 insertions(+), 647 deletions(-)
 create mode 100644 build.sbt
 delete mode 100644 project/Build.scala

diff --git a/.gitignore b/.gitignore
index 8421ffc531..ca3990a270 100644
--- a/.gitignore
+++ b/.gitignore
@@ -14,6 +14,7 @@ project/plugins/src_managed/
 /.idea/
 /.idea_modules/
 *.iml
+sonatype.sbt
 tutorial/data/cofollows.tsv
 tutorial/data/cosineSim.tsv
 tutorial/data/graphFiltered.tsv
diff --git a/build.sbt b/build.sbt
new file mode 100644
index 0000000000..f28d088920
--- /dev/null
+++ b/build.sbt
@@ -0,0 +1,643 @@
+import AssemblyKeys._
+import ReleaseTransformations._
+import com.twitter.scrooge.ScroogeSBT
+import com.typesafe.sbt.SbtScalariform._
+import com.typesafe.tools.mima.plugin.MimaKeys._
+import com.typesafe.tools.mima.plugin.MimaPlugin.mimaDefaultSettings
+import sbtassembly.Plugin._
+import scala.collection.JavaConverters._
+import scalariform.formatter.preferences._
+import scalding._
+
+import ScroogeSBT.autoImport._
+
+def scalaBinaryVersion(scalaVersion: String) = scalaVersion match {
+  case version if version startsWith "2.10" => "2.10"
+  case version if version startsWith "2.11" => "2.11"
+  case version if version startsWith "2.12" => "2.12"
+  case _ => sys.error("unknown error")
+}
+def isScala210x(scalaVersion: String) = scalaBinaryVersion(scalaVersion) == "2.10"
+
+val algebirdVersion = "0.12.0"
+val apacheCommonsVersion = "2.2"
+val avroVersion = "1.7.4"
+val bijectionVersion = "0.9.0"
+val cascadingAvroVersion = "2.1.2"
+val chillVersion = "0.7.3"
+val elephantbirdVersion = "4.8"
+val hadoopLzoVersion = "0.4.19"
+val hadoopVersion = "2.5.0"
+val hbaseVersion = "0.94.10"
+val hravenVersion = "0.9.17.t05"
+val jacksonVersion = "2.4.2"
+val json4SVersion = "3.2.11"
+val paradiseVersion = "2.0.1"
+val parquetVersion = "1.8.1"
+val protobufVersion = "2.4.1"
+val quasiquotesVersion = "2.0.1"
+val scalaCheckVersion = "1.12.2"
+val scalaTestVersion = "2.2.4"
+val scalameterVersion = "0.6"
+val scroogeVersion = "3.20.0"
+val slf4jVersion = "1.6.6"
+val thriftVersion = "0.5.0"
+val junitVersion = "4.10"
+
+val printDependencyClasspath = taskKey[Unit]("Prints location of the dependencies")
+
+val sharedSettings = Project.defaultSettings ++ assemblySettings ++ scalariformSettings ++ Seq(
+  organization := "com.twitter",
+
+  scalaVersion := "2.11.7",
+
+  crossScalaVersions := Seq("2.10.6", "2.11.7"),
+
+  ScalariformKeys.preferences := formattingPreferences,
+
+  javacOptions ++= Seq("-source", "1.6", "-target", "1.6"),
+
+  javacOptions in doc := Seq("-source", "1.6"),
+
+  libraryDependencies ++= Seq(
+    "org.mockito" % "mockito-all" % "1.8.5" % "test",
+    "org.scalacheck" %% "scalacheck" % scalaCheckVersion % "test",
+    "org.scalatest" %% "scalatest" % scalaTestVersion % "test",
+    "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "test",
+    "com.novocode" % "junit-interface" % "0.10" % "test"
+  ),
+
+  resolvers ++= Seq(
+    "Local Maven Repository" at "file://" + Path.userHome.absolutePath + "/.m2/repository",
+    "maven central" at "https://repo.maven.apache.org/maven2",
+    "releases" at "https://oss.sonatype.org/content/repositories/releases",
+    "snapshots" at "https://oss.sonatype.org/content/repositories/snapshots",
+    "Concurrent Maven Repo" at "http://conjars.org/repo",
+    "Twitter Maven" at "http://maven.twttr.com",
+    "Cloudera" at "https://repository.cloudera.com/artifactory/cloudera-repos/"
+  ),
+
+  printDependencyClasspath := {
+    val cp = (dependencyClasspath in Compile).value
+    cp.foreach(f => println(s"${f.metadata.get(moduleID.key)} => ${f.data}"))
+  },
+
+  fork in Test := true,
+
+  updateOptions := updateOptions.value.withConsolidatedResolution(true),
+
+  updateOptions := updateOptions.value.withCachedResolution(true),
+
+  aggregate in update := false,
+
+  javaOptions in Test ++= Seq("-Xmx2048m", "-XX:ReservedCodeCacheSize=384m", "-XX:MaxPermSize=384m"),
+
+  concurrentRestrictions in Global := Seq(
+    Tags.limitAll(1)
+  ),
+
+  parallelExecution in Test := false,
+
+  scalacOptions ++= Seq("-unchecked", "-deprecation", "-language:implicitConversions", "-language:higherKinds", "-language:existentials"),
+
+  scalacOptions <++= (scalaVersion) map { sv =>
+      if (isScala210x(sv))
+        Seq("-Xdivergence211")
+      else
+        Seq()
+  },
+
+  // Enables full stack traces in scalatest
+  testOptions in Test += Tests.Argument(TestFrameworks.ScalaTest, "-oF"),
+
+  // Uncomment if you don't want to run all the tests before building assembly
+  // test in assembly := {},
+  logLevel in assembly := Level.Warn,
+
+  // Publishing options:
+  releaseCrossBuild := true,
+  releasePublishArtifactsAction := PgpKeys.publishSigned.value,
+  releaseVersionBump := sbtrelease.Version.Bump.Minor, // need to tweak based on mima results
+  publishMavenStyle := true,
+  publishArtifact in Test := false,
+  pomIncludeRepository := { x => false },
+
+  releaseProcess := Seq[ReleaseStep](
+    checkSnapshotDependencies,
+    inquireVersions,
+    runClean,
+    runTest,
+    setReleaseVersion,
+    commitReleaseVersion,
+    tagRelease,
+    publishArtifacts,
+    setNextVersion,
+    commitNextVersion,
+    ReleaseStep(action = Command.process("sonatypeReleaseAll", _)),
+    pushChanges),
+
+
+  publishTo <<= version { v =>
+    Some(
+      if (v.trim.endsWith("SNAPSHOT"))
+        Opts.resolver.sonatypeSnapshots
+      else
+        Opts.resolver.sonatypeStaging
+        //"twttr" at "http://artifactory.local.twitter.com/libs-releases-local"
+    )
+  },
+
+  // Janino includes a broken signature, and is not needed:
+  excludedJars in assembly <<= (fullClasspath in assembly) map {
+    cp =>
+      val excludes = Set("jsp-api-2.1-6.1.14.jar", "jsp-2.1-6.1.14.jar",
+        "jasper-compiler-5.5.12.jar", "janino-2.5.16.jar")
+      cp filter {
+        jar => excludes(jar.data.getName)
+      }
+  },
+  // Some of these files have duplicates, let's ignore:
+  mergeStrategy in assembly <<= (mergeStrategy in assembly) {
+    (old) => {
+      case s if s.endsWith(".class") => MergeStrategy.last
+      case s if s.endsWith("project.clj") => MergeStrategy.concat
+      case s if s.endsWith(".html") => MergeStrategy.last
+      case s if s.endsWith(".dtd") => MergeStrategy.last
+      case s if s.endsWith(".xsd") => MergeStrategy.last
+      case s if s.endsWith("pom.properties") => MergeStrategy.last
+      case s if s.endsWith("pom.xml") => MergeStrategy.last
+      case s if s.endsWith(".jnilib") => MergeStrategy.rename
+      case s if s.endsWith("jansi.dll") => MergeStrategy.rename
+      case s if s.endsWith("properties") => MergeStrategy.filterDistinctLines
+      case x => old(x)
+    }
+  },
+
+  pomExtra := (
+    <url>https://github.com/twitter/scalding</url>
+      <licenses>
+        <license>
+          <name>Apache 2</name>
+          <url>http://www.apache.org/licenses/LICENSE-2.0.txt</url>
+          <distribution>repo</distribution>
+          <comments>A business-friendly OSS license</comments>
+        </license>
+      </licenses>
+      <scm>
+        <url>git@github.com:twitter/scalding.git</url>
+        <connection>scm:git:git@github.com:twitter/scalding.git</connection>
+      </scm>
+      <developers>
+        <developer>
+          <id>posco</id>
+          <name>Oscar Boykin</name>
+          <url>http://twitter.com/posco</url>
+        </developer>
+        <developer>
+          <id>avibryant</id>
+          <name>Avi Bryant</name>
+          <url>http://twitter.com/avibryant</url>
+        </developer>
+        <developer>
+          <id>argyris</id>
+          <name>Argyris Zymnis</name>
+          <url>http://twitter.com/argyris</url>
+        </developer>
+      </developers>)
+) ++ mimaDefaultSettings
+
+lazy val scalding = Project(
+  id = "scalding",
+  base = file("."),
+  settings = sharedSettings ++ DocGen.publishSettings
+).settings(
+  test := {},
+  publish := {}, // skip publishing for this root project.
+  publishLocal := {}
+).aggregate(
+  scaldingArgs,
+  scaldingDate,
+  scaldingCore,
+  scaldingCommons,
+  scaldingAvro,
+  scaldingParquet,
+  scaldingParquetScrooge,
+  scaldingHRaven,
+  scaldingRepl,
+  scaldingJson,
+  scaldingJdbc,
+  scaldingHadoopTest,
+  scaldingDb,
+  maple,
+  executionTutorial,
+  scaldingSerialization,
+  scaldingThriftMacros
+)
+
+lazy val scaldingAssembly = Project(
+  id = "scalding-assembly",
+  base = file("assembly"),
+  settings = sharedSettings
+).settings(
+  test := {},
+  publish := {}, // skip publishing for this root project.
+  publishLocal := {}
+).aggregate(
+  scaldingArgs,
+  scaldingDate,
+  scaldingCore,
+  scaldingCommons,
+  scaldingAvro,
+  scaldingParquet,
+  scaldingParquetScrooge,
+  scaldingHRaven,
+  scaldingRepl,
+  scaldingJson,
+  scaldingJdbc,
+  maple,
+  scaldingSerialization
+)
+
+lazy val formattingPreferences = {
+  import scalariform.formatter.preferences._
+  FormattingPreferences().
+    setPreference(AlignParameters, false).
+    setPreference(PreserveSpaceBeforeArguments, true)
+}
+
+/**
+ * This returns the youngest jar we released that is compatible with
+ * the current.
+ */
+val unreleasedModules = Set[String]("hadoop-test") //releases 0.11
+
+def youngestForwardCompatible(subProj: String) =
+  Some(subProj)
+    .filterNot(unreleasedModules.contains(_))
+    .map {
+    s => "com.twitter" % ("scalding-" + s + "_2.10") % "0.15.0"
+  }
+
+def module(name: String) = {
+  val id = "scalding-%s".format(name)
+  Project(id = id, base = file(id), settings = sharedSettings ++ Seq(
+    Keys.name := id,
+    previousArtifact := youngestForwardCompatible(name))
+  )
+}
+
+lazy val scaldingArgs = module("args")
+
+lazy val scaldingDate = module("date")
+
+lazy val cascadingVersion =
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "2.6.1")
+
+lazy val cascadingJDBCVersion =
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
+
+lazy val scaldingBenchmarks = module("benchmarks").settings(
+  libraryDependencies ++= Seq(
+    "com.storm-enroute" %% "scalameter" % scalameterVersion % "test",
+    "org.scalacheck" %% "scalacheck" % scalaCheckVersion % "test"
+  ),
+  testFrameworks += new TestFramework("org.scalameter.ScalaMeterFramework"),
+  parallelExecution in Test := false
+).dependsOn(scaldingCore)
+
+lazy val scaldingCore = module("core").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "cascading" % "cascading-core" % cascadingVersion,
+    "cascading" % "cascading-hadoop" % cascadingVersion,
+    "cascading" % "cascading-local" % cascadingVersion,
+    "com.twitter" % "chill-hadoop" % chillVersion,
+    "com.twitter" % "chill-java" % chillVersion,
+    "com.twitter" %% "chill-bijection" % chillVersion,
+    "com.twitter" %% "algebird-core" % algebirdVersion,
+    "com.twitter" %% "algebird-test" % algebirdVersion % "test",
+    "com.twitter" %% "bijection-core" % bijectionVersion,
+    "com.twitter" %% "bijection-macros" % bijectionVersion,
+    "com.twitter" %% "chill" % chillVersion,
+    "com.twitter" %% "chill-algebird" % chillVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.scala-lang" % "scala-library" % scalaVersion,
+    "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided") ++
+    (if (isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
+  }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full)
+).dependsOn(scaldingArgs, scaldingDate, scaldingSerialization, maple)
+
+lazy val scaldingCommons = module("commons").settings(
+  libraryDependencies ++= Seq(
+    // TODO: split into scalding-protobuf
+    "com.google.protobuf" % "protobuf-java" % protobufVersion,
+    "com.twitter" %% "bijection-core" % bijectionVersion,
+    "com.twitter" %% "algebird-core" % algebirdVersion,
+    "com.twitter" %% "chill" % chillVersion,
+    "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion,
+    "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
+    "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
+    // TODO: split this out into scalding-thrift
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.thrift" % "libthrift" % thriftVersion,
+    // TODO: split this out into a scalding-scrooge
+    "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided",
+    "junit" % "junit" % junitVersion % "test"
+  )
+).dependsOn(scaldingArgs, scaldingDate, scaldingCore, scaldingHadoopTest % "test")
+
+lazy val scaldingAvro = module("avro").settings(
+  libraryDependencies ++= Seq(
+    "cascading.avro" % "avro-scheme" % cascadingAvroVersion,
+    "org.apache.avro" % "avro" % avroVersion,
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+  )
+).dependsOn(scaldingCore)
+
+lazy val scaldingParquetFixtures = module("parquet-fixtures")
+   .settings(ScroogeSBT.newSettings:_*)
+   .settings(
+     scroogeThriftSourceFolder in Test <<= baseDirectory {
+       base => base / "src/test/resources"
+     },
+     sourceGenerators in Test <+= (
+         streams,
+         scroogeThriftSources in Test,
+         scroogeIsDirty in Test,
+         sourceManaged
+     ).map { (out, sources, isDirty, outputDir) =>
+       // for some reason, sbt sometimes calls us multiple times, often with no source files.
+       if (isDirty && sources.nonEmpty) {
+         out.log.info("Generating scrooge thrift for %s ...".format(sources.mkString(", ")))
+         ScroogeSBT.compile(out.log, outputDir, sources.toSet, Set(), Map(), "java", Set("--language", "java"))
+       }
+       (outputDir ** "*.java").get.toSeq
+     },
+     libraryDependencies ++= Seq(
+       "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+       "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
+       "org.apache.thrift" % "libthrift" % thriftVersion
+     )
+   )
+
+lazy val scaldingParquet = module("parquet").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.parquet" % "parquet-column" % parquetVersion,
+    "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
+    "org.apache.parquet" % "parquet-thrift" % parquetVersion
+    // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
+      exclude("org.apache.parquet", "parquet-pig")
+      exclude("com.twitter.elephantbird", "elephant-bird-pig")
+      exclude("com.twitter.elephantbird", "elephant-bird-core"),
+    "org.apache.thrift" % "libthrift" % "0.7.0",
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "com.twitter" %% "bijection-macros" % bijectionVersion,
+    "com.twitter" %% "chill-bijection" % chillVersion,
+    "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
+  ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
+}, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full))
+  .dependsOn(scaldingCore, scaldingHadoopTest % "test", scaldingParquetFixtures % "test->test")
+
+
+
+lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
+  .settings(ScroogeSBT.newSettings:_*)
+  .settings(
+    scroogeThriftSourceFolder in Test <<= baseDirectory {
+    base => base / "src/test/resources"
+    },
+    sourceGenerators in Test <+= (
+        streams,
+        scroogeThriftSources in Test,
+        scroogeIsDirty in Test,
+        sourceManaged
+    ).map { (out, sources, isDirty, outputDir) =>
+      // for some reason, sbt sometimes calls us multiple times, often with no source files.
+      if (isDirty && sources.nonEmpty) {
+        out.log.info("Generating scrooge thrift for %s ...".format(sources.mkString(", ")))
+        ScroogeSBT.compile(out.log, outputDir, sources.toSet, Set(), Map(), "java", Set())
+      }
+      (outputDir ** "*.java").get.toSeq
+    },
+    libraryDependencies ++= Seq(
+      "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+      "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
+      "org.apache.thrift" % "libthrift" % thriftVersion
+  )
+)
+
+lazy val scaldingParquetScrooge = module("parquet-scrooge")
+  .settings(
+    libraryDependencies ++= Seq(
+      "org.slf4j" % "slf4j-api" % slf4jVersion,
+      // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
+      "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
+        exclude("org.apache.parquet", "parquet-pig")
+        exclude("com.twitter.elephantbird", "elephant-bird-pig")
+        exclude("com.twitter.elephantbird", "elephant-bird-core"),
+       "com.twitter" %% "scrooge-serializer" % scroogeVersion,
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+      "com.novocode" % "junit-interface" % "0.11" % "test",
+      "junit" % "junit" % junitVersion % "test"
+
+    )
+).dependsOn(scaldingCore, scaldingParquet % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
+
+lazy val scaldingHRaven = module("hraven").settings(
+  libraryDependencies ++= Seq(
+    "com.twitter.hraven" % "hraven-core" % hravenVersion
+      // These transitive dependencies cause sbt to give a ResolveException
+      // because they're not available on Maven. We don't need them anyway.
+      // See https://github.com/twitter/cassie/issues/13
+      exclude("javax.jms", "jms")
+      exclude("com.sun.jdmk", "jmxtools")
+      exclude("com.sun.jmx", "jmxri")
+
+      // These transitive dependencies of hRaven cause conflicts when
+      // running scalding-hraven/*assembly and aren't needed
+      // for the part of the hRaven API that we use anyway
+      exclude("com.twitter.common", "application-module-log")
+      exclude("com.twitter.common", "application-module-stats")
+      exclude("com.twitter.common", "args")
+      exclude("com.twitter.common", "application"),
+    "org.apache.hbase" % "hbase" % hbaseVersion,
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+  )
+).dependsOn(scaldingCore)
+
+// create new configuration which will hold libs otherwise marked as 'provided'
+// so that we can re-include them in 'run'. unfortunately, we still have to
+// explicitly add them to both 'provided' and 'unprovided', as below
+// solution borrowed from: http://stackoverflow.com/a/18839656/1404395
+val Unprovided = config("unprovided") extend Runtime
+
+lazy val scaldingRepl = module("repl")
+  .configs(Unprovided) // include 'unprovided' as config option
+  .settings(
+    initialCommands in console := """
+      import com.twitter.scalding._
+      import com.twitter.scalding.ReplImplicits._
+      import com.twitter.scalding.ReplImplicitContext._
+      """,
+    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+      "jline" % "jline" % scalaVersion.take(4),
+      "org.scala-lang" % "scala-compiler" % scalaVersion,
+      "org.scala-lang" % "scala-reflect" % scalaVersion,
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "unprovided",
+      "org.slf4j" % "slf4j-api" % slf4jVersion,
+      "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided",
+      "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "unprovided"
+    )
+    },
+    // https://gist.github.com/djspiewak/976cd8ac65e20e136f05
+    unmanagedSourceDirectories in Compile += (sourceDirectory in Compile).value / s"scala-${scalaBinaryVersion(scalaVersion.value)}"
+).dependsOn(scaldingCore)
+// run with 'unprovided' config includes libs marked 'unprovided' in classpath
+.settings(inConfig(Unprovided)(Classpaths.configSettings ++ Seq(
+  run <<= Defaults.runTask(fullClasspath, mainClass in (Runtime, run), runner in (Runtime, run))
+)): _*)
+.settings(
+  // make scalding-repl/run use 'unprovided' config
+  run <<= (run in Unprovided)
+)
+
+// zero dependency serialization module
+lazy val scaldingSerialization = module("serialization").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.scala-lang" % "scala-reflect" % scalaVersion
+  ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
+},
+addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
+)
+
+lazy val scaldingJson = module("json").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "com.fasterxml.jackson.module" %% "jackson-module-scala" % jacksonVersion,
+    "org.json4s" %% "json4s-native" % json4SVersion,
+    "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion % "provided"
+    )
+  }
+).dependsOn(scaldingCore)
+
+lazy val scaldingJdbc = module("jdbc").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "cascading" % "cascading-jdbc-core" % cascadingJDBCVersion,
+    "cascading" % "cascading-jdbc-mysql" % cascadingJDBCVersion
+  )
+  }
+).dependsOn(scaldingCore)
+
+lazy val scaldingHadoopTest = module("hadoop-test").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
+    "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion,
+    "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion,
+    "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-common" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-mapreduce-client-jobclient" % hadoopVersion classifier "tests",
+    "com.twitter" %% "chill-algebird" % chillVersion,
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
+    "org.scalacheck" %% "scalacheck" % scalaCheckVersion,
+    "org.scalatest" %% "scalatest" % scalaTestVersion
+  )
+  }
+).dependsOn(scaldingCore, scaldingSerialization)
+
+// This one uses a different naming convention
+lazy val maple = Project(
+  id = "maple",
+  base = file("maple"),
+  settings = sharedSettings
+).settings(
+  name := "maple",
+  previousArtifact := None,
+  crossPaths := false,
+  autoScalaLibrary := false,
+  // Disable cross publishing for this artifact
+  publishArtifact <<= (scalaVersion) { scalaVersion =>
+      if(scalaVersion.startsWith("2.10")) false else true
+      },
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hbase" % "hbase" % hbaseVersion % "provided",
+    "cascading" % "cascading-hadoop" % cascadingVersion
+  )
+  }
+)
+
+lazy val executionTutorial = Project(
+  id = "execution-tutorial",
+  base = file("tutorial/execution-tutorial"),
+  settings = sharedSettings
+).settings(
+  name := "execution-tutorial",
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.scala-lang" % "scala-library" % scalaVersion,
+    "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
+    "org.slf4j" % "slf4j-api" % slf4jVersion,
+    "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
+    "cascading" % "cascading-hadoop" % cascadingVersion
+  )
+  }
+).dependsOn(scaldingCore)
+
+lazy val scaldingDb = module("db").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.scala-lang" % "scala-library" % scalaVersion,
+    "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "com.twitter" %% "bijection-macros" % bijectionVersion
+  ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
+},
+addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
+).dependsOn(scaldingCore)
+
+lazy val scaldingThriftMacrosFixtures = module("thrift-macros-fixtures")
+  .settings(ScroogeSBT.newSettings:_*)
+  .settings(
+    scroogeThriftSourceFolder in Test <<= baseDirectory {
+    base => base / "src/test/resources"
+    },
+    libraryDependencies ++= Seq(
+      "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+      "org.apache.thrift" % "libthrift" % thriftVersion
+    )
+)
+
+lazy val scaldingThriftMacros = module("thrift-macros")
+  .settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "com.twitter" %% "bijection-macros" % bijectionVersion,
+    "com.twitter" % "chill-thrift" % chillVersion % "test",
+    "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
+    "org.apache.thrift" % "libthrift" % thriftVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
+    "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion % "test",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
+    "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion  % "test",
+    "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion % "test",
+    "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-common" % hadoopVersion classifier "tests",
+    "org.apache.hadoop" % "hadoop-mapreduce-client-jobclient" % hadoopVersion classifier "tests"
+  ) ++ (if (isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
+  },
+  addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
+).dependsOn(
+    scaldingCore,
+    scaldingHadoopTest % "test",
+    scaldingSerialization,
+    scaldingThriftMacrosFixtures % "test->test")
diff --git a/project/Build.scala b/project/Build.scala
deleted file mode 100644
index d21c382c60..0000000000
--- a/project/Build.scala
+++ /dev/null
@@ -1,633 +0,0 @@
-package scalding
-
-import sbt._
-import Keys._
-import sbtassembly.Plugin._
-import AssemblyKeys._
-import com.typesafe.tools.mima.plugin.MimaPlugin.mimaDefaultSettings
-import com.typesafe.tools.mima.plugin.MimaKeys._
-import scalariform.formatter.preferences._
-import com.typesafe.sbt.SbtScalariform._
-import com.twitter.scrooge.ScroogeSBT
-
-import scala.collection.JavaConverters._
-
-object ScaldingBuild extends Build {
-
-  import ScroogeSBT.autoImport._
-
-  def scalaBinaryVersion(scalaVersion: String) = scalaVersion match {
-    case version if version startsWith "2.10" => "2.10"
-    case version if version startsWith "2.11" => "2.11"
-    case _ => sys.error("unknown error")
-  }
-  def isScala210x(scalaVersion: String) = scalaBinaryVersion(scalaVersion) == "2.10"
-
-  val algebirdVersion = "0.11.0"
-  val apacheCommonsVersion = "2.2"
-  val avroVersion = "1.7.4"
-  val bijectionVersion = "0.8.1"
-  val cascadingAvroVersion = "2.1.2"
-  val chillVersion = "0.7.1"
-  val elephantbirdVersion = "4.8"
-  val hadoopLzoVersion = "0.4.19"
-  val hadoopVersion = "2.5.0"
-  val hbaseVersion = "0.94.10"
-  val hravenVersion = "0.9.17.t05"
-  val jacksonVersion = "2.4.2"
-  val json4SVersion = "3.2.11"
-  val paradiseVersion = "2.0.1"
-  val parquetVersion = "1.8.1"
-  val protobufVersion = "2.4.1"
-  val quasiquotesVersion = "2.0.1"
-  val scalaCheckVersion = "1.12.2"
-  val scalaTestVersion = "2.2.4"
-  val scalameterVersion = "0.6"
-  val scroogeVersion = "3.20.0"
-  val slf4jVersion = "1.6.6"
-  val thriftVersion = "0.5.0"
-  val junitVersion = "4.10"
-
-  val printDependencyClasspath = taskKey[Unit]("Prints location of the dependencies")
-
-  val sharedSettings = Project.defaultSettings ++ assemblySettings ++ scalariformSettings ++ Seq(
-    organization := "com.twitter",
-
-    scalaVersion := "2.11.7",
-
-    crossScalaVersions := Seq("2.10.6", "2.11.7"),
-
-    ScalariformKeys.preferences := formattingPreferences,
-
-    javacOptions ++= Seq("-source", "1.6", "-target", "1.6"),
-
-    javacOptions in doc := Seq("-source", "1.6"),
-
-    libraryDependencies ++= Seq(
-      "org.mockito" % "mockito-all" % "1.8.5" % "test",
-      "org.scalacheck" %% "scalacheck" % scalaCheckVersion % "test",
-      "org.scalatest" %% "scalatest" % scalaTestVersion % "test",
-      "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "test",
-      "com.novocode" % "junit-interface" % "0.10" % "test"
-    ),
-
-    resolvers ++= Seq(
-      "Local Maven Repository" at "file://" + Path.userHome.absolutePath + "/.m2/repository",
-      "maven central" at "https://repo.maven.apache.org/maven2",
-      "releases" at "https://oss.sonatype.org/content/repositories/releases",
-      "snapshots" at "https://oss.sonatype.org/content/repositories/snapshots",
-      "Concurrent Maven Repo" at "http://conjars.org/repo",
-      "Clojars Repository" at "http://clojars.org/repo",
-      "Twitter Maven" at "http://maven.twttr.com",
-      "Cloudera" at "https://repository.cloudera.com/artifactory/cloudera-repos/"
-    ),
-
-    printDependencyClasspath := {
-      val cp = (dependencyClasspath in Compile).value
-      cp.foreach(f => println(s"${f.metadata.get(moduleID.key)} => ${f.data}"))
-    },
-
-    fork in Test := true,
-
-    updateOptions := updateOptions.value.withConsolidatedResolution(true),
-
-    updateOptions := updateOptions.value.withCachedResolution(true),
-
-    aggregate in update := false,
-
-    javaOptions in Test ++= Seq("-Xmx2048m", "-XX:ReservedCodeCacheSize=384m", "-XX:MaxPermSize=384m"),
-
-    concurrentRestrictions in Global := Seq(
-      Tags.limitAll(1)
-    ),
-
-    parallelExecution in Test := false,
-
-    scalacOptions ++= Seq("-unchecked", "-deprecation", "-language:implicitConversions", "-language:higherKinds", "-language:existentials"),
-
-    scalacOptions <++= (scalaVersion) map { sv =>
-        if (isScala210x(sv))
-          Seq("-Xdivergence211")
-        else
-          Seq()
-    },
-
-    // Enables full stack traces in scalatest
-    testOptions in Test += Tests.Argument(TestFrameworks.ScalaTest, "-oF"),
-
-    // Uncomment if you don't want to run all the tests before building assembly
-    // test in assembly := {},
-    logLevel in assembly := Level.Warn,
-
-    // Publishing options:
-
-    publishMavenStyle := true,
-
-    publishArtifact in Test := false,
-
-    pomIncludeRepository := {
-      x => false
-    },
-
-    publishTo <<= version { v =>
-      Some(
-        if (v.trim.endsWith("SNAPSHOT"))
-          Opts.resolver.sonatypeSnapshots
-        else
-          Opts.resolver.sonatypeStaging
-          //"twttr" at "http://artifactory.local.twitter.com/libs-releases-local"
-      )
-    },
-
-    // Janino includes a broken signature, and is not needed:
-    excludedJars in assembly <<= (fullClasspath in assembly) map {
-      cp =>
-        val excludes = Set("jsp-api-2.1-6.1.14.jar", "jsp-2.1-6.1.14.jar",
-          "jasper-compiler-5.5.12.jar", "janino-2.5.16.jar")
-        cp filter {
-          jar => excludes(jar.data.getName)
-        }
-    },
-    // Some of these files have duplicates, let's ignore:
-    mergeStrategy in assembly <<= (mergeStrategy in assembly) {
-      (old) => {
-        case s if s.endsWith(".class") => MergeStrategy.last
-        case s if s.endsWith("project.clj") => MergeStrategy.concat
-        case s if s.endsWith(".html") => MergeStrategy.last
-        case s if s.endsWith(".dtd") => MergeStrategy.last
-        case s if s.endsWith(".xsd") => MergeStrategy.last
-        case s if s.endsWith("pom.properties") => MergeStrategy.last
-        case s if s.endsWith("pom.xml") => MergeStrategy.last
-        case s if s.endsWith(".jnilib") => MergeStrategy.rename
-        case s if s.endsWith("jansi.dll") => MergeStrategy.rename
-        case s if s.endsWith("properties") => MergeStrategy.filterDistinctLines
-        case x => old(x)
-      }
-    },
-
-    pomExtra := (
-      <url>https://github.com/twitter/scalding</url>
-        <licenses>
-          <license>
-            <name>Apache 2</name>
-            <url>http://www.apache.org/licenses/LICENSE-2.0.txt</url>
-            <distribution>repo</distribution>
-            <comments>A business-friendly OSS license</comments>
-          </license>
-        </licenses>
-        <scm>
-          <url>git@github.com:twitter/scalding.git</url>
-          <connection>scm:git:git@github.com:twitter/scalding.git</connection>
-        </scm>
-        <developers>
-          <developer>
-            <id>posco</id>
-            <name>Oscar Boykin</name>
-            <url>http://twitter.com/posco</url>
-          </developer>
-          <developer>
-            <id>avibryant</id>
-            <name>Avi Bryant</name>
-            <url>http://twitter.com/avibryant</url>
-          </developer>
-          <developer>
-            <id>argyris</id>
-            <name>Argyris Zymnis</name>
-            <url>http://twitter.com/argyris</url>
-          </developer>
-        </developers>)
-  ) ++ mimaDefaultSettings
-
-  lazy val scalding = Project(
-    id = "scalding",
-    base = file("."),
-    settings = sharedSettings ++ DocGen.publishSettings
-  ).settings(
-    test := {},
-    publish := {}, // skip publishing for this root project.
-    publishLocal := {}
-  ).aggregate(
-    scaldingArgs,
-    scaldingDate,
-    scaldingCore,
-    scaldingCommons,
-    scaldingAvro,
-    scaldingParquet,
-    scaldingParquetScrooge,
-    scaldingHRaven,
-    scaldingRepl,
-    scaldingJson,
-    scaldingJdbc,
-    scaldingHadoopTest,
-    scaldingDb,
-    maple,
-    executionTutorial,
-    scaldingSerialization,
-    scaldingThriftMacros
-  )
-
-  lazy val scaldingAssembly = Project(
-    id = "scalding-assembly",
-    base = file("assembly"),
-    settings = sharedSettings
-  ).settings(
-    test := {},
-    publish := {}, // skip publishing for this root project.
-    publishLocal := {}
-  ).aggregate(
-    scaldingArgs,
-    scaldingDate,
-    scaldingCore,
-    scaldingCommons,
-    scaldingAvro,
-    scaldingParquet,
-    scaldingParquetScrooge,
-    scaldingHRaven,
-    scaldingRepl,
-    scaldingJson,
-    scaldingJdbc,
-    maple,
-    scaldingSerialization
-  )
-
-  lazy val formattingPreferences = {
-    import scalariform.formatter.preferences._
-    FormattingPreferences().
-      setPreference(AlignParameters, false).
-      setPreference(PreserveSpaceBeforeArguments, true)
-  }
-
-  /**
-   * This returns the youngest jar we released that is compatible with
-   * the current.
-   */
-  val unreleasedModules = Set[String]("hadoop-test") //releases 0.11
-
-  def youngestForwardCompatible(subProj: String) =
-    Some(subProj)
-      .filterNot(unreleasedModules.contains(_))
-      .map {
-      s => "com.twitter" % ("scalding-" + s + "_2.10") % "0.15.0"
-    }
-
-  def module(name: String) = {
-    val id = "scalding-%s".format(name)
-    Project(id = id, base = file(id), settings = sharedSettings ++ Seq(
-      Keys.name := id,
-      previousArtifact := youngestForwardCompatible(name))
-    )
-  }
-
-  lazy val scaldingArgs = module("args")
-
-  lazy val scaldingDate = module("date")
-
-  lazy val cascadingVersion =
-    System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "2.6.1")
-
-  lazy val cascadingJDBCVersion =
-    System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
-
-  lazy val scaldingBenchmarks = module("benchmarks").settings(
-    libraryDependencies ++= Seq(
-      "com.storm-enroute" %% "scalameter" % scalameterVersion % "test",
-      "org.scalacheck" %% "scalacheck" % scalaCheckVersion % "test"
-    ),
-    testFrameworks += new TestFramework("org.scalameter.ScalaMeterFramework"),
-    parallelExecution in Test := false
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingCore = module("core").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "cascading" % "cascading-core" % cascadingVersion,
-      "cascading" % "cascading-hadoop" % cascadingVersion,
-      "cascading" % "cascading-local" % cascadingVersion,
-      "com.twitter" % "chill-hadoop" % chillVersion,
-      "com.twitter" % "chill-java" % chillVersion,
-      "com.twitter" %% "chill-bijection" % chillVersion,
-      "com.twitter" %% "algebird-core" % algebirdVersion,
-      "com.twitter" %% "algebird-test" % algebirdVersion % "test",
-      "com.twitter" %% "bijection-core" % bijectionVersion,
-      "com.twitter" %% "bijection-macros" % bijectionVersion,
-      "com.twitter" %% "chill" % chillVersion,
-      "com.twitter" %% "chill-algebird" % chillVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "org.scala-lang" % "scala-library" % scalaVersion,
-      "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided") ++
-      (if (isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
-    }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full)
-  ).dependsOn(scaldingArgs, scaldingDate, scaldingSerialization, maple)
-
-  lazy val scaldingCommons = module("commons").settings(
-    libraryDependencies ++= Seq(
-      // TODO: split into scalding-protobuf
-      "com.google.protobuf" % "protobuf-java" % protobufVersion,
-      "com.twitter" %% "bijection-core" % bijectionVersion,
-      "com.twitter" %% "algebird-core" % algebirdVersion,
-      "com.twitter" %% "chill" % chillVersion,
-      "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion,
-      "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
-      "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
-      // TODO: split this out into scalding-thrift
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "org.apache.thrift" % "libthrift" % thriftVersion,
-      // TODO: split this out into a scalding-scrooge
-      "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided",
-      "junit" % "junit" % junitVersion % "test"
-    )
-  ).dependsOn(scaldingArgs, scaldingDate, scaldingCore, scaldingHadoopTest % "test")
-
-  lazy val scaldingAvro = module("avro").settings(
-    libraryDependencies ++= Seq(
-      "cascading.avro" % "avro-scheme" % cascadingAvroVersion,
-      "org.apache.avro" % "avro" % avroVersion,
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
-    )
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingParquetFixtures = module("parquet-fixtures")
-    .settings(ScroogeSBT.newSettings:_*)
-    .settings(
-      scroogeThriftSourceFolder in Test <<= baseDirectory {
-        base => base / "src/test/resources"
-      },
-      sourceGenerators in Test <+= (
-          streams,
-          scroogeThriftSources in Test,
-          scroogeIsDirty in Test,
-          sourceManaged
-      ).map { (out, sources, isDirty, outputDir) =>
-        // for some reason, sbt sometimes calls us multiple times, often with no source files.
-        if (isDirty && sources.nonEmpty) {
-          out.log.info("Generating scrooge thrift for %s ...".format(sources.mkString(", ")))
-          ScroogeSBT.compile(out.log, outputDir, sources.toSet, Set(), Map(), "java", Set("--language", "java"))
-        }
-        (outputDir ** "*.java").get.toSeq
-      },
-      libraryDependencies ++= Seq(
-        "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
-        "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
-        "org.apache.thrift" % "libthrift" % thriftVersion
-      )
-    )
-
-  lazy val scaldingParquet = module("parquet").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.apache.parquet" % "parquet-column" % parquetVersion,
-      "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
-      "org.apache.parquet" % "parquet-thrift" % parquetVersion
-      // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-        exclude("org.apache.parquet", "parquet-pig")
-        exclude("com.twitter.elephantbird", "elephant-bird-pig")
-        exclude("com.twitter.elephantbird", "elephant-bird-core"),
-      "org.apache.thrift" % "libthrift" % "0.7.0",
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "com.twitter" %% "bijection-macros" % bijectionVersion,
-      "com.twitter" %% "chill-bijection" % chillVersion,
-      "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
-    ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
-  }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full))
-    .dependsOn(scaldingCore, scaldingHadoopTest % "test", scaldingParquetFixtures % "test->test")
-
-  lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
-    .settings(ScroogeSBT.newSettings:_*)
-    .settings(
-      scroogeThriftSourceFolder in Test <<= baseDirectory {
-      base => base / "src/test/resources"
-      },
-      sourceGenerators in Test <+= (
-          streams,
-          scroogeThriftSources in Test,
-          scroogeIsDirty in Test,
-          sourceManaged
-      ).map { (out, sources, isDirty, outputDir) =>
-        // for some reason, sbt sometimes calls us multiple times, often with no source files.
-        if (isDirty && sources.nonEmpty) {
-          out.log.info("Generating scrooge thrift for %s ...".format(sources.mkString(", ")))
-          ScroogeSBT.compile(out.log, outputDir, sources.toSet, Set(), Map(), "java", Set())
-        }
-        (outputDir ** "*.java").get.toSeq
-      },
-      libraryDependencies ++= Seq(
-        "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
-        "commons-lang" % "commons-lang" % apacheCommonsVersion, // needed for HashCodeBuilder used in thriftjava
-        "org.apache.thrift" % "libthrift" % thriftVersion
-      )
-    )
-
-  lazy val scaldingParquetScrooge = module("parquet-scrooge")
-    .settings(
-      libraryDependencies ++= Seq(
-        "org.slf4j" % "slf4j-api" % slf4jVersion,
-        // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-        "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
-          exclude("org.apache.parquet", "parquet-pig")
-          exclude("com.twitter.elephantbird", "elephant-bird-pig")
-          exclude("com.twitter.elephantbird", "elephant-bird-core"),
-        "com.twitter" %% "scrooge-serializer" % scroogeVersion,
-        "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-        "com.novocode" % "junit-interface" % "0.11" % "test",
-        "junit" % "junit" % junitVersion % "test"
-      )
-  ).dependsOn(scaldingCore, scaldingParquet % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
-
-  lazy val scaldingHRaven = module("hraven").settings(
-    libraryDependencies ++= Seq(
-      "com.twitter.hraven" % "hraven-core" % hravenVersion
-        // These transitive dependencies cause sbt to give a ResolveException
-        // because they're not available on Maven. We don't need them anyway.
-        // See https://github.com/twitter/cassie/issues/13
-        exclude("javax.jms", "jms")
-        exclude("com.sun.jdmk", "jmxtools")
-        exclude("com.sun.jmx", "jmxri")
-
-        // These transitive dependencies of hRaven cause conflicts when
-        // running scalding-hraven/*assembly and aren't needed
-        // for the part of the hRaven API that we use anyway
-        exclude("com.twitter.common", "application-module-log")
-        exclude("com.twitter.common", "application-module-stats")
-        exclude("com.twitter.common", "args")
-        exclude("com.twitter.common", "application"),
-      "org.apache.hbase" % "hbase" % hbaseVersion,
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
-    )
-  ).dependsOn(scaldingCore)
-
-  // create new configuration which will hold libs otherwise marked as 'provided'
-  // so that we can re-include them in 'run'. unfortunately, we still have to
-  // explicitly add them to both 'provided' and 'unprovided', as below
-  // solution borrowed from: http://stackoverflow.com/a/18839656/1404395
-  val Unprovided = config("unprovided") extend Runtime
-
-  lazy val scaldingRepl = module("repl")
-    .configs(Unprovided) // include 'unprovided' as config option
-    .settings(
-      initialCommands in console := """
-        import com.twitter.scalding._
-        import com.twitter.scalding.ReplImplicits._
-        import com.twitter.scalding.ReplImplicitContext._
-        """,
-      libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-        "jline" % "jline" % scalaVersion.take(4),
-        "org.scala-lang" % "scala-compiler" % scalaVersion,
-        "org.scala-lang" % "scala-reflect" % scalaVersion,
-        "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-        "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "unprovided",
-        "org.slf4j" % "slf4j-api" % slf4jVersion,
-        "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided",
-        "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "unprovided"
-      )
-      },
-      // https://gist.github.com/djspiewak/976cd8ac65e20e136f05
-      unmanagedSourceDirectories in Compile += (sourceDirectory in Compile).value / s"scala-${scalaBinaryVersion(scalaVersion.value)}"
-  ).dependsOn(scaldingCore)
-  // run with 'unprovided' config includes libs marked 'unprovided' in classpath
-  .settings(inConfig(Unprovided)(Classpaths.configSettings ++ Seq(
-    run <<= Defaults.runTask(fullClasspath, mainClass in (Runtime, run), runner in (Runtime, run))
-  )): _*)
-  .settings(
-    // make scalding-repl/run use 'unprovided' config
-    run <<= (run in Unprovided)
-  )
-
-  // zero dependency serialization module
-  lazy val scaldingSerialization = module("serialization").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.scala-lang" % "scala-reflect" % scalaVersion
-    ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
-  },
-  addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
-  )
-
-  lazy val scaldingJson = module("json").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "com.fasterxml.jackson.module" %% "jackson-module-scala" % jacksonVersion,
-      "org.json4s" %% "json4s-native" % json4SVersion,
-      "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion % "provided"
-      )
-    }
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingJdbc = module("jdbc").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "cascading" % "cascading-jdbc-core" % cascadingJDBCVersion,
-      "cascading" % "cascading-jdbc-mysql" % cascadingJDBCVersion
-    )
-    }
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingHadoopTest = module("hadoop-test").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
-      "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion,
-      "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion,
-      "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-common" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-mapreduce-client-jobclient" % hadoopVersion classifier "tests",
-      "com.twitter" %% "chill-algebird" % chillVersion,
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
-      "org.scalacheck" %% "scalacheck" % scalaCheckVersion,
-      "org.scalatest" %% "scalatest" % scalaTestVersion
-    )
-    }
-  ).dependsOn(scaldingCore, scaldingSerialization)
-
-  // This one uses a different naming convention
-  lazy val maple = Project(
-    id = "maple",
-    base = file("maple"),
-    settings = sharedSettings
-  ).settings(
-    name := "maple",
-    previousArtifact := None,
-    crossPaths := false,
-    autoScalaLibrary := false,
-    // Disable cross publishing for this artifact
-    publishArtifact <<= (scalaVersion) { scalaVersion =>
-        if(scalaVersion.startsWith("2.10")) false else true
-        },
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "org.apache.hbase" % "hbase" % hbaseVersion % "provided",
-      "cascading" % "cascading-hadoop" % cascadingVersion
-    )
-    }
-  )
-
-  lazy val executionTutorial = Project(
-    id = "execution-tutorial",
-    base = file("tutorial/execution-tutorial"),
-    settings = sharedSettings
-  ).settings(
-    name := "execution-tutorial",
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.scala-lang" % "scala-library" % scalaVersion,
-      "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
-      "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
-      "cascading" % "cascading-hadoop" % cascadingVersion
-    )
-    }
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingDb = module("db").settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.scala-lang" % "scala-library" % scalaVersion,
-      "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "com.twitter" %% "bijection-macros" % bijectionVersion
-    ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
-  },
-  addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
-  ).dependsOn(scaldingCore)
-
-  lazy val scaldingThriftMacrosFixtures = module("thrift-macros-fixtures")
-    .settings(ScroogeSBT.newSettings:_*)
-    .settings(
-      scroogeThriftSourceFolder in Test <<= baseDirectory {
-      base => base / "src/test/resources"
-      },
-      libraryDependencies ++= Seq(
-        "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
-        "org.apache.thrift" % "libthrift" % thriftVersion
-      )
-  )
-
-lazy val scaldingThriftMacros = module("thrift-macros")
-    .settings(
-    libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-      "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "com.twitter" %% "bijection-macros" % bijectionVersion,
-      "com.twitter" % "chill-thrift" % chillVersion % "test",
-      "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
-      "org.apache.thrift" % "libthrift" % thriftVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
-      "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion % "test",
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
-      "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion  % "test",
-      "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion % "test",
-      "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-common" % hadoopVersion classifier "tests",
-      "org.apache.hadoop" % "hadoop-mapreduce-client-jobclient" % hadoopVersion classifier "tests"
-    ) ++ (if (isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
-    },
-    addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.full)
-  ).dependsOn(
-      scaldingCore,
-      scaldingHadoopTest % "test",
-      scaldingSerialization,
-      scaldingThriftMacrosFixtures % "test->test")
-}
diff --git a/project/plugins.sbt b/project/plugins.sbt
index d17d3db8ba..623b0e08b9 100644
--- a/project/plugins.sbt
+++ b/project/plugins.sbt
@@ -6,14 +6,15 @@ resolvers ++= Seq(
   "Twitter Maven" at "http://maven.twttr.com"
 )
 
-addSbtPlugin("com.typesafe.sbt" % "sbt-git" % "0.6.2")
-
-addSbtPlugin("com.typesafe" % "sbt-mima-plugin" % "0.1.6")
-
 addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.10.2")
-
-addSbtPlugin("com.typesafe.sbt" % "sbt-ghpages" % "0.5.1")
-
-addSbtPlugin("com.typesafe.sbt" % "sbt-scalariform" % "1.3.0")
-
+addSbtPlugin("com.github.gseitz" % "sbt-release" % "1.0.0")
+addSbtPlugin("com.jsuereth" % "sbt-pgp" % "1.0.0")
 addSbtPlugin("com.twitter" %% "scrooge-sbt-plugin" % "3.20.0")
+addSbtPlugin("com.typesafe" % "sbt-mima-plugin" % "0.1.8")
+addSbtPlugin("com.typesafe.sbt" % "sbt-ghpages" % "0.5.3")
+addSbtPlugin("com.typesafe.sbt" % "sbt-git" % "0.6.2")
+addSbtPlugin("com.typesafe.sbt" % "sbt-scalariform" % "1.3.0")
+addSbtPlugin("org.scoverage" % "sbt-coveralls" % "1.0.0.BETA1")
+addSbtPlugin("org.scoverage" % "sbt-scoverage" % "1.0.4")
+addSbtPlugin("org.xerial.sbt" % "sbt-sonatype" % "1.0")
+addSbtPlugin("pl.project13.scala" % "sbt-jmh" % "0.2.2")
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
index 4d07c7edf8..d71623dcd4 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
@@ -1,7 +1,6 @@
 package com.twitter.scalding.parquet.thrift
 
 import com.twitter.scalding.parquet.ParquetValueScheme
-import com.twitter.scalding.parquet.thrift.ParquetTBaseScheme
 
 import cascading.flow.FlowProcess
 import cascading.tap.Tap
diff --git a/scalding-serialization/src/test/scala/com/twitter/scalding/serialization/macros/MacroOrderingProperties.scala b/scalding-serialization/src/test/scala/com/twitter/scalding/serialization/macros/MacroOrderingProperties.scala
index 10cb24b18b..8e712f8116 100644
--- a/scalding-serialization/src/test/scala/com/twitter/scalding/serialization/macros/MacroOrderingProperties.scala
+++ b/scalding-serialization/src/test/scala/com/twitter/scalding/serialization/macros/MacroOrderingProperties.scala
@@ -29,7 +29,7 @@ import scala.collection.immutable.Queue
 import scala.language.experimental.macros
 
 trait LowerPriorityImplicit {
-  implicit def primitiveOrderedBufferSupplier[T] = macro impl.OrderedSerializationProviderImpl[T]
+  implicit def primitiveOrderedBufferSupplier[T]: OrderedSerialization[T] = macro impl.OrderedSerializationProviderImpl[T]
 }
 
 object LawTester {
diff --git a/scripts/build_assembly_no_test.sh b/scripts/build_assembly_no_test.sh
index bd32f741b1..e5dc766ee8 100755
--- a/scripts/build_assembly_no_test.sh
+++ b/scripts/build_assembly_no_test.sh
@@ -5,7 +5,7 @@ BASE_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )"/.. && pwd )"
 TARGET=$1
 
 cd $BASE_DIR
-sed -i'' -e 's/\/\/ test in assembly/test in assembly/g' project/Build.scala
+sed -i'' -e 's/\/\/ test in assembly/test in assembly/g' build.sbt
 
 bash -c "while true; do echo -n .; sleep 5; done" &
 PROGRESS_REPORTER_PID=$!
diff --git a/scripts/scald.rb b/scripts/scald.rb
index 62dc767c2b..898c167f79 100755
--- a/scripts/scald.rb
+++ b/scripts/scald.rb
@@ -57,7 +57,7 @@
 
 CONFIG = CONFIG_DEFAULT.merge!(CONFIG_RC)
 
-BUILDFILE = open(CONFIG["repo_root"] + "/project/Build.scala").read
+BUILDFILE = open(CONFIG["repo_root"] + "/build.sbt").read
 VERSIONFILE = open(CONFIG["repo_root"] + "/version.sbt").read
 SCALDING_VERSION=VERSIONFILE.match(/version.*:=\s*\"([^\"]+)\"/)[1]
 
@@ -80,7 +80,7 @@
   opt :hdfs_local, "Run in Hadoop local mode"
   opt :local, "Run in Cascading local mode (does not use Hadoop)"
   opt :print, "Print the command YOU SHOULD enter on the remote node. Useful for screen sessions"
-  opt :scalaversion, "version of Scala for scalac (defaults to scalaVersion in project/Build.scala)", :type => String
+  opt :scalaversion, "version of Scala for scalac (defaults to scalaVersion in build.sbt)", :type => String
   opt :print_cp, "Print the Scala classpath"
   opt :jar, "Specify the jar file", :type => String
   opt :host, "Specify the hadoop host where the job runs", :type => String

From 3e5db6f7e3d2fc333c875dec8ad6116fe8120261 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Tue, 16 Feb 2016 10:56:03 -0800
Subject: [PATCH 04/72] Temporarily revert dep vesion bumps to match what is in
 use at Twitter internally. This will be updated as part of the eventual merge
 to develop.

---
 build.sbt | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/build.sbt b/build.sbt
index f28d088920..35f93f211b 100644
--- a/build.sbt
+++ b/build.sbt
@@ -19,12 +19,12 @@ def scalaBinaryVersion(scalaVersion: String) = scalaVersion match {
 }
 def isScala210x(scalaVersion: String) = scalaBinaryVersion(scalaVersion) == "2.10"
 
-val algebirdVersion = "0.12.0"
+val algebirdVersion = "0.11.0"
 val apacheCommonsVersion = "2.2"
 val avroVersion = "1.7.4"
-val bijectionVersion = "0.9.0"
+val bijectionVersion = "0.8.1"
 val cascadingAvroVersion = "2.1.2"
-val chillVersion = "0.7.3"
+val chillVersion = "0.7.1"
 val elephantbirdVersion = "4.8"
 val hadoopLzoVersion = "0.4.19"
 val hadoopVersion = "2.5.0"

From 10b8b5a48c8dc0e1e16d16deb02047aaa1b45175 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Tue, 16 Feb 2016 13:05:18 -0800
Subject: [PATCH 05/72] Move parquet cascading schemes to subprojects

---
 .travis.yml                                   |  4 +-
 build.sbt                                     | 51 ++++++++++++++-----
 .../cascading}/ParquetValueScheme.java        |  2 +-
 .../cascading}/thrift/ParquetTBaseScheme.java |  4 +-
 .../tuple/ParquetTupleConverter.java          |  2 +-
 .../cascading}/tuple/ParquetTupleScheme.java  |  2 +-
 .../cascading}/tuple/SchemaIntersection.java  |  2 +-
 .../cascading}/tuple/TupleReadSupport.java    |  2 +-
 .../tuple/TupleRecordMaterializer.java        |  2 +-
 .../cascading}/tuple/TupleWriteSupport.java   |  2 +-
 .../thrift/Parquet346TBaseScheme.scala        |  4 +-
 .../thrift/TestParquetTBaseScheme.java        |  2 +-
 .../tuple/TestParquetTupleScheme.java         |  2 +-
 .../src/test/resources/names.txt              |  0
 .../cascading}/ParquetScroogeScheme.java      |  4 +-
 .../cascading}/ScroogeReadSupport.java        |  2 +-
 .../cascading}/ScroogeRecordConverter.java    |  2 +-
 .../ScroogeSchemaConversionException.java     |  2 +-
 .../cascading}/ScroogeStructConverter.java    |  2 +-
 .../cascading}/ScroogeWriteSupport.java       |  2 +-
 .../cascading}/Parquet346ScroogeScheme.scala  |  6 +--
 .../cascading}/ParquetScroogeSchemeTest.java  |  4 +-
 .../ScroogeStructConverterTest.java           |  2 +-
 .../src/test/resources/names.txt              |  0
 .../scrooge/ParquetScroogeInputFormat.java    |  1 +
 .../scrooge/ParquetScroogeOutputFormat.java   |  1 +
 .../scalding/parquet/scrooge/package.scala    |  6 +++
 .../parquet/scrooge/ScroogeBinaryTest.java    |  3 ++
 .../scrooge/TestCorruptScroogeRecords.java    |  1 +
 .../twitter/scalding/parquet/package.scala    | 10 ++++
 .../scalding/parquet/thrift/package.scala     |  6 +++
 .../scalding/parquet/tuple/package.scala      |  6 +++
 .../parquet/ParquetSourcesTests.scala         |  2 +-
 33 files changed, 101 insertions(+), 42 deletions(-)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/ParquetValueScheme.java (99%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/thrift/ParquetTBaseScheme.java (95%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/ParquetTupleConverter.java (97%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/ParquetTupleScheme.java (99%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/SchemaIntersection.java (95%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/TupleReadSupport.java (97%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/TupleRecordMaterializer.java (91%)
 rename {scalding-parquet/src/main/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading}/tuple/TupleWriteSupport.java (98%)
 rename {scalding-parquet/src/main/scala/com/twitter/scalding/parquet => scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading}/thrift/Parquet346TBaseScheme.scala (97%)
 rename {scalding-parquet/src/test/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading}/thrift/TestParquetTBaseScheme.java (99%)
 rename {scalding-parquet/src/test/java/com/twitter/scalding/parquet => scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading}/tuple/TestParquetTupleScheme.java (99%)
 rename {scalding-parquet => scalding-parquet-cascading}/src/test/resources/names.txt (100%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ParquetScroogeScheme.java (95%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeReadSupport.java (96%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeRecordConverter.java (97%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeSchemaConversionException.java (95%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeStructConverter.java (99%)
 rename {scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeWriteSupport.java (97%)
 rename {scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading}/Parquet346ScroogeScheme.scala (94%)
 rename {scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading}/ParquetScroogeSchemeTest.java (98%)
 rename {scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge => scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading}/ScroogeStructConverterTest.java (99%)
 rename {scalding-parquet-scrooge => scalding-parquet-scrooge-cascading}/src/test/resources/names.txt (100%)
 create mode 100644 scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/package.scala
 create mode 100644 scalding-parquet/src/main/scala/com/twitter/scalding/parquet/package.scala
 create mode 100644 scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/package.scala
 create mode 100644 scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/package.scala

diff --git a/.travis.yml b/.travis.yml
index a9a5a1ec11..cbfd84ce51 100644
--- a/.travis.yml
+++ b/.travis.yml
@@ -23,11 +23,11 @@ matrix:
       script: "scripts/run_test.sh"
 
     - scala: 2.10.6
-      env: BUILD="base" TEST_TARGET="scalding-avro scalding-hraven scalding-commons scalding-parquet scalding-parquet-scrooge"
+      env: BUILD="base" TEST_TARGET="scalding-avro scalding-hraven scalding-commons scalding-parquet scalding-parquet-cascading scalding-parquet-scrooge scalding-parquet-scrooge-cascading"
       script: "scripts/run_test.sh"
 
     - scala: 2.11.7
-      env: BUILD="base" TEST_TARGET="scalding-avro scalding-hraven scalding-commons scalding-parquet scalding-parquet-scrooge"
+      env: BUILD="base" TEST_TARGET="scalding-avro scalding-hraven scalding-commons scalding-parquet scalding-parquet-cascading scalding-parquet-scrooge scalding-parquet-scrooge-cascading"
       script: "scripts/run_test.sh"
 
     - scala: 2.10.6
diff --git a/build.sbt b/build.sbt
index 35f93f211b..733828f657 100644
--- a/build.sbt
+++ b/build.sbt
@@ -43,6 +43,7 @@ val scroogeVersion = "3.20.0"
 val slf4jVersion = "1.6.6"
 val thriftVersion = "0.5.0"
 val junitVersion = "4.10"
+val junitInterfaceVersion = "0.11"
 
 val printDependencyClasspath = taskKey[Unit]("Prints location of the dependencies")
 
@@ -64,7 +65,7 @@ val sharedSettings = Project.defaultSettings ++ assemblySettings ++ scalariformS
     "org.scalacheck" %% "scalacheck" % scalaCheckVersion % "test",
     "org.scalatest" %% "scalatest" % scalaTestVersion % "test",
     "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "test",
-    "com.novocode" % "junit-interface" % "0.10" % "test"
+    "com.novocode" % "junit-interface" % junitInterfaceVersion % "test"
   ),
 
   resolvers ++= Seq(
@@ -384,8 +385,9 @@ lazy val scaldingParquetFixtures = module("parquet-fixtures")
      )
    )
 
-lazy val scaldingParquet = module("parquet").settings(
-  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+// separate target that only depends on parquet, thrift, eb and cascading. Not scalding.
+lazy val scaldingParquetCascading = module("parquet-cascading").settings(
+  libraryDependencies ++= Seq(
     "org.apache.parquet" % "parquet-column" % parquetVersion,
     "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
     "org.apache.parquet" % "parquet-thrift" % parquetVersion
@@ -393,18 +395,26 @@ lazy val scaldingParquet = module("parquet").settings(
       exclude("org.apache.parquet", "parquet-pig")
       exclude("com.twitter.elephantbird", "elephant-bird-pig")
       exclude("com.twitter.elephantbird", "elephant-bird-core"),
-    "org.apache.thrift" % "libthrift" % "0.7.0",
+    "org.apache.thrift" % "libthrift" % thriftVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "cascading" % "cascading-core" % cascadingVersion,
+    "cascading" % "cascading-hadoop" % cascadingVersion,
+    "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
+  )
+).dependsOn(scaldingParquetFixtures % "test->test")
+
+lazy val scaldingParquet = module("parquet").settings(
+  libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
+    "org.apache.parquet" % "parquet-column" % parquetVersion,
+    "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
     "org.scala-lang" % "scala-reflect" % scalaVersion,
     "com.twitter" %% "bijection-macros" % bijectionVersion,
-    "com.twitter" %% "chill-bijection" % chillVersion,
-    "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
+    "com.twitter" %% "chill-bijection" % chillVersion
   ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
 }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full))
-  .dependsOn(scaldingCore, scaldingHadoopTest % "test", scaldingParquetFixtures % "test->test")
-
-
+  .dependsOn(scaldingCore, scaldingParquetCascading, scaldingHadoopTest % "test")
 
 lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
   .settings(ScroogeSBT.newSettings:_*)
@@ -432,22 +442,37 @@ lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
   )
 )
 
-lazy val scaldingParquetScrooge = module("parquet-scrooge")
+// separate target that only depends on parquet, scrooge, eb and cascading. Not scalding.
+lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
   .settings(
     libraryDependencies ++= Seq(
-      "org.slf4j" % "slf4j-api" % slf4jVersion,
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
+      "cascading" % "cascading-core" % cascadingVersion,
       "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-core"),
        "com.twitter" %% "scrooge-serializer" % scroogeVersion,
       "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "com.novocode" % "junit-interface" % "0.11" % "test",
       "junit" % "junit" % junitVersion % "test"
+    )
+).dependsOn(scaldingParquetCascading % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
 
+lazy val scaldingParquetScrooge = module("parquet-scrooge")
+  .settings(
+    libraryDependencies ++= Seq(
+      // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
+      "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
+        exclude("org.apache.parquet", "parquet-pig")
+        exclude("com.twitter.elephantbird", "elephant-bird-pig")
+        exclude("com.twitter.elephantbird", "elephant-bird-core"),
+      "com.twitter" %% "scrooge-serializer" % scroogeVersion,
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+      "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test",
+      "com.novocode" % "junit-interface" % junitInterfaceVersion % "test",
+      "junit" % "junit" % junitVersion % "test"
     )
-).dependsOn(scaldingCore, scaldingParquet % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
+).dependsOn(scaldingCore, scaldingParquetScroogeCascading, scaldingParquet % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
 
 lazy val scaldingHRaven = module("hraven").settings(
   libraryDependencies ++= Seq(
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
similarity index 99%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
index 2d71c44896..6d19286641 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/ParquetValueScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet;
+package com.twitter.scalding.parquet.cascading;
 
 import java.io.IOException;
 import java.io.Serializable;
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
similarity index 95%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
index d62596b98d..3d80483669 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/thrift/ParquetTBaseScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
@@ -1,6 +1,6 @@
-package com.twitter.scalding.parquet.thrift;
+package com.twitter.scalding.parquet.cascading.thrift;
 
-import com.twitter.scalding.parquet.ParquetValueScheme;
+import com.twitter.scalding.parquet.cascading.ParquetValueScheme;
 
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleConverter.java
similarity index 97%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleConverter.java
index 4f313d7392..8fb922560c 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleConverter.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleConverter.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import cascading.tuple.Tuple;
 
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
similarity index 99%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
index 203f3cd67c..deeb94116c 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/ParquetTupleScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import java.io.IOException;
 import java.util.List;
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/SchemaIntersection.java
similarity index 95%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/SchemaIntersection.java
index 4afee64f8a..c1793f0b66 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/SchemaIntersection.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/SchemaIntersection.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import org.apache.parquet.schema.MessageType;
 import org.apache.parquet.schema.Type;
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleReadSupport.java
similarity index 97%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleReadSupport.java
index e3dd32dc2f..17c763274c 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleReadSupport.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleReadSupport.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import java.util.Map;
 
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleRecordMaterializer.java
similarity index 91%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleRecordMaterializer.java
index ba53b20722..67a2bbd312 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleRecordMaterializer.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleRecordMaterializer.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import cascading.tuple.Tuple;
 
diff --git a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleWriteSupport.java
similarity index 98%
rename from scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java
rename to scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleWriteSupport.java
index 69b0cc382c..e51da4eb0d 100644
--- a/scalding-parquet/src/main/java/com/twitter/scalding/parquet/tuple/TupleWriteSupport.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/TupleWriteSupport.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import cascading.tuple.TupleEntry;
 import java.util.HashMap;
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala b/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
similarity index 97%
rename from scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
rename to scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
index d71623dcd4..1110b78119 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/Parquet346TBaseScheme.scala
+++ b/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
@@ -1,6 +1,6 @@
-package com.twitter.scalding.parquet.thrift
+package com.twitter.scalding.parquet.cascading.thrift
 
-import com.twitter.scalding.parquet.ParquetValueScheme
+import com.twitter.scalding.parquet.cascading.ParquetValueScheme
 
 import cascading.flow.FlowProcess
 import cascading.tap.Tap
diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
similarity index 99%
rename from scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
rename to scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
index 5d4a2fb898..1c2a5ec29a 100644
--- a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
+++ b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.thrift;
+package com.twitter.scalding.parquet.cascading.thrift;
 
 import com.twitter.scalding.parquet.thrift_java.test.Name;
 
diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/tuple/TestParquetTupleScheme.java
similarity index 99%
rename from scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
rename to scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/tuple/TestParquetTupleScheme.java
index b6300a7857..7a55ad59f7 100644
--- a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
+++ b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/tuple/TestParquetTupleScheme.java
@@ -1,4 +1,4 @@
-package com.twitter.scalding.parquet.tuple;
+package com.twitter.scalding.parquet.cascading.tuple;
 
 import com.twitter.scalding.parquet.thrift_java.test.Name;
 
diff --git a/scalding-parquet/src/test/resources/names.txt b/scalding-parquet-cascading/src/test/resources/names.txt
similarity index 100%
rename from scalding-parquet/src/test/resources/names.txt
rename to scalding-parquet-cascading/src/test/resources/names.txt
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
similarity index 95%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
index cff692b347..7a24c2f9f6 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeScheme.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
@@ -16,13 +16,13 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
 
-import com.twitter.scalding.parquet.ParquetValueScheme;
+import com.twitter.scalding.parquet.cascading.ParquetValueScheme;
 import com.twitter.scrooge.ThriftStruct;
 
 import cascading.flow.FlowProcess;
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeReadSupport.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeReadSupport.java
similarity index 96%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeReadSupport.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeReadSupport.java
index 146912395a..91633c9e04 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeReadSupport.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeReadSupport.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import org.apache.parquet.hadoop.thrift.ThriftReadSupport;
 import org.apache.parquet.schema.MessageType;
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeRecordConverter.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeRecordConverter.java
similarity index 97%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeRecordConverter.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeRecordConverter.java
index 20f1e31fe4..245bfc1dd7 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeRecordConverter.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeRecordConverter.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import org.apache.thrift.TException;
 import org.apache.thrift.protocol.TProtocol;
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeSchemaConversionException.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeSchemaConversionException.java
similarity index 95%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeSchemaConversionException.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeSchemaConversionException.java
index 6c6d5cb630..85897ee05f 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeSchemaConversionException.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeSchemaConversionException.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import org.apache.parquet.ParquetRuntimeException;
 
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverter.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverter.java
similarity index 99%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverter.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverter.java
index 16f7851bca..1f1d510c3c 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverter.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverter.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import java.lang.reflect.Field;
 import java.lang.reflect.InvocationTargetException;
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeWriteSupport.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeWriteSupport.java
similarity index 97%
rename from scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeWriteSupport.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeWriteSupport.java
index 5d9f3ffb72..6111479b8a 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ScroogeWriteSupport.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeWriteSupport.java
@@ -13,7 +13,7 @@
  * See the License for the specific language governing permissions and
  * limitations under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import com.twitter.scrooge.ThriftStruct;
 
diff --git a/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala b/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
similarity index 94%
rename from scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala
rename to scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
index afc15ebc6b..9189f4214d 100644
--- a/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/Parquet346ScroogeScheme.scala
+++ b/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
@@ -1,9 +1,9 @@
-package com.twitter.scalding.parquet.scrooge
+package com.twitter.scalding.parquet.cascading.scrooge
 
 import cascading.flow.FlowProcess
 import cascading.tap.Tap
-import com.twitter.scalding.parquet.ParquetValueScheme
-import com.twitter.scalding.parquet.thrift.Parquet346StructTypeRepairer
+import com.twitter.scalding.parquet.cascading.ParquetValueScheme
+import com.twitter.scalding.parquet.cascading.thrift.Parquet346StructTypeRepairer
 import com.twitter.scrooge.{ ThriftStruct, ThriftStructCodec }
 import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
 import org.apache.parquet.hadoop.thrift.ThriftReadSupport
diff --git a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeSchemeTest.java
similarity index 98%
rename from scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java
rename to scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeSchemeTest.java
index bd626832ea..a0c6aecb5d 100644
--- a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeSchemeTest.java
+++ b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeSchemeTest.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import cascading.flow.Flow;
 import cascading.flow.FlowProcess;
@@ -47,7 +47,7 @@
 import org.junit.Test;
 import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
 import org.apache.parquet.hadoop.util.ContextUtil;
-import com.twitter.scalding.parquet.ParquetValueScheme.Config;
+import com.twitter.scalding.parquet.cascading.ParquetValueScheme.Config;
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.TestPersonWithAllInformation;
 import com.twitter.scalding.parquet.scrooge.thrift_java.test.Address;
 import com.twitter.scalding.parquet.scrooge.thrift_java.test.Phone;
diff --git a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverterTest.java b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverterTest.java
similarity index 99%
rename from scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverterTest.java
rename to scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverterTest.java
index c8dec25947..0118e52888 100644
--- a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeStructConverterTest.java
+++ b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverterTest.java
@@ -16,7 +16,7 @@
  * specific language governing permissions and limitations
  * under the License.
  */
-package com.twitter.scalding.parquet.scrooge;
+package com.twitter.scalding.parquet.cascading.scrooge;
 
 import org.apache.thrift.TBase;
 import org.junit.Test;
diff --git a/scalding-parquet-scrooge/src/test/resources/names.txt b/scalding-parquet-scrooge-cascading/src/test/resources/names.txt
similarity index 100%
rename from scalding-parquet-scrooge/src/test/resources/names.txt
rename to scalding-parquet-scrooge-cascading/src/test/resources/names.txt
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeInputFormat.java b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeInputFormat.java
index e58a8f731b..4d31a4e447 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeInputFormat.java
+++ b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeInputFormat.java
@@ -18,6 +18,7 @@
  */
 package com.twitter.scalding.parquet.scrooge;
 
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeReadSupport;
 import org.apache.parquet.hadoop.thrift.ParquetThriftInputFormat;
 
 /**
diff --git a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeOutputFormat.java b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeOutputFormat.java
index daa2f69545..13ea61813f 100644
--- a/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeOutputFormat.java
+++ b/scalding-parquet-scrooge/src/main/java/com/twitter/scalding/parquet/scrooge/ParquetScroogeOutputFormat.java
@@ -15,6 +15,7 @@
  */
 package com.twitter.scalding.parquet.scrooge;
 
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeWriteSupport;
 import com.twitter.scrooge.ThriftStruct;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.parquet.hadoop.ParquetOutputFormat;
diff --git a/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/package.scala b/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/package.scala
new file mode 100644
index 0000000000..3305ad179a
--- /dev/null
+++ b/scalding-parquet-scrooge/src/main/scala/com/twitter/scalding/parquet/scrooge/package.scala
@@ -0,0 +1,6 @@
+package com.twitter.scalding.parquet
+
+package object scrooge {
+  type Parquet346ScroogeScheme[T <: com.twitter.scrooge.ThriftStruct] = com.twitter.scalding.parquet.cascading.scrooge.Parquet346ScroogeScheme[T]
+}
+
diff --git a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeBinaryTest.java b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeBinaryTest.java
index 0686e79405..59c6598283 100644
--- a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeBinaryTest.java
+++ b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/ScroogeBinaryTest.java
@@ -29,6 +29,9 @@
 import org.junit.rules.TemporaryFolder;
 import org.apache.parquet.hadoop.ParquetReader;
 import org.apache.parquet.hadoop.ParquetWriter;
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeReadSupport;
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeRecordConverter;
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeWriteSupport;
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.StringAndBinary;
 import org.apache.parquet.thrift.ThriftParquetReader;
 
diff --git a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/TestCorruptScroogeRecords.java b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/TestCorruptScroogeRecords.java
index f5439e84be..0e9c30cd8f 100644
--- a/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/TestCorruptScroogeRecords.java
+++ b/scalding-parquet-scrooge/src/test/java/com/twitter/scalding/parquet/scrooge/TestCorruptScroogeRecords.java
@@ -33,6 +33,7 @@
 
 import org.apache.parquet.hadoop.thrift.TestCorruptThriftRecords;
 import org.apache.parquet.hadoop.thrift.ThriftReadSupport;
+import com.twitter.scalding.parquet.cascading.scrooge.ScroogeRecordConverter;
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.StructWithUnionV2;
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.StructWithUnionV2$;
 
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/package.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/package.scala
new file mode 100644
index 0000000000..ddc48e0e43
--- /dev/null
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/package.scala
@@ -0,0 +1,10 @@
+package com.twitter.scalding
+
+package object parquet {
+  type ParquetValueScheme[T] = com.twitter.scalding.parquet.cascading.ParquetValueScheme[T]
+
+  object ParquetValueScheme {
+    type Config[T] = com.twitter.scalding.parquet.cascading.ParquetValueScheme.Config[T]
+  }
+}
+
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/package.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/package.scala
new file mode 100644
index 0000000000..a6edade5b0
--- /dev/null
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/thrift/package.scala
@@ -0,0 +1,6 @@
+package com.twitter.scalding.parquet
+
+package object thrift {
+  type Parquet346TBaseScheme[T <: org.apache.thrift.TBase[_, _]] = com.twitter.scalding.parquet.cascading.thrift.Parquet346TBaseScheme[T]
+}
+
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/package.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/package.scala
new file mode 100644
index 0000000000..79bb10f7ca
--- /dev/null
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/package.scala
@@ -0,0 +1,6 @@
+package com.twitter.scalding.parquet
+
+package object tuple {
+  type ParquetTupleScheme = com.twitter.scalding.parquet.cascading.tuple.ParquetTupleScheme
+}
+
diff --git a/scalding-parquet/src/test/scala/com/twitter/scalding/parquet/ParquetSourcesTests.scala b/scalding-parquet/src/test/scala/com/twitter/scalding/parquet/ParquetSourcesTests.scala
index 82689a35f5..3dd25d14c8 100644
--- a/scalding-parquet/src/test/scala/com/twitter/scalding/parquet/ParquetSourcesTests.scala
+++ b/scalding-parquet/src/test/scala/com/twitter/scalding/parquet/ParquetSourcesTests.scala
@@ -1,6 +1,6 @@
 package com.twitter.scalding.parquet
 
-import cascading.tuple.Fields
+import _root_.cascading.tuple.Fields
 import com.twitter.scalding.parquet.thrift.{ DailySuffixParquetThrift, FixedPathParquetThrift, HourlySuffixParquetThrift }
 import com.twitter.scalding.parquet.tuple.{ DailySuffixParquetTuple, FixedPathParquetTuple, HourlySuffixParquetTuple }
 import com.twitter.scalding.{ DateRange, RichDate, Source }

From 8ad9b1f481ad5cd3c67b343db1c0c292c94cd6f9 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Tue, 16 Feb 2016 14:25:58 -0800
Subject: [PATCH 06/72] [cascading3] Migrate parquet schemes

---
 build.sbt                                          | 10 +++++++---
 .../parquet/cascading/ParquetValueScheme.java      |  6 +++---
 .../cascading/thrift/ParquetTBaseScheme.java       |  4 ++--
 .../cascading/tuple/ParquetTupleScheme.java        | 14 +++++++-------
 .../cascading/thrift/Parquet346TBaseScheme.scala   |  2 +-
 .../cascading/thrift/TestParquetTBaseScheme.java   |  2 +-
 .../scrooge/cascading/ParquetScroogeScheme.java    |  4 ++--
 .../cascading/Parquet346ScroogeScheme.scala        |  2 +-
 .../tuple/scheme/TypedParquetTupleScheme.scala     |  8 ++++----
 9 files changed, 28 insertions(+), 24 deletions(-)

diff --git a/build.sbt b/build.sbt
index 733828f657..86dde068f4 100644
--- a/build.sbt
+++ b/build.sbt
@@ -294,6 +294,10 @@ lazy val scaldingDate = module("date")
 lazy val cascadingVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "2.6.1")
 
+// This is a temporary placeholder while we migrate to cascading3, a few subprojects at a time
+// and should eventually be folded into cascadingVersion when we merge to develop.
+val cascadingThreeVersion = "3.0.3"
+
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
 
@@ -397,8 +401,8 @@ lazy val scaldingParquetCascading = module("parquet-cascading").settings(
       exclude("com.twitter.elephantbird", "elephant-bird-core"),
     "org.apache.thrift" % "libthrift" % thriftVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-    "cascading" % "cascading-core" % cascadingVersion,
-    "cascading" % "cascading-hadoop" % cascadingVersion,
+    "cascading" % "cascading-core" % cascadingThreeVersion,
+    "cascading" % "cascading-hadoop" % cascadingThreeVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
   )
 ).dependsOn(scaldingParquetFixtures % "test->test")
@@ -447,7 +451,7 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
   .settings(
     libraryDependencies ++= Seq(
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-      "cascading" % "cascading-core" % cascadingVersion,
+      "cascading" % "cascading-core" % cascadingThreeVersion,
       "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
diff --git a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
index 6d19286641..169c1f24e9 100644
--- a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/ParquetValueScheme.java
@@ -120,7 +120,7 @@ private void setPredicatePushdown(JobConf jobConf) {
     }
   }
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> jobConfFlowProcess, Tap<JobConf, RecordReader, OutputCollector> jobConfRecordReaderOutputCollectorTap, final JobConf jobConf) {
+  public void sourceConfInit(FlowProcess<? extends JobConf> jobConfFlowProcess, Tap<JobConf, RecordReader, OutputCollector> jobConfRecordReaderOutputCollectorTap, final JobConf jobConf) {
     setPredicatePushdown(jobConf);
     setProjectionPushdown(jobConf);
     setStrictProjectionPushdown(jobConf);
@@ -135,7 +135,7 @@ private void setRecordClass(JobConf jobConf) {
 
   @SuppressWarnings("unchecked")
   @Override
-  public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader> sc)
+  public boolean source(FlowProcess<? extends JobConf> fp, SourceCall<Object[], RecordReader> sc)
       throws IOException {
     Container<T> value = (Container<T>) sc.getInput().createValue();
     boolean hasNext = sc.getInput().next(null, value);
@@ -150,7 +150,7 @@ public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader
 
   @SuppressWarnings("unchecked")
   @Override
-  public void sink(FlowProcess<JobConf> fp, SinkCall<Object[], OutputCollector> sc)
+  public void sink(FlowProcess<? extends JobConf> fp, SinkCall<Object[], OutputCollector> sc)
       throws IOException {
     TupleEntry tuple = sc.getOutgoingEntry();
 
diff --git a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
index 3d80483669..732eb5d7f9 100644
--- a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/thrift/ParquetTBaseScheme.java
@@ -41,7 +41,7 @@ public ParquetTBaseScheme(ParquetValueScheme.Config<T> config) {
   }
 
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> fp,
+  public void sourceConfInit(FlowProcess<? extends JobConf> fp,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
     super.sourceConfInit(fp, tap, jobConf);
     jobConf.setInputFormat(DeprecatedParquetInputFormat.class);
@@ -50,7 +50,7 @@ public void sourceConfInit(FlowProcess<JobConf> fp,
   }
 
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> fp,
+  public void sinkConfInit(FlowProcess<? extends JobConf> fp,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
 
     if (this.config.getKlass() == null) {
diff --git a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
index deeb94116c..25f6566ce0 100644
--- a/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
+++ b/scalding-parquet-cascading/src/main/java/com/twitter/scalding/parquet/cascading/tuple/ParquetTupleScheme.java
@@ -83,7 +83,7 @@ public ParquetTupleScheme(Fields sourceFields, Fields sinkFields, final String s
 
   @SuppressWarnings("rawtypes")
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> fp,
+  public void sourceConfInit(FlowProcess<? extends JobConf> fp,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
 
     if (filterPredicate != null) {
@@ -96,7 +96,7 @@ public void sourceConfInit(FlowProcess<JobConf> fp,
  }
 
  @Override
- public Fields retrieveSourceFields(FlowProcess<JobConf> flowProcess, Tap tap) {
+ public Fields retrieveSourceFields(FlowProcess<? extends JobConf> flowProcess, Tap tap) {
     MessageType schema = readSchema(flowProcess, tap);
     SchemaIntersection intersection = new SchemaIntersection(schema, getSourceFields());
 
@@ -105,7 +105,7 @@ public Fields retrieveSourceFields(FlowProcess<JobConf> flowProcess, Tap tap) {
     return getSourceFields();
   }
 
-  private MessageType readSchema(FlowProcess<JobConf> flowProcess, Tap tap) {
+  private MessageType readSchema(FlowProcess<? extends JobConf> flowProcess, Tap tap) {
     try {
       Hfs hfs;
 
@@ -126,7 +126,7 @@ private MessageType readSchema(FlowProcess<JobConf> flowProcess, Tap tap) {
     }
   }
 
-   private List<Footer> getFooters(FlowProcess<JobConf> flowProcess, Hfs hfs) throws IOException {
+   private List<Footer> getFooters(FlowProcess<? extends JobConf> flowProcess, Hfs hfs) throws IOException {
      JobConf jobConf = flowProcess.getConfigCopy();
      DeprecatedParquetInputFormat format = new DeprecatedParquetInputFormat();
      format.addInputPath(jobConf, hfs.getPath());
@@ -135,7 +135,7 @@ private List<Footer> getFooters(FlowProcess<JobConf> flowProcess, Hfs hfs) throw
 
   @SuppressWarnings("unchecked")
   @Override
-  public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader> sc)
+  public boolean source(FlowProcess<? extends JobConf> fp, SourceCall<Object[], RecordReader> sc)
       throws IOException {
     Container<Tuple> value = (Container<Tuple>) sc.getInput().createValue();
     boolean hasNext = sc.getInput().next(null, value);
@@ -151,7 +151,7 @@ public boolean source(FlowProcess<JobConf> fp, SourceCall<Object[], RecordReader
 
   @SuppressWarnings("rawtypes")
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> fp,
+  public void sinkConfInit(FlowProcess<? extends JobConf> fp,
           Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
     DeprecatedParquetOutputFormat.setAsOutputFormat(jobConf);
     jobConf.set(TupleWriteSupport.PARQUET_CASCADING_SCHEMA, parquetSchema);
@@ -164,7 +164,7 @@ public boolean isSink() {
   }
 
   @Override
-  public void sink(FlowProcess<JobConf> fp, SinkCall<Object[], OutputCollector> sink)
+  public void sink(FlowProcess<? extends JobConf> fp, SinkCall<Object[], OutputCollector> sink)
           throws IOException {
     TupleEntry tuple = sink.getOutgoingEntry();
     OutputCollector outputCollector = sink.getOutput();
diff --git a/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala b/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
index 1110b78119..5aa7280857 100644
--- a/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
+++ b/scalding-parquet-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/thrift/Parquet346TBaseScheme.scala
@@ -34,7 +34,7 @@ import scala.collection.JavaConverters._
 class Parquet346TBaseScheme[T <: TBase[_, _]](config: ParquetValueScheme.Config[T])
   extends ParquetTBaseScheme[T](config) {
 
-  override def sourceConfInit(fp: FlowProcess[JobConf],
+  override def sourceConfInit(fp: FlowProcess[_ <: JobConf],
     tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
     jobConf: JobConf): Unit = {
 
diff --git a/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
index 1c2a5ec29a..ea7664b18b 100644
--- a/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
+++ b/scalding-parquet-cascading/src/test/java/com/twitter/scalding/parquet/cascading/thrift/TestParquetTBaseScheme.java
@@ -159,7 +159,7 @@ public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
       TupleEntry arguments = functionCall.getArguments();
       Tuple result = new Tuple();
 
-      Name name = (Name) arguments.get(0);
+      Name name = (Name) arguments.getObject(0);
       result.add(name.getFirst_name());
       result.add(name.getLast_name());
       functionCall.getOutputCollector().add(result);
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
index 7a24c2f9f6..46fee8615c 100644
--- a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
+++ b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
@@ -51,7 +51,7 @@ public ParquetScroogeScheme(ParquetValueScheme.Config<T> config) {
   }
 
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> fp,
+  public void sinkConfInit(FlowProcess<? extends JobConf> fp,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
     DeprecatedParquetOutputFormat.setAsOutputFormat(jobConf);
     ParquetOutputFormat.setWriteSupportClass(jobConf, ScroogeWriteSupport.class);
@@ -59,7 +59,7 @@ public void sinkConfInit(FlowProcess<JobConf> fp,
   }
 
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> fp,
+  public void sourceConfInit(FlowProcess<? extends JobConf> fp,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf jobConf) {
     super.sourceConfInit(fp, tap, jobConf);
     jobConf.setInputFormat(DeprecatedParquetInputFormat.class);
diff --git a/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala b/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
index 9189f4214d..bead5d204e 100644
--- a/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
+++ b/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
@@ -31,7 +31,7 @@ import scala.util.control.NonFatal
 class Parquet346ScroogeScheme[T <: ThriftStruct](config: ParquetValueScheme.Config[T])
   extends ParquetScroogeScheme[T](config) {
 
-  override def sourceConfInit(fp: FlowProcess[JobConf],
+  override def sourceConfInit(fp: FlowProcess[_ <: JobConf],
     tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
     jobConf: JobConf): Unit = {
 
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
index 3e06b8e107..f604dfb421 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
@@ -140,14 +140,14 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
   type SourceCallType = SourceCall[Array[AnyRef], Reader]
   type SinkCallType = SinkCall[Array[AnyRef], Output]
 
-  override def sourceConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sourceConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
     fp.map(ParquetInputFormat.setFilterPredicate(jobConf, _))
     jobConf.setInputFormat(classOf[DeprecatedParquetInputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.READ_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(readSupport))
     ParquetInputFormat.setReadSupportClass(jobConf, classOf[ReadSupportInstanceProxy[_]])
   }
 
-  override def source(flowProcess: FlowProcess[JobConf], sc: SourceCallType): Boolean = {
+  override def source(flowProcess: FlowProcess[_ <: JobConf], sc: SourceCallType): Boolean = {
     val value: Container[T] = sc.getInput.createValue()
 
     val hasNext = sc.getInput.next(null, value)
@@ -161,12 +161,12 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
     }
   }
 
-  override def sinkConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sinkConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
     jobConf.setOutputFormat(classOf[InnerDeprecatedParquetOutputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.WRITE_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(writeSupport))
   }
 
-  override def sink(flowProcess: FlowProcess[JobConf], sinkCall: SinkCallType): Unit = {
+  override def sink(flowProcess: FlowProcess[_ <: JobConf], sinkCall: SinkCallType): Unit = {
     val tuple = sinkCall.getOutgoingEntry
     require(tuple.size == 1,
       "TypedParquetTupleScheme expects tuple with an arity of exactly 1, but found " + tuple.getFields)

From a107a76538e57b26946612bafa233babc97ac66c Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Tue, 16 Feb 2016 16:42:18 -0800
Subject: [PATCH 07/72] [cascading3] make cascading3 deps provided for now to
 keep other sub projects working

---
 build.sbt                                                 | 8 +++++---
 .../parquet/tuple/scheme/TypedParquetTupleScheme.scala    | 8 ++++----
 2 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/build.sbt b/build.sbt
index 86dde068f4..04fb666fd4 100644
--- a/build.sbt
+++ b/build.sbt
@@ -401,8 +401,10 @@ lazy val scaldingParquetCascading = module("parquet-cascading").settings(
       exclude("com.twitter.elephantbird", "elephant-bird-core"),
     "org.apache.thrift" % "libthrift" % thriftVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-    "cascading" % "cascading-core" % cascadingThreeVersion,
-    "cascading" % "cascading-hadoop" % cascadingThreeVersion,
+    "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
+    "cascading" % "cascading-hadoop" % cascadingThreeVersion % "provided",
+    "com.twitter" %% "bijection-core" % bijectionVersion,
+    "com.twitter" %% "chill-bijection" % chillVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
   )
 ).dependsOn(scaldingParquetFixtures % "test->test")
@@ -451,7 +453,7 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
   .settings(
     libraryDependencies ++= Seq(
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-      "cascading" % "cascading-core" % cascadingThreeVersion,
+      "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
       "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
index f604dfb421..3e06b8e107 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
@@ -140,14 +140,14 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
   type SourceCallType = SourceCall[Array[AnyRef], Reader]
   type SinkCallType = SinkCall[Array[AnyRef], Output]
 
-  override def sourceConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sourceConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
     fp.map(ParquetInputFormat.setFilterPredicate(jobConf, _))
     jobConf.setInputFormat(classOf[DeprecatedParquetInputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.READ_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(readSupport))
     ParquetInputFormat.setReadSupportClass(jobConf, classOf[ReadSupportInstanceProxy[_]])
   }
 
-  override def source(flowProcess: FlowProcess[_ <: JobConf], sc: SourceCallType): Boolean = {
+  override def source(flowProcess: FlowProcess[JobConf], sc: SourceCallType): Boolean = {
     val value: Container[T] = sc.getInput.createValue()
 
     val hasNext = sc.getInput.next(null, value)
@@ -161,12 +161,12 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
     }
   }
 
-  override def sinkConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sinkConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
     jobConf.setOutputFormat(classOf[InnerDeprecatedParquetOutputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.WRITE_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(writeSupport))
   }
 
-  override def sink(flowProcess: FlowProcess[_ <: JobConf], sinkCall: SinkCallType): Unit = {
+  override def sink(flowProcess: FlowProcess[JobConf], sinkCall: SinkCallType): Unit = {
     val tuple = sinkCall.getOutgoingEntry
     require(tuple.size == 1,
       "TypedParquetTupleScheme expects tuple with an arity of exactly 1, but found " + tuple.getFields)

From d5f3aa95517b9af9c48d3b59f4edddd3b718fe0f Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 17 Feb 2016 09:10:57 -0800
Subject: [PATCH 08/72] [cascading3] Fix parquet-scrooge-cascading tests

---
 build.sbt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/build.sbt b/build.sbt
index 04fb666fd4..9ee4c13923 100644
--- a/build.sbt
+++ b/build.sbt
@@ -454,6 +454,7 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
     libraryDependencies ++= Seq(
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
       "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
+      "cascading" % "cascading-hadoop" % cascadingThreeVersion % "test",
       "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")

From dbf6595fa0a04818e9b1b903d1b5757f4d9805d4 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 17 Feb 2016 09:33:29 -0800
Subject: [PATCH 09/72] [cascading3] remove unused deps

---
 build.sbt | 2 --
 1 file changed, 2 deletions(-)

diff --git a/build.sbt b/build.sbt
index 9ee4c13923..c2740aa319 100644
--- a/build.sbt
+++ b/build.sbt
@@ -403,8 +403,6 @@ lazy val scaldingParquetCascading = module("parquet-cascading").settings(
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
     "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
     "cascading" % "cascading-hadoop" % cascadingThreeVersion % "provided",
-    "com.twitter" %% "bijection-core" % bijectionVersion,
-    "com.twitter" %% "chill-bijection" % chillVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
   )
 ).dependsOn(scaldingParquetFixtures % "test->test")

From 5d8666b96a5fa00610b382d6a842004fd140c245 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 17 Feb 2016 10:00:17 -0800
Subject: [PATCH 10/72] [cascading3] Migrate maple

---
 build.sbt                                     |  6 +++-
 .../etsy/cascading/tap/local/LocalTap.java    | 31 ++++++++++---------
 .../com/twitter/maple/hbase/HBaseScheme.java  | 12 +++----
 .../com/twitter/maple/hbase/HBaseTap.java     |  8 ++---
 .../maple/hbase/HBaseTapCollector.java        |  4 +--
 .../com/twitter/maple/tap/MemorySinkTap.java  |  4 +--
 .../twitter/maple/tap/MemorySourceTap.java    | 14 ++++-----
 .../java/com/twitter/maple/tap/StdoutTap.java |  6 ++--
 8 files changed, 45 insertions(+), 40 deletions(-)

diff --git a/build.sbt b/build.sbt
index 733828f657..ff37ac32fb 100644
--- a/build.sbt
+++ b/build.sbt
@@ -294,6 +294,10 @@ lazy val scaldingDate = module("date")
 lazy val cascadingVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "2.6.1")
 
+// This is a temporary placeholder while we migrate to cascading3, a few subprojects at a time
+// and should eventually be folded into cascadingVersion when we merge to develop.
+val cascadingThreeVersion = "3.0.3"
+
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
 
@@ -597,7 +601,7 @@ lazy val maple = Project(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
     "org.apache.hbase" % "hbase" % hbaseVersion % "provided",
-    "cascading" % "cascading-hadoop" % cascadingVersion
+    "cascading" % "cascading-hadoop" % cascadingThreeVersion % "provided"
   )
   }
 )
diff --git a/maple/src/main/java/com/etsy/cascading/tap/local/LocalTap.java b/maple/src/main/java/com/etsy/cascading/tap/local/LocalTap.java
index 1aefbbb49f..4b0416b11f 100644
--- a/maple/src/main/java/com/etsy/cascading/tap/local/LocalTap.java
+++ b/maple/src/main/java/com/etsy/cascading/tap/local/LocalTap.java
@@ -5,6 +5,7 @@
 import java.util.Properties;
 import java.util.logging.Logger;
 
+import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
@@ -45,18 +46,18 @@ public class LocalTap<SourceCtx, SinkCtx> extends Tap<Properties, RecordReader,
     private JobConf defaults;
     private Lfs lfs;
 
-    public LocalTap(String path, Scheme<JobConf, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme,
+    public LocalTap(String path, Scheme<Configuration, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme,
             SinkMode sinkMode) {
         super(new LocalScheme<SourceCtx, SinkCtx>(scheme), sinkMode);
         setup(path, scheme);
     }
 
-    public LocalTap(String path, Scheme<JobConf, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme) {
+    public LocalTap(String path, Scheme<Configuration, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme) {
         super(new LocalScheme<SourceCtx, SinkCtx>(scheme));
         setup(path, scheme);
     }
 
-    private void setup(String path, Scheme<JobConf, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme) {
+    private void setup(String path, Scheme<Configuration, RecordReader, OutputCollector, SourceCtx, SinkCtx> scheme) {
         this.path = path;
 
         /*
@@ -90,13 +91,13 @@ public String getIdentifier() {
     }
 
     @Override
-    public TupleEntryIterator openForRead(FlowProcess<Properties> flowProcess, RecordReader input) throws IOException {
+    public TupleEntryIterator openForRead(FlowProcess<? extends Properties> flowProcess, RecordReader input) throws IOException {
         JobConf jobConf = mergeDefaults("LocalTap#openForRead", flowProcess.getConfigCopy(), defaults);
         return lfs.openForRead(new HadoopFlowProcess(jobConf));
     }
 
     @Override
-    public TupleEntryCollector openForWrite(FlowProcess<Properties> flowProcess, OutputCollector output)
+    public TupleEntryCollector openForWrite(FlowProcess<? extends Properties> flowProcess, OutputCollector output)
             throws IOException {
         JobConf jobConf = mergeDefaults("LocalTap#openForWrite", flowProcess.getConfigCopy(), defaults);
         return lfs.openForWrite(new HadoopFlowProcess(jobConf));
@@ -141,11 +142,11 @@ private static class LocalScheme<SourceContext, SinkContext> extends
             Scheme<Properties, RecordReader, OutputCollector, SourceContext, SinkContext> {
         private static final long serialVersionUID = 5710119342340369543L;
 
-        private Scheme<JobConf, RecordReader, OutputCollector, SourceContext, SinkContext> scheme;
+        private Scheme<Configuration, RecordReader, OutputCollector, SourceContext, SinkContext> scheme;
         private JobConf defaults;
         private Lfs lfs;
 
-        public LocalScheme(Scheme<JobConf, RecordReader, OutputCollector, SourceContext, SinkContext> scheme) {
+        public LocalScheme(Scheme<Configuration, RecordReader, OutputCollector, SourceContext, SinkContext> scheme) {
             super(scheme.getSourceFields(), scheme.getSinkFields());
             this.scheme = scheme;
         }
@@ -159,19 +160,19 @@ private void setLfs(Lfs lfs) {
         }
 
         @Override
-        public Fields retrieveSourceFields(FlowProcess<Properties> flowProcess,
+        public Fields retrieveSourceFields(FlowProcess<? extends Properties> flowProcess,
                 Tap tap) {
             return scheme.retrieveSourceFields(new HadoopFlowProcess(defaults), lfs);
         }
 
         @Override
-        public void presentSourceFields(FlowProcess<Properties> flowProcess, 
+        public void presentSourceFields(FlowProcess<? extends Properties> flowProcess, 
                 Tap tap, Fields fields) {
             scheme.presentSourceFields(new HadoopFlowProcess(defaults), lfs, fields);
         }
 
         @Override
-        public void sourceConfInit(FlowProcess<Properties> flowProcess,
+        public void sourceConfInit(FlowProcess<? extends Properties> flowProcess,
                 Tap<Properties, RecordReader, OutputCollector> tap, Properties conf) {
             JobConf jobConf = mergeDefaults("LocalScheme#sourceConfInit", conf, defaults);
             scheme.sourceConfInit(new HadoopFlowProcess(jobConf), lfs, jobConf);
@@ -179,19 +180,19 @@ public void sourceConfInit(FlowProcess<Properties> flowProcess,
         }
 
         @Override
-        public Fields retrieveSinkFields(FlowProcess<Properties> flowProcess,
+        public Fields retrieveSinkFields(FlowProcess<? extends Properties> flowProcess,
                 Tap tap) {
             return scheme.retrieveSinkFields(new HadoopFlowProcess(defaults), lfs);
         }
 
         @Override
-        public void presentSinkFields(FlowProcess<Properties> flowProcess, 
+        public void presentSinkFields(FlowProcess<? extends Properties> flowProcess, 
                 Tap tap, Fields fields) {
             scheme.presentSinkFields(new HadoopFlowProcess(defaults), lfs, fields);
         }
             
         @Override
-        public void sinkConfInit(FlowProcess<Properties> flowProcess,
+        public void sinkConfInit(FlowProcess<? extends Properties> flowProcess,
                 Tap<Properties, RecordReader, OutputCollector> tap, Properties conf) {
             JobConf jobConf = mergeDefaults("LocalScheme#sinkConfInit", conf, defaults);
             scheme.sinkConfInit(new HadoopFlowProcess(jobConf), lfs, jobConf);
@@ -199,13 +200,13 @@ public void sinkConfInit(FlowProcess<Properties> flowProcess,
         }
 
         @Override
-        public boolean source(FlowProcess<Properties> flowProcess, SourceCall<SourceContext, RecordReader> sourceCall)
+        public boolean source(FlowProcess<? extends Properties> flowProcess, SourceCall<SourceContext, RecordReader> sourceCall)
                 throws IOException {
             throw new RuntimeException("LocalTap#source is never called");
         }
 
         @Override
-        public void sink(FlowProcess<Properties> flowProcess, SinkCall<SinkContext, OutputCollector> sinkCall)
+        public void sink(FlowProcess<? extends Properties> flowProcess, SinkCall<SinkContext, OutputCollector> sinkCall)
                 throws IOException {
             throw new RuntimeException("LocalTap#sink is never called");
         }
diff --git a/maple/src/main/java/com/twitter/maple/hbase/HBaseScheme.java b/maple/src/main/java/com/twitter/maple/hbase/HBaseScheme.java
index 0f830ede86..6dfa4ff7ff 100644
--- a/maple/src/main/java/com/twitter/maple/hbase/HBaseScheme.java
+++ b/maple/src/main/java/com/twitter/maple/hbase/HBaseScheme.java
@@ -154,7 +154,7 @@ public String[] getFamilyNames() {
   }
 
   @Override
-  public void sourcePrepare(FlowProcess<JobConf> flowProcess,
+  public void sourcePrepare(FlowProcess<? extends JobConf> flowProcess,
       SourceCall<Object[], RecordReader> sourceCall) {
     Object[] pair =
         new Object[]{sourceCall.getInput().createKey(), sourceCall.getInput().createValue()};
@@ -163,13 +163,13 @@ public void sourcePrepare(FlowProcess<JobConf> flowProcess,
   }
 
   @Override
-  public void sourceCleanup(FlowProcess<JobConf> flowProcess,
+  public void sourceCleanup(FlowProcess<? extends JobConf> flowProcess,
       SourceCall<Object[], RecordReader> sourceCall) {
     sourceCall.setContext(null);
   }
 
   @Override
-  public boolean source(FlowProcess<JobConf> flowProcess,
+  public boolean source(FlowProcess<? extends JobConf> flowProcess,
       SourceCall<Object[], RecordReader> sourceCall) throws IOException {
     Tuple result = new Tuple();
 
@@ -206,7 +206,7 @@ public boolean source(FlowProcess<JobConf> flowProcess,
   }
 
   @Override
-  public void sink(FlowProcess<JobConf> flowProcess, SinkCall<Object[], OutputCollector> sinkCall)
+  public void sink(FlowProcess<? extends JobConf> flowProcess, SinkCall<Object[], OutputCollector> sinkCall)
       throws IOException {
     TupleEntry tupleEntry = sinkCall.getOutgoingEntry();
     OutputCollector outputCollector = sinkCall.getOutput();
@@ -231,7 +231,7 @@ public void sink(FlowProcess<JobConf> flowProcess, SinkCall<Object[], OutputColl
   }
 
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> process,
+  public void sinkConfInit(FlowProcess<? extends JobConf> process,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf conf) {
     conf.setOutputFormat(TableOutputFormat.class);
 
@@ -240,7 +240,7 @@ public void sinkConfInit(FlowProcess<JobConf> process,
   }
 
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> process,
+  public void sourceConfInit(FlowProcess<? extends JobConf> process,
       Tap<JobConf, RecordReader, OutputCollector> tap, JobConf conf) {
     conf.setInputFormat(TableInputFormat.class);
 
diff --git a/maple/src/main/java/com/twitter/maple/hbase/HBaseTap.java b/maple/src/main/java/com/twitter/maple/hbase/HBaseTap.java
index 37ebfb0a8e..cc5f764215 100644
--- a/maple/src/main/java/com/twitter/maple/hbase/HBaseTap.java
+++ b/maple/src/main/java/com/twitter/maple/hbase/HBaseTap.java
@@ -143,7 +143,7 @@ protected HBaseAdmin getHBaseAdmin(JobConf conf) throws MasterNotRunningExceptio
   }
 
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> process, JobConf conf) {
+  public void sinkConfInit(FlowProcess<? extends JobConf> process, JobConf conf) {
     if(quorumNames != null) {
       conf.set("hbase.zookeeper.quorum", quorumNames);
     }
@@ -178,12 +178,12 @@ public String getIdentifier() {
   }
 
   @Override
-  public TupleEntryIterator openForRead(FlowProcess<JobConf> jobConfFlowProcess, RecordReader recordReader) throws IOException {
+  public TupleEntryIterator openForRead(FlowProcess<? extends JobConf> jobConfFlowProcess, RecordReader recordReader) throws IOException {
     return new HadoopTupleEntrySchemeIterator(jobConfFlowProcess, this, recordReader);
   }
 
   @Override
-  public TupleEntryCollector openForWrite(FlowProcess<JobConf> jobConfFlowProcess, OutputCollector outputCollector) throws IOException {
+  public TupleEntryCollector openForWrite(FlowProcess<? extends JobConf> jobConfFlowProcess, OutputCollector outputCollector) throws IOException {
     HBaseTapCollector hBaseCollector = new HBaseTapCollector( jobConfFlowProcess, this );
     hBaseCollector.prepare();
     return hBaseCollector;
@@ -230,7 +230,7 @@ public long getModifiedTime(JobConf jobConf) throws IOException {
   }
 
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> process, JobConf conf) {
+  public void sourceConfInit(FlowProcess<? extends JobConf> process, JobConf conf) {
     // a hack for MultiInputFormat to see that there is a child format
     FileInputFormat.setInputPaths( conf, getPath() );
 
diff --git a/maple/src/main/java/com/twitter/maple/hbase/HBaseTapCollector.java b/maple/src/main/java/com/twitter/maple/hbase/HBaseTapCollector.java
index f5ad1ed2dd..1f726c465a 100644
--- a/maple/src/main/java/com/twitter/maple/hbase/HBaseTapCollector.java
+++ b/maple/src/main/java/com/twitter/maple/hbase/HBaseTapCollector.java
@@ -42,7 +42,7 @@ public class HBaseTapCollector extends TupleEntrySchemeCollector<JobConf, TupleE
   /** Field writer */
   private RecordWriter writer;
   /** Field flowProcess */
-  private final FlowProcess<JobConf> hadoopFlowProcess;
+  private final FlowProcess<? extends JobConf> hadoopFlowProcess;
   /** Field tap */
   private final Tap<JobConf, RecordReader, OutputCollector> tap;
   /** Field reporter */
@@ -58,7 +58,7 @@ public class HBaseTapCollector extends TupleEntrySchemeCollector<JobConf, TupleE
    * @throws IOException
    *           when fails to initialize
    */
-  public HBaseTapCollector(FlowProcess<JobConf> flowProcess, Tap<JobConf, RecordReader, OutputCollector> tap) throws IOException {
+  public HBaseTapCollector(FlowProcess<? extends JobConf> flowProcess, Tap<JobConf, RecordReader, OutputCollector> tap) throws IOException {
     super(flowProcess, tap.getScheme());
     this.hadoopFlowProcess = flowProcess;
     this.tap = tap;
diff --git a/maple/src/main/java/com/twitter/maple/tap/MemorySinkTap.java b/maple/src/main/java/com/twitter/maple/tap/MemorySinkTap.java
index 6b71b08b5b..f7fc9e21d1 100644
--- a/maple/src/main/java/com/twitter/maple/tap/MemorySinkTap.java
+++ b/maple/src/main/java/com/twitter/maple/tap/MemorySinkTap.java
@@ -7,7 +7,7 @@
 import cascading.tuple.Tuple;
 import cascading.tuple.TupleEntry;
 import cascading.tuple.TupleEntryIterator;
-import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.conf.Configuration;
 
 import java.io.File;
 import java.io.IOException;
@@ -43,7 +43,7 @@ public static String getTempDir() {
     }
 
     @Override
-    public boolean commitResource(JobConf conf) throws java.io.IOException {
+    public boolean commitResource(Configuration conf) throws java.io.IOException {
         TupleEntryIterator it = new HadoopFlowProcess(conf).openTapForRead(this);
 
         boolean first_time = true;
diff --git a/maple/src/main/java/com/twitter/maple/tap/MemorySourceTap.java b/maple/src/main/java/com/twitter/maple/tap/MemorySourceTap.java
index 1d07de3a23..fdff677ff1 100644
--- a/maple/src/main/java/com/twitter/maple/tap/MemorySourceTap.java
+++ b/maple/src/main/java/com/twitter/maple/tap/MemorySourceTap.java
@@ -46,7 +46,7 @@ public List<Tuple> getTuples() {
         }
 
         @Override
-        public void sourceConfInit(FlowProcess<JobConf> flowProcess,
+        public void sourceConfInit(FlowProcess<? extends JobConf> flowProcess,
             Tap<JobConf, RecordReader<TupleWrapper, NullWritable>, Void> tap, JobConf conf) {
             FileInputFormat.setInputPaths(conf, this.id);
             conf.setInputFormat(TupleMemoryInputFormat.class);
@@ -54,13 +54,13 @@ public void sourceConfInit(FlowProcess<JobConf> flowProcess,
         }
 
         @Override
-        public void sinkConfInit(FlowProcess<JobConf> flowProcess,
+        public void sinkConfInit(FlowProcess<? extends JobConf> flowProcess,
             Tap<JobConf, RecordReader<TupleWrapper, NullWritable>, Void> tap, JobConf conf) {
             throw new UnsupportedOperationException("Not supported yet.");
         }
 
         @Override
-        public void sourcePrepare( FlowProcess<JobConf> flowProcess, SourceCall<Object[],
+        public void sourcePrepare( FlowProcess<? extends JobConf> flowProcess, SourceCall<Object[],
             RecordReader<TupleWrapper, NullWritable>> sourceCall ) {
             sourceCall.setContext( new Object[ 2 ] );
 
@@ -69,7 +69,7 @@ public void sourcePrepare( FlowProcess<JobConf> flowProcess, SourceCall<Object[]
         }
 
         @Override
-        public boolean source(FlowProcess<JobConf> flowProcess, SourceCall<Object[],
+        public boolean source(FlowProcess<? extends JobConf> flowProcess, SourceCall<Object[],
             RecordReader<TupleWrapper, NullWritable>> sourceCall) throws IOException {
             TupleWrapper key = (TupleWrapper) sourceCall.getContext()[ 0 ];
             NullWritable value = (NullWritable) sourceCall.getContext()[ 1 ];
@@ -84,13 +84,13 @@ public boolean source(FlowProcess<JobConf> flowProcess, SourceCall<Object[],
         }
 
         @Override
-        public void sourceCleanup( FlowProcess<JobConf> flowProcess, SourceCall<Object[],
+        public void sourceCleanup( FlowProcess<? extends JobConf> flowProcess, SourceCall<Object[],
             RecordReader<TupleWrapper, NullWritable>> sourceCall ) {
             sourceCall.setContext( null );
         }
 
         @Override
-        public void sink(FlowProcess<JobConf> flowProcess, SinkCall<Void, Void> sinkCall ) throws IOException {
+        public void sink(FlowProcess<? extends JobConf> flowProcess, SinkCall<Void, Void> sinkCall ) throws IOException {
             throw new UnsupportedOperationException("Not supported.");
         }
 
@@ -127,7 +127,7 @@ public boolean equals(Object object) {
     }
 
     @Override
-    public TupleEntryIterator openForRead( FlowProcess<JobConf> flowProcess, RecordReader<TupleWrapper,
+    public TupleEntryIterator openForRead( FlowProcess<? extends JobConf> flowProcess, RecordReader<TupleWrapper,
         NullWritable> input ) throws IOException {
         // input may be null when this method is called on the client side or cluster side when accumulating
         // for a HashJoin
diff --git a/maple/src/main/java/com/twitter/maple/tap/StdoutTap.java b/maple/src/main/java/com/twitter/maple/tap/StdoutTap.java
index 5c3f5f0b29..93c8d4b501 100644
--- a/maple/src/main/java/com/twitter/maple/tap/StdoutTap.java
+++ b/maple/src/main/java/com/twitter/maple/tap/StdoutTap.java
@@ -5,7 +5,7 @@
 import cascading.tap.hadoop.Lfs;
 import cascading.tuple.Fields;
 import cascading.tuple.TupleEntryIterator;
-import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.conf.Configuration;
 
 import java.io.File;
 import java.io.IOException;
@@ -32,7 +32,7 @@ public static String getTempDir() {
     }
 
     @Override
-    public boolean commitResource(JobConf conf) throws java.io.IOException {
+    public boolean commitResource(Configuration conf) throws java.io.IOException {
         TupleEntryIterator it = new HadoopFlowProcess(conf).openTapForRead(this);
         System.out.println("");
         System.out.println("");
@@ -45,4 +45,4 @@ public boolean commitResource(JobConf conf) throws java.io.IOException {
         it.close();
         return true;
     }
-}
\ No newline at end of file
+}

From 2c47b2e4ead769a4aa69d02dde0be1a4ba5bad03 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 17 Feb 2016 11:13:27 -0800
Subject: [PATCH 11/72] [cascading3] temporary workaround for LocalTap

---
 .../src/main/scala/com/twitter/scalding/FileSource.scala     | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
index c3a661a2d2..fb98f62a98 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
@@ -404,7 +404,10 @@ trait SuccessFileSource extends FileSource {
 trait LocalTapSource extends LocalSourceOverride {
   override def createLocalTap(sinkMode: SinkMode): Tap[JobConf, _, _] = {
     val taps = localPaths.map { p =>
-      new LocalTap(p, hdfsScheme, sinkMode).asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
+      // temporary workaround. Remove when scalding-core is migrated to cascading3.
+      val scheme = hdfsScheme.asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
+      // end temporary workaround
+      new LocalTap(p, scheme, sinkMode).asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
     }.toSeq
 
     taps match {

From 15cee630250e3ae7b6ae3c209eece7d50b87fe8a Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 18 Feb 2016 10:54:34 -0800
Subject: [PATCH 12/72] [cascading3] Migrate core, commons and related

---
 build.sbt                                     |  17 +--
 .../twitter/scalding/avro/AvroSource.scala    |   5 +-
 .../commons/scheme/KeyValueByteScheme.java    |   5 +-
 .../scalding/commons/tap/VersionedTap.java    |  39 +++---
 .../commons/source/LzoGenericScheme.scala     |   4 +-
 .../scala/com/twitter/scalding/Config.scala   |   7 +-
 .../com/twitter/scalding/Execution.scala      |   2 +-
 .../twitter/scalding/ExecutionContext.scala   |   2 +-
 .../com/twitter/scalding/FileSource.scala     |  25 ++--
 .../scalding/HfsConfPropertySetter.scala      |  15 ++-
 .../main/scala/com/twitter/scalding/Job.scala |   4 +-
 .../scala/com/twitter/scalding/JobStats.scala |   6 +-
 .../scala/com/twitter/scalding/JobTest.scala  |   6 +-
 .../com/twitter/scalding/MemoryTap.scala      |   4 +-
 .../com/twitter/scalding/Operations.scala     |  22 +++-
 .../twitter/scalding/PartitionSource.scala    |   3 +-
 .../scala/com/twitter/scalding/Source.scala   |  25 ++--
 .../scala/com/twitter/scalding/Stats.scala    |   4 +-
 .../com/twitter/scalding/TemplateSource.scala | 121 ------------------
 .../com/twitter/scalding/TestTapFactory.scala |   9 +-
 .../scalding/reducer_estimation/Common.scala  |   2 +-
 .../CascadingBinaryComparator.scala           |   2 +-
 .../twitter/scalding/TemplateSourceTest.scala |  63 ---------
 .../scalding/platform/LocalCluster.scala      |   1 -
 .../HRavenHistoryService.scala                |   2 +-
 .../scheme/TypedParquetTupleScheme.scala      |   8 +-
 26 files changed, 116 insertions(+), 287 deletions(-)
 delete mode 100644 scalding-core/src/main/scala/com/twitter/scalding/TemplateSource.scala
 delete mode 100644 scalding-core/src/test/scala/com/twitter/scalding/TemplateSourceTest.scala

diff --git a/build.sbt b/build.sbt
index 4f66de5eba..b36991f750 100644
--- a/build.sbt
+++ b/build.sbt
@@ -292,11 +292,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "2.6.1")
-
-// This is a temporary placeholder while we migrate to cascading3, a few subprojects at a time
-// and should eventually be folded into cascadingVersion when we merge to develop.
-val cascadingThreeVersion = "3.0.3"
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.0.3")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
@@ -401,8 +397,8 @@ lazy val scaldingParquetCascading = module("parquet-cascading").settings(
       exclude("com.twitter.elephantbird", "elephant-bird-core"),
     "org.apache.thrift" % "libthrift" % thriftVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-    "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
-    "cascading" % "cascading-hadoop" % cascadingThreeVersion % "provided",
+    "cascading" % "cascading-core" % cascadingVersion % "provided",
+    "cascading" % "cascading-hadoop" % cascadingVersion % "provided",
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
   )
 ).dependsOn(scaldingParquetFixtures % "test->test")
@@ -451,8 +447,8 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
   .settings(
     libraryDependencies ++= Seq(
       // see https://issues.apache.org/jira/browse/PARQUET-143 for exclusions
-      "cascading" % "cascading-core" % cascadingThreeVersion % "provided",
-      "cascading" % "cascading-hadoop" % cascadingThreeVersion % "test",
+      "cascading" % "cascading-core" % cascadingVersion % "provided",
+      "cascading" % "cascading-hadoop" % cascadingVersion % "test",
       "org.apache.parquet" % "parquet-thrift" % parquetVersion % "test" classifier "tests"
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
@@ -602,7 +598,7 @@ lazy val maple = Project(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
     "org.apache.hbase" % "hbase" % hbaseVersion % "provided",
-    "cascading" % "cascading-hadoop" % cascadingThreeVersion % "provided"
+    "cascading" % "cascading-hadoop" % cascadingVersion % "provided"
   )
   }
 )
@@ -628,6 +624,7 @@ lazy val scaldingDb = module("db").settings(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
     "org.scala-lang" % "scala-library" % scalaVersion,
     "org.scala-lang" % "scala-reflect" % scalaVersion,
+    "cascading" % "cascading-core" % cascadingVersion,
     "com.twitter" %% "bijection-macros" % bijectionVersion
   ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % "2.0.1") else Seq())
 },
diff --git a/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala b/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
index 366f11869f..4b90b7e9ea 100644
--- a/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
+++ b/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
@@ -26,13 +26,14 @@ import java.io.OutputStream
 import java.util.Properties
 import cascading.tuple.Fields
 import collection.JavaConverters._
+import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.mapred.{ OutputCollector, RecordReader, JobConf }
 
 trait UnpackedAvroFileScheme extends FileSource {
   def schema: Option[Schema]
 
   // HadoopSchemeInstance gives compile errors in 2.10 for some reason
-  override def hdfsScheme = (new AvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
+  override def hdfsScheme = (new AvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
 
   override def localScheme = (new LAvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[Properties, InputStream, OutputStream, _, _]]
 
@@ -42,7 +43,7 @@ trait PackedAvroFileScheme[T] extends FileSource {
   def schema: Schema
 
   // HadoopSchemeInstance gives compile errors for this in 2.10 for some reason
-  override def hdfsScheme = (new PackedAvroScheme[T](schema)).asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
+  override def hdfsScheme = (new PackedAvroScheme[T](schema)).asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
 
   override def localScheme = (new LPackedAvroScheme[T](schema)).asInstanceOf[Scheme[Properties, InputStream, OutputStream, _, _]]
 }
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
index bf95160efb..d7f5573c15 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
@@ -3,6 +3,7 @@
 import java.io.IOException;
 import java.util.Arrays;
 
+import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.io.BytesWritable;
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
@@ -29,7 +30,7 @@ public static byte[] getBytes(BytesWritable key) {
   }
 
   @Override
-  public boolean source(FlowProcess<JobConf> flowProcess,
+  public boolean source(FlowProcess<? extends Configuration> flowProcess,
       SourceCall<Object[], RecordReader> sourceCall) throws IOException {
     BytesWritable key = (BytesWritable) sourceCall.getContext()[0];
     BytesWritable value = (BytesWritable) sourceCall.getContext()[1];
@@ -47,7 +48,7 @@ public boolean source(FlowProcess<JobConf> flowProcess,
   }
 
   @Override
-  public void sink(FlowProcess<JobConf> flowProcess, SinkCall<Void, OutputCollector> sinkCall)
+  public void sink(FlowProcess<? extends Configuration> flowProcess, SinkCall<Void, OutputCollector> sinkCall)
       throws IOException {
     TupleEntry tupleEntry = sinkCall.getOutgoingEntry();
 
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
index 21b1f7fbb3..d21b5447b8 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
@@ -4,6 +4,7 @@
 
 import com.twitter.scalding.commons.datastores.VersionedStore;
 
+import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.mapred.FileInputFormat;
@@ -30,7 +31,7 @@ public static enum TapMode {SOURCE, SINK}
   // sink-specific
   private String newVersionPath;
 
-  public VersionedTap(String dir, Scheme<JobConf,RecordReader,OutputCollector,?,?> scheme, TapMode mode)
+  public VersionedTap(String dir, Scheme<Configuration,RecordReader,OutputCollector,?,?> scheme, TapMode mode)
       throws IOException {
     super(scheme, dir);
     this.mode = mode;
@@ -59,11 +60,11 @@ public String getOutputDirectory() {
     return getPath().toString();
   }
 
-  public VersionedStore getStore(JobConf conf) throws IOException {
+  public VersionedStore getStore(Configuration conf) throws IOException {
     return new VersionedStore(FileSystem.get(conf), getOutputDirectory());
   }
 
-  public String getSourcePath(JobConf conf) {
+  public String getSourcePath(Configuration conf) {
     VersionedStore store;
     try {
       store = getStore(conf);
@@ -77,7 +78,7 @@ public String getSourcePath(JobConf conf) {
     }
   }
 
-  public String getSinkPath(JobConf conf) {
+  public String getSinkPath(Configuration conf) {
     try {
       VersionedStore store = getStore(conf);
       String sinkPath = (version == null) ? store.createVersion() : store.createVersion(version);
@@ -91,33 +92,35 @@ public String getSinkPath(JobConf conf) {
   }
 
   @Override
-  public void sourceConfInit(FlowProcess<JobConf> process, JobConf conf) {
-    super.sourceConfInit(process, conf);
-    FileInputFormat.setInputPaths(conf, getSourcePath(conf));
+  public void sourceConfInit(FlowProcess<? extends Configuration> process, Configuration conf) {
+    JobConf jobConf = new JobConf(conf);
+    super.sourceConfInit(process, jobConf);
+    FileInputFormat.setInputPaths(jobConf, getSourcePath(jobConf));
   }
 
   @Override
-  public void sinkConfInit(FlowProcess<JobConf> process, JobConf conf) {
-    super.sinkConfInit(process, conf);
+  public void sinkConfInit(FlowProcess<? extends Configuration> process, Configuration conf) {
+    JobConf jobConf = new JobConf(conf);
+    super.sinkConfInit(process, jobConf);
 
     if (newVersionPath == null)
-      newVersionPath = getSinkPath(conf);
+      newVersionPath = getSinkPath(jobConf);
 
-    FileOutputFormat.setOutputPath(conf, new Path(newVersionPath));
+    FileOutputFormat.setOutputPath(jobConf, new Path(newVersionPath));
   }
 
   @Override
-  public boolean resourceExists(JobConf jc) throws IOException {
+  public boolean resourceExists(Configuration jc) throws IOException {
     return getStore(jc).mostRecentVersion() != null;
   }
 
   @Override
-  public boolean createResource(JobConf jc) throws IOException {
+  public boolean createResource(Configuration jc) throws IOException {
     throw new UnsupportedOperationException("Not supported yet.");
   }
 
   @Override
-  public boolean deleteResource(JobConf jc) throws IOException {
+  public boolean deleteResource(Configuration jc) throws IOException {
     throw new UnsupportedOperationException("Not supported yet.");
   }
 
@@ -131,13 +134,13 @@ public String getIdentifier() {
   }
 
   @Override
-  public long getModifiedTime(JobConf conf) throws IOException {
+  public long getModifiedTime(Configuration conf) throws IOException {
     VersionedStore store = getStore(conf);
     return (mode == TapMode.SINK) ? 0 : store.mostRecentVersion();
   }
 
   @Override
-  public boolean commitResource(JobConf conf) throws IOException {
+  public boolean commitResource(Configuration conf) throws IOException {
     VersionedStore store = new VersionedStore(FileSystem.get(conf), getOutputDirectory());
 
     if (newVersionPath != null) {
@@ -150,7 +153,7 @@ public boolean commitResource(JobConf conf) throws IOException {
     return true;
   }
 
-  private static void markSuccessfulOutputDir(Path path, JobConf conf) throws IOException {
+  private static void markSuccessfulOutputDir(Path path, Configuration conf) throws IOException {
       FileSystem fs = FileSystem.get(conf);
       // create a file in the folder to mark it
       if (fs.exists(path)) {
@@ -160,7 +163,7 @@ private static void markSuccessfulOutputDir(Path path, JobConf conf) throws IOEx
   }
 
   @Override
-  public boolean rollbackResource(JobConf conf) throws IOException {
+  public boolean rollbackResource(Configuration conf) throws IOException {
     if (newVersionPath != null) {
       getStore(conf).failVersion(newVersionPath);
       newVersionPath = null;
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
index 25a6c4e0cf..8ba545f056 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
@@ -120,7 +120,7 @@ class LzoGenericScheme[M](@transient conv: BinaryConverter[M], clazz: Class[M])
   override protected def prepareBinaryWritable(): GenericWritable[M] =
     new GenericWritable(conv)
 
-  override def sourceConfInit(fp: FlowProcess[JobConf],
+  override def sourceConfInit(fp: FlowProcess[_ <: JobConf],
     tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
     conf: JobConf): Unit = {
 
@@ -131,7 +131,7 @@ class LzoGenericScheme[M](@transient conv: BinaryConverter[M], clazz: Class[M])
     DelegateCombineFileInputFormat.setDelegateInputFormat(conf, classOf[MultiInputFormat[_]])
   }
 
-  override def sinkConfInit(fp: FlowProcess[JobConf],
+  override def sinkConfInit(fp: FlowProcess[_ <: JobConf],
     tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
     conf: JobConf): Unit = {
     LzoGenericScheme.setConverter(conv, conf, SinkConfigBinaryConverterProvider.ProviderConfKey)
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Config.scala b/scalding-core/src/main/scala/com/twitter/scalding/Config.scala
index 9fa95b0e2c..7f115ed5dc 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Config.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Config.scala
@@ -22,7 +22,7 @@ import com.twitter.chill.{ ExternalizerCodec, ExternalizerInjection, Externalize
 import com.twitter.chill.config.{ ScalaMapConfig, ConfiguredInstantiator }
 import com.twitter.bijection.{ Base64String, Injection }
 
-import cascading.pipe.assembly.AggregateBy
+import cascading.pipe.assembly.AggregateByProps
 import cascading.flow.{ FlowListener, FlowStepListener, FlowProps, FlowStepStrategy }
 import cascading.property.AppProps
 import cascading.tuple.collect.SpillableProps
@@ -109,7 +109,7 @@ trait Config extends Serializable {
    * the best results
    */
   def setMapSideAggregationThreshold(count: Int): Config =
-    this + (AggregateBy.AGGREGATE_BY_THRESHOLD -> count.toString)
+    this + (AggregateByProps.AGGREGATE_BY_CAPACITY -> count.toString)
 
   /**
    * Set this configuration option to require all grouping/cogrouping
@@ -369,6 +369,9 @@ trait Config extends Serializable {
 object Config {
   val CascadingAppName: String = "cascading.app.name"
   val CascadingAppId: String = "cascading.app.id"
+  // This is the old config AGGREGATE_BY_THRESHOLD which is no longer present in cascading3
+  // We maintain our own copy to provide backward compatibility
+  val CascadingAggregateByThreshold = "cascading.aggregateby.threshold"
   val CascadingSerializationTokens = "cascading.serialization.tokens"
   val IoSerializationsKey: String = "io.serializations"
   val ScaldingFlowClassName: String = "scalding.flow.class.name"
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Execution.scala b/scalding-core/src/main/scala/com/twitter/scalding/Execution.scala
index 5481e0a3aa..ad21d3e91b 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Execution.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Execution.scala
@@ -803,7 +803,7 @@ object ExecutionCounters {
    * Just gets the counters from the CascadingStats and ignores
    * all the other fields present
    */
-  def fromCascading(cs: cascading.stats.CascadingStats): ExecutionCounters = new ExecutionCounters {
+  def fromCascading(cs: cascading.stats.CascadingStats[_]): ExecutionCounters = new ExecutionCounters {
     import scala.collection.JavaConverters._
 
     val keys = (for {
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/ExecutionContext.scala b/scalding-core/src/main/scala/com/twitter/scalding/ExecutionContext.scala
index 8c0497866a..74699a4929 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/ExecutionContext.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/ExecutionContext.scala
@@ -151,7 +151,7 @@ object ExecutionContext {
   private val LOG: Logger = LoggerFactory.getLogger(ExecutionContext.getClass)
 
   private[scalding] def getDesc[T](baseFlowStep: BaseFlowStep[T]): Seq[String] = {
-    baseFlowStep.getGraph.vertexSet.asScala.toSeq.flatMap(_ match {
+    baseFlowStep.getElementGraph.vertexSet.asScala.toSeq.flatMap(_ match {
       case pipe: Pipe => RichPipe.getPipeDescriptions(pipe)
       case _ => List() // no descriptions
     })
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
index fb98f62a98..e99dc7b204 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
@@ -53,7 +53,7 @@ abstract class SchemedSource extends Source {
     throw ModeException("Cascading local mode not supported for: " + toString)
 
   /** The scheme to use if the source is on hdfs. */
-  def hdfsScheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _] =
+  def hdfsScheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _] =
     throw ModeException("Cascading Hadoop mode not supported for: " + toString)
 
   // The mode to use for output taps determining how conflicts with existing output are handled.
@@ -61,7 +61,7 @@ abstract class SchemedSource extends Source {
 }
 
 trait HfsTapProvider {
-  def createHfsTap(scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _],
+  def createHfsTap(scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _],
     path: String,
     sinkMode: SinkMode): Hfs =
     new Hfs(scheme, path, sinkMode)
@@ -69,8 +69,8 @@ trait HfsTapProvider {
 
 private[scalding] object CastFileTap {
   // The scala compiler has problems with the generics in Cascading
-  def apply(tap: FileTap): Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]] =
-    tap.asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
+  def apply(tap: FileTap): Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]] =
+    tap.asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
 }
 
 /**
@@ -89,7 +89,7 @@ trait LocalSourceOverride extends SchemedSource {
    * @param sinkMode The mode for handling output conflicts.
    * @returns A tap.
    */
-  def createLocalTap(sinkMode: SinkMode): Tap[JobConf, _, _] = {
+  def createLocalTap(sinkMode: SinkMode): Tap[Configuration, _, _] = {
     val taps = localPaths.map {
       p: String =>
         CastFileTap(new FileTap(localScheme, p, sinkMode))
@@ -288,8 +288,8 @@ abstract class FileSource extends SchemedSource with LocalSourceOverride with Hf
     }
   }
 
-  protected def createHdfsReadTap(hdfsMode: Hdfs): Tap[JobConf, _, _] = {
-    val taps: List[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]] =
+  protected def createHdfsReadTap(hdfsMode: Hdfs): Tap[Configuration, _, _] = {
+    val taps: List[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]] =
       goodHdfsPaths(hdfsMode)
         .toList.map { path => CastHfsTap(createHfsTap(hdfsScheme, path, sinkMode)) }
     taps.size match {
@@ -306,8 +306,8 @@ abstract class FileSource extends SchemedSource with LocalSourceOverride with Hf
   }
 }
 
-class ScaldingMultiSourceTap(taps: Seq[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]])
-  extends MultiSourceTap[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]], JobConf, RecordReader[_, _]](taps: _*) {
+class ScaldingMultiSourceTap(taps: Seq[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]])
+  extends MultiSourceTap[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]], Configuration, RecordReader[_, _]](taps: _*) {
   private final val randomId = UUID.randomUUID.toString
   override def getIdentifier() = randomId
   override def hashCode: Int = randomId.hashCode
@@ -402,12 +402,9 @@ trait SuccessFileSource extends FileSource {
  * Put another way, this runs a Hadoop tap outside of Hadoop in the Cascading local mode
  */
 trait LocalTapSource extends LocalSourceOverride {
-  override def createLocalTap(sinkMode: SinkMode): Tap[JobConf, _, _] = {
+  override def createLocalTap(sinkMode: SinkMode): Tap[Configuration, _, _] = {
     val taps = localPaths.map { p =>
-      // temporary workaround. Remove when scalding-core is migrated to cascading3.
-      val scheme = hdfsScheme.asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
-      // end temporary workaround
-      new LocalTap(p, scheme, sinkMode).asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
+      new LocalTap(p, hdfsScheme, sinkMode).asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
     }.toSeq
 
     taps match {
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala b/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
index 230378d31f..411d778ff1 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
@@ -15,19 +15,20 @@ limitations under the License.
 */
 package com.twitter.scalding
 
+import cascading.flow.FlowProcess
+import cascading.scheme.Scheme
 import cascading.tap.hadoop.Hfs
 import cascading.tap.SinkMode
+import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.mapred.JobConf
-import cascading.flow.FlowProcess
 import org.apache.hadoop.mapred.RecordReader
 import org.apache.hadoop.mapred.OutputCollector
-import cascading.scheme.Scheme
 
 private[scalding] class ConfPropertiesHfsTap(config: Config,
-  scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _],
+  scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _],
   stringPath: String,
   sinkMode: SinkMode) extends Hfs(scheme, stringPath, sinkMode) {
-  override def sourceConfInit(process: FlowProcess[JobConf], conf: JobConf): Unit = {
+  override def sourceConfInit(process: FlowProcess[_ <: Configuration], conf: Configuration): Unit = {
     config.toMap.foreach {
       case (k, v) =>
         conf.set(k, v)
@@ -35,7 +36,7 @@ private[scalding] class ConfPropertiesHfsTap(config: Config,
     super.sourceConfInit(process, conf)
   }
 
-  override def sinkConfInit(process: FlowProcess[JobConf], conf: JobConf): Unit = {
+  override def sinkConfInit(process: FlowProcess[_ <: Configuration], conf: Configuration): Unit = {
     config.toMap.foreach {
       case (k, v) =>
         conf.set(k, v)
@@ -55,8 +56,8 @@ trait HfsConfPropertySetter extends HfsTapProvider {
   def tapConfig: Config = Config.empty
 
   override def createHfsTap(
-    scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _],
+    scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _],
     path: String,
     sinkMode: SinkMode): Hfs =
     new ConfPropertiesHfsTap(tapConfig, scheme, path, sinkMode)
-}
\ No newline at end of file
+}
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Job.scala b/scalding-core/src/main/scala/com/twitter/scalding/Job.scala
index 787986e5a6..9fada4ac36 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Job.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Job.scala
@@ -254,7 +254,7 @@ class Job(val args: Args) extends FieldConversions with java.io.Serializable {
     FlowStateMap.clear(flowDef)
   }
 
-  protected def handleStats(statsData: CascadingStats) {
+  protected def handleStats(statsData: CascadingStats[_]) {
     scaldingCascadingStats = Some(statsData)
     // TODO: Why the two ways to do stats? Answer: jank-den.
     if (args.boolean("scalding.flowstats")) {
@@ -281,7 +281,7 @@ class Job(val args: Args) extends FieldConversions with java.io.Serializable {
   // This awful name is designed to avoid collision
   // with subclasses
   @transient
-  private[scalding] var scaldingCascadingStats: Option[CascadingStats] = None
+  private[scalding] var scaldingCascadingStats: Option[CascadingStats[_]] = None
 
   /**
    * Save the Flow object after a run to allow clients to inspect the job.
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/JobStats.scala b/scalding-core/src/main/scala/com/twitter/scalding/JobStats.scala
index dac1f1a720..33584813a2 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/JobStats.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/JobStats.scala
@@ -21,7 +21,7 @@ import cascading.stats.{ CascadeStats, CascadingStats, FlowStats }
 import scala.util.{ Failure, Try }
 
 object JobStats {
-  def apply(stats: CascadingStats): JobStats = {
+  def apply(stats: CascadingStats[_]): JobStats = {
     val m = statsMap(stats)
     new JobStats(
       stats match {
@@ -30,14 +30,14 @@ object JobStats {
       })
   }
 
-  private def counterMap(stats: CascadingStats): Map[String, Map[String, Long]] =
+  private def counterMap(stats: CascadingStats[_]): Map[String, Map[String, Long]] =
     stats.getCounterGroups.asScala.map { group =>
       (group, stats.getCountersFor(group).asScala.map { counter =>
         (counter, stats.getCounterValue(group, counter))
       }.toMap)
     }.toMap
 
-  private def statsMap(stats: CascadingStats): Map[String, Any] =
+  private def statsMap(stats: CascadingStats[_]): Map[String, Any] =
     Map(
       "counters" -> counterMap(stats),
       "duration" -> stats.getDuration,
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/JobTest.scala b/scalding-core/src/main/scala/com/twitter/scalding/JobTest.scala
index 148f3b0eb1..874f84b19b 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/JobTest.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/JobTest.scala
@@ -59,7 +59,7 @@ object CascadeTest {
 class JobTest(cons: (Args) => Job) {
   private var argsMap = Map[String, List[String]]()
   private val callbacks = Buffer[() => Unit]()
-  private val statsCallbacks = Buffer[(CascadingStats) => Unit]()
+  private val statsCallbacks = Buffer[(CascadingStats[_]) => Unit]()
   // TODO: Switch the following maps and sets from Source to String keys
   // to guard for scala equality bugs
   private var sourceMap: (Source) => Option[Buffer[Tuple]] = { _ => None }
@@ -124,13 +124,13 @@ class JobTest(cons: (Args) => Job) {
   // If this test is checking for multiple jobs chained by next, this only checks
   // for the counters in the final job's FlowStat.
   def counter(counter: String, group: String = Stats.ScaldingGroup)(op: Long => Unit) = {
-    statsCallbacks += ((stats: CascadingStats) => op(Stats.getCounterValue(counter, group)(stats)))
+    statsCallbacks += ((stats: CascadingStats[_]) => op(Stats.getCounterValue(counter, group)(stats)))
     this
   }
 
   // Used to check an assertion on all custom counters of a given scalding job.
   def counters(op: Map[String, Long] => Unit) = {
-    statsCallbacks += ((stats: CascadingStats) => op(Stats.getAllCustomCounters()(stats)))
+    statsCallbacks += ((stats: CascadingStats[_]) => op(Stats.getAllCustomCounters()(stats)))
     this
   }
 
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/MemoryTap.scala b/scalding-core/src/main/scala/com/twitter/scalding/MemoryTap.scala
index 896c63496a..e754e784ab 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/MemoryTap.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/MemoryTap.scala
@@ -44,11 +44,11 @@ class MemoryTap[In, Out](val scheme: Scheme[Properties, In, Out, _, _], val tupl
   override def getModifiedTime(conf: Properties) = if (resourceExists(conf)) modifiedTime else 0L
   override lazy val getIdentifier: String = scala.math.random.toString
 
-  override def openForRead(flowProcess: FlowProcess[Properties], input: In) = {
+  override def openForRead(flowProcess: FlowProcess[_ <: Properties], input: In) = {
     new TupleEntryChainIterator(scheme.getSourceFields, tupleBuffer.toIterator.asJava)
   }
 
-  override def openForWrite(flowProcess: FlowProcess[Properties], output: Out): TupleEntryCollector = {
+  override def openForWrite(flowProcess: FlowProcess[_ <: Properties], output: Out): TupleEntryCollector = {
     tupleBuffer.clear
     new MemoryTupleEntryCollector(tupleBuffer, this)
   }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala b/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
index 578c76639c..64dfc9a9a0 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
@@ -18,7 +18,7 @@ package com.twitter.scalding {
   import cascading.operation._
   import cascading.tuple._
   import cascading.flow._
-  import cascading.pipe.assembly.AggregateBy
+  import cascading.pipe.assembly.{ AggregateBy, AggregateByProps }
   import com.twitter.chill.MeatLocker
   import scala.collection.JavaConverters._
 
@@ -134,15 +134,23 @@ package com.twitter.scalding {
     val boxedSemigroup = Externalizer(commutativeSemigroup)
 
     val DEFAULT_CACHE_SIZE = 100000
-    val SIZE_CONFIG_KEY = AggregateBy.AGGREGATE_BY_THRESHOLD
+    val CASCADING2_SIZE_CONFIG_KEY = Config.CascadingAggregateByThreshold
+    val CASCADING3_SIZE_CONFIG_KEY = AggregateByProps.AGGREGATE_BY_CAPACITY
 
     def cacheSize(fp: FlowProcess[_]): Int =
       cacheSize.orElse {
-        Option(fp.getStringProperty(SIZE_CONFIG_KEY))
-          .filterNot { _.isEmpty }
-          .map { _.toInt }
-      }
-        .getOrElse(DEFAULT_CACHE_SIZE)
+        val cascading2Property = Option(fp.getStringProperty(CASCADING2_SIZE_CONFIG_KEY)).filterNot(_.isEmpty).map(_.toInt)
+        val cascading3Property = Option(fp.getStringProperty(CASCADING3_SIZE_CONFIG_KEY)).filterNot(_.isEmpty).map(_.toInt)
+        // we support both old and new properties for backward compatibility
+        // and pick the max of the two, when both exist
+        (cascading2Property, cascading3Property) match {
+          case (Some(a), Some(b)) if a >= b => Some(a)
+          case (Some(a), Some(b)) if b > a => Some(b)
+          case (None, None) => None
+          case (Some(a), _) => Some(a)
+          case (_, Some(b)) => Some(b)
+        }
+      }.getOrElse(DEFAULT_CACHE_SIZE)
 
     override def prepare(flowProcess: FlowProcess[_], operationCall: OperationCall[SummingCache[Tuple, V]]) {
       //Set up the context:
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/PartitionSource.scala b/scalding-core/src/main/scala/com/twitter/scalding/PartitionSource.scala
index de5661783c..88030f98d0 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/PartitionSource.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/PartitionSource.scala
@@ -91,8 +91,7 @@ abstract class PartitionSource(val openWritesThreshold: Option[Int] = None) exte
 /**
  * An implementation of TSV output, split over a partition tap.
  *
- * Similar to TemplateSource, but with addition of tsvFields, to
- * let users explicitly specify which fields they want to see in
+ * tsvFields lets users explicitly specify which fields they want to see in
  * the TSV (allows user to discard path fields).
  *
  * apply assumes user wants a DelimitedPartition (the only
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Source.scala b/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
index 094613235c..7ff53e016e 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
@@ -28,6 +28,7 @@ import cascading.tuple.{ Fields, Tuple => CTuple, TupleEntry, TupleEntryCollecto
 
 import cascading.pipe.Pipe
 
+import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.mapred.JobConf
 import org.apache.hadoop.mapred.OutputCollector
 import org.apache.hadoop.mapred.RecordReader
@@ -49,7 +50,7 @@ class InvalidSourceException(message: String) extends RuntimeException(message)
  *
  * hdfsPaths represents user-supplied list that was detected as not containing any valid paths.
  */
-class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[JobConf, RecordReader[_, _]] {
+class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[Configuration, RecordReader[_, _]] {
 
   private final val randomId = UUID.randomUUID.toString
 
@@ -57,12 +58,12 @@ class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[JobCon
 
   override def hashCode: Int = randomId.hashCode
 
-  override def getModifiedTime(conf: JobConf): Long = 0L
+  override def getModifiedTime(conf: Configuration): Long = 0L
 
-  override def openForRead(flow: FlowProcess[JobConf], input: RecordReader[_, _]): TupleEntryIterator =
+  override def openForRead(flow: FlowProcess[_ <: Configuration], input: RecordReader[_, _]): TupleEntryIterator =
     sys.error(s"InvalidSourceTap: No good paths in $hdfsPaths")
 
-  override def resourceExists(conf: JobConf): Boolean = false
+  override def resourceExists(conf: Configuration): Boolean = false
 
   override def getScheme = new NullScheme()
 
@@ -75,8 +76,10 @@ class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[JobCon
   // 4. source.validateTaps (throws InvalidSourceException)
   // In the worst case if the flow plan is misconfigured,
   // openForRead on mappers should fail when using this tap.
-  override def sourceConfInit(flow: FlowProcess[JobConf], conf: JobConf): Unit = {
-    conf.setInputFormat(classOf[cascading.tap.hadoop.io.MultiInputFormat])
+  override def sourceConfInit(flow: FlowProcess[_ <: Configuration], conf: Configuration): Unit = {
+    conf.setClass("mapred.input.format.class",
+      classOf[cascading.tap.hadoop.io.MultiInputFormat],
+      classOf[org.apache.hadoop.mapred.InputFormat[_, _]]);
     super.sourceConfInit(flow, conf)
   }
 }
@@ -94,13 +97,13 @@ case object Write extends AccessMode
 
 object HadoopSchemeInstance {
   def apply(scheme: Scheme[_, _, _, _, _]) =
-    scheme.asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
+    scheme.asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
 }
 
 object CastHfsTap {
   // The scala compiler has problems with the generics in Cascading
-  def apply(tap: Hfs): Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]] =
-    tap.asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
+  def apply(tap: Hfs): Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]] =
+    tap.asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
 }
 
 /**
@@ -251,7 +254,7 @@ class NullTap[Config, Input, Output, SourceContext, SinkContext]
     SinkMode.UPDATE) {
 
   def getIdentifier = "nullTap"
-  def openForWrite(flowProcess: FlowProcess[Config], output: Output) =
+  def openForWrite(flowProcess: FlowProcess[_ <: Config], output: Output) =
     new TupleEntryCollector {
       override def add(te: TupleEntry) {}
       override def add(t: CTuple) {}
@@ -269,7 +272,7 @@ trait BaseNullSource extends Source {
     readOrWrite match {
       case Read => throw new Exception("not supported, reading from null")
       case Write => mode match {
-        case Hdfs(_, _) => new NullTap[JobConf, RecordReader[_, _], OutputCollector[_, _], Any, Any]
+        case Hdfs(_, _) => new NullTap[Configuration, RecordReader[_, _], OutputCollector[_, _], Any, Any]
         case Local(_) => new NullTap[Properties, InputStream, OutputStream, Any, Any]
         case Test(_) => new NullTap[Properties, InputStream, OutputStream, Any, Any]
       }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Stats.scala b/scalding-core/src/main/scala/com/twitter/scalding/Stats.scala
index 94871425e0..7eb6d45745 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Stats.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Stats.scala
@@ -62,11 +62,11 @@ object Stats {
 
   // When getting a counter value, cascadeStats takes precedence (if set) and
   // flowStats is used after that. Returns None if neither is defined.
-  def getCounterValue(key: StatKey)(implicit cascadingStats: CascadingStats): Long =
+  def getCounterValue(key: StatKey)(implicit cascadingStats: CascadingStats[_]): Long =
     cascadingStats.getCounterValue(key.group, key.counter)
 
   // Returns a map of all custom counter names and their counts.
-  def getAllCustomCounters()(implicit cascadingStats: CascadingStats): Map[String, Long] = {
+  def getAllCustomCounters()(implicit cascadingStats: CascadingStats[_]): Map[String, Long] = {
     val counts = for {
       counter <- cascadingStats.getCountersFor(ScaldingGroup).asScala
       value = getCounterValue(counter)
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/TemplateSource.scala b/scalding-core/src/main/scala/com/twitter/scalding/TemplateSource.scala
deleted file mode 100644
index 32ed32ed0b..0000000000
--- a/scalding-core/src/main/scala/com/twitter/scalding/TemplateSource.scala
+++ /dev/null
@@ -1,121 +0,0 @@
-/*
-Copyright 2013 Inkling, Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-*/
-package com.twitter.scalding
-
-import cascading.tap.hadoop.Hfs
-import cascading.tap.hadoop.{ TemplateTap => HTemplateTap }
-import cascading.tap.local.FileTap
-import cascading.tap.local.{ TemplateTap => LTemplateTap }
-import cascading.tap.SinkMode
-import cascading.tap.Tap
-import cascading.tuple.Fields
-
-/**
- * This is a base class for template based output sources
- */
-abstract class TemplateSource extends SchemedSource with HfsTapProvider {
-
-  // The root path of the templated output.
-  def basePath: String
-  // The template as a java Formatter string. e.g. %s/%s for a two part template.
-  def template: String
-  // The fields to apply to the template.
-  def pathFields: Fields = Fields.ALL
-
-  /**
-   * Creates the template tap.
-   *
-   * @param readOrWrite Describes if this source is being read from or written to.
-   * @param mode The mode of the job. (implicit)
-   *
-   * @returns A cascading TemplateTap.
-   */
-  override def createTap(readOrWrite: AccessMode)(implicit mode: Mode): Tap[_, _, _] = {
-    readOrWrite match {
-      case Read => throw new InvalidSourceException("Cannot use TemplateSource for input")
-      case Write => {
-        mode match {
-          case Local(_) => {
-            val localTap = new FileTap(localScheme, basePath, sinkMode)
-            new LTemplateTap(localTap, template, pathFields)
-          }
-          case hdfsMode @ Hdfs(_, _) => {
-            val hfsTap = createHfsTap(hdfsScheme, basePath, sinkMode)
-            new HTemplateTap(hfsTap, template, pathFields)
-          }
-          case hdfsTest @ HadoopTest(_, _) => {
-            val hfsTap = createHfsTap(hdfsScheme, hdfsTest.getWritePathFor(this), sinkMode)
-            new HTemplateTap(hfsTap, template, pathFields)
-          }
-          case _ => TestTapFactory(this, hdfsScheme).createTap(readOrWrite)
-        }
-      }
-    }
-  }
-
-  /**
-   * Validates the taps, makes sure there are no nulls as the path or template.
-   *
-   * @param mode The mode of the job.
-   */
-  override def validateTaps(mode: Mode): Unit = {
-    if (basePath == null) {
-      throw new InvalidSourceException("basePath cannot be null for TemplateTap")
-    } else if (template == null) {
-      throw new InvalidSourceException("template cannot be null for TemplateTap")
-    }
-  }
-}
-
-/**
- * An implementation of TSV output, split over a template tap.
- *
- * @param basePath The root path for the output.
- * @param template The java formatter style string to use as the template. e.g. %s/%s.
- * @param pathFields The set of fields to apply to the path.
- * @param writeHeader Flag to indicate that the header should be written to the file.
- * @param sinkMode How to handle conflicts with existing output.
- * @param fields The set of fields to apply to the output.
- */
-case class TemplatedTsv(
-  override val basePath: String,
-  override val template: String,
-  override val pathFields: Fields = Fields.ALL,
-  override val writeHeader: Boolean = false,
-  override val sinkMode: SinkMode = SinkMode.REPLACE,
-  override val fields: Fields = Fields.ALL)
-  extends TemplateSource with DelimitedScheme
-
-/**
- * An implementation of SequenceFile output, split over a template tap.
- *
- * @param basePath The root path for the output.
- * @param template The java formatter style string to use as the template. e.g. %s/%s.
- * @param sequenceFields The set of fields to use for the sequence file.
- * @param pathFields The set of fields to apply to the path.
- * @param sinkMode How to handle conflicts with existing output.
- */
-case class TemplatedSequenceFile(
-  override val basePath: String,
-  override val template: String,
-  val sequenceFields: Fields = Fields.ALL,
-  override val pathFields: Fields = Fields.ALL,
-  override val sinkMode: SinkMode = SinkMode.REPLACE)
-  extends TemplateSource with SequenceFileScheme {
-
-  override val fields = sequenceFields
-}
-
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala b/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
index db3426a9ff..65cd0c3fa1 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
@@ -25,6 +25,7 @@ import cascading.scheme.NullScheme
 
 import java.io.{ Serializable, InputStream, OutputStream }
 
+import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.mapred.JobConf
 import org.apache.hadoop.mapred.OutputCollector
 import org.apache.hadoop.mapred.RecordReader
@@ -44,9 +45,9 @@ object TestTapFactory extends Serializable {
     override def sourceFields: Fields = fields
     override def sinkFields: Fields = fields
   }
-  def apply[A, B](src: Source, scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], A, B]): TestTapFactory = apply(src, scheme, SinkMode.REPLACE)
+  def apply[A, B](src: Source, scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], A, B]): TestTapFactory = apply(src, scheme, SinkMode.REPLACE)
   def apply[A, B](src: Source,
-    scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], A, B], sinkMode: SinkMode): TestTapFactory =
+    scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], A, B], sinkMode: SinkMode): TestTapFactory =
     new TestTapFactory(src, sinkMode) { override def hdfsScheme = Some(scheme) }
 }
 
@@ -57,7 +58,7 @@ class TestTapFactory(src: Source, sinkMode: SinkMode) extends Serializable {
   def sinkFields: Fields =
     hdfsScheme.map { _.getSinkFields }.getOrElse(sys.error("No sinkFields defined"))
 
-  def hdfsScheme: Option[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]] = None
+  def hdfsScheme: Option[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]] = None
 
   def createTap(readOrWrite: AccessMode)(implicit mode: Mode): Tap[_, _, _] = {
     mode match {
@@ -91,7 +92,7 @@ class TestTapFactory(src: Source, sinkMode: SinkMode) extends Serializable {
             if (bufOpt.isDefined) {
               val buffer = bufOpt.get
               val fields = sourceFields
-              (new MemorySourceTap(buffer.toList.asJava, fields)).asInstanceOf[Tap[JobConf, _, _]]
+              (new MemorySourceTap(buffer.toList.asJava, fields)).asInstanceOf[Tap[Configuration, _, _]]
             } else {
               CastHfsTap(new Hfs(hdfsScheme.get, hdfsTest.getWritePathFor(src), sinkMode))
             }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/reducer_estimation/Common.scala b/scalding-core/src/main/scala/com/twitter/scalding/reducer_estimation/Common.scala
index d433fa24fd..d2bd5e9841 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/reducer_estimation/Common.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/reducer_estimation/Common.scala
@@ -36,7 +36,7 @@ object Common {
     }
 
   def unrollTaps(step: FlowStep[JobConf]): Seq[Tap[_, _, _]] =
-    unrollTaps(step.getSources.asScala.toSeq)
+    unrollTaps(step.getFlowNodeGraph.getSourceTaps.asScala.toSeq)
 
   /**
    * Get the total size of the file(s) specified by the Hfs, which may contain a glob
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/serialization/CascadingBinaryComparator.scala b/scalding-core/src/main/scala/com/twitter/scalding/serialization/CascadingBinaryComparator.scala
index 71777fad60..ec1f2d9c90 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/serialization/CascadingBinaryComparator.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/serialization/CascadingBinaryComparator.scala
@@ -77,7 +77,7 @@ object CascadingBinaryComparator {
 
     def getDescriptionsForMissingOrdSer[U](bfs: BaseFlowStep[U]): Option[String] =
       // does this job have any Splices without OrderedSerialization:
-      if (bfs.getGraph.vertexSet.asScala.exists {
+      if (bfs.getElementGraph.vertexSet.asScala.exists {
         case gb: GroupBy => check(gb).isFailure
         case cg: CoGroup => check(cg).isFailure
         case _ => false // only do sorting in groupBy/cogroupBy
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/TemplateSourceTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/TemplateSourceTest.scala
deleted file mode 100644
index 366b5c6676..0000000000
--- a/scalding-core/src/test/scala/com/twitter/scalding/TemplateSourceTest.scala
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
-Copyright 2013 Inkling, Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-*/
-
-package com.twitter.scalding
-
-import java.io.File
-import scala.io.{ Source => ScalaSource }
-
-import org.scalatest.{ Matchers, WordSpec }
-
-class TemplateTestJob(args: Args) extends Job(args) {
-  try {
-    Tsv("input", ('col1, 'col2)).read.write(TemplatedTsv("base", "%s", 'col1))
-  } catch {
-    case e: Exception => e.printStackTrace()
-  }
-}
-
-class TemplateSourceTest extends WordSpec with Matchers {
-  import Dsl._
-  "TemplatedTsv" should {
-    "split output by template" in {
-      val input = Seq(("A", 1), ("A", 2), ("B", 3))
-
-      // Need to save the job to allow, find the temporary directory data was written to
-      var job: Job = null;
-      def buildJob(args: Args): Job = {
-        job = new TemplateTestJob(args)
-        job
-      }
-
-      JobTest(buildJob(_))
-        .source(Tsv("input", ('col1, 'col2)), input)
-        .runHadoop
-        .finish
-
-      val testMode = job.mode.asInstanceOf[HadoopTest]
-
-      val directory = new File(testMode.getWritePathFor(TemplatedTsv("base", "%s", 'col1)))
-
-      directory.listFiles().map({ _.getName() }).toSet shouldBe Set("A", "B")
-
-      val aSource = ScalaSource.fromFile(new File(directory, "A/part-00000"))
-      val bSource = ScalaSource.fromFile(new File(directory, "B/part-00000"))
-
-      aSource.getLines.toList shouldBe Seq("A\t1", "A\t2")
-      bSource.getLines.toList shouldBe Seq("B\t3")
-    }
-  }
-}
diff --git a/scalding-hadoop-test/src/main/scala/com/twitter/scalding/platform/LocalCluster.scala b/scalding-hadoop-test/src/main/scala/com/twitter/scalding/platform/LocalCluster.scala
index d5ae569b50..46b25aa8cb 100644
--- a/scalding-hadoop-test/src/main/scala/com/twitter/scalding/platform/LocalCluster.scala
+++ b/scalding-hadoop-test/src/main/scala/com/twitter/scalding/platform/LocalCluster.scala
@@ -135,7 +135,6 @@ class LocalCluster(mutex: Boolean = true) {
       classOf[com.twitter.chill.algebird.AveragedValueSerializer],
       classOf[com.twitter.algebird.Semigroup[_]],
       classOf[com.twitter.chill.KryoInstantiator],
-      classOf[org.jgrapht.ext.EdgeNameProvider[_]],
       classOf[org.apache.commons.lang.StringUtils],
       classOf[cascading.scheme.local.TextDelimited],
       classOf[org.apache.commons.logging.LogFactory],
diff --git a/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/reducer_estimation/HRavenHistoryService.scala b/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/reducer_estimation/HRavenHistoryService.scala
index 0e7b0ffa68..083084d091 100644
--- a/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/reducer_estimation/HRavenHistoryService.scala
+++ b/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/reducer_estimation/HRavenHistoryService.scala
@@ -120,7 +120,7 @@ object HRavenHistoryService extends HistoryService {
    */
   def fetchPastJobDetails(step: FlowStep[JobConf], max: Int): Try[Seq[JobDetails]] = {
     val conf = step.getConfig
-    val stepNum = step.getStepNum
+    val stepNum = step.getID
 
     def findMatchingJobStep(pastFlow: Flow) =
       pastFlow.getJobs.asScala.find { step =>
diff --git a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
index 3e06b8e107..f604dfb421 100644
--- a/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
+++ b/scalding-parquet/src/main/scala/com/twitter/scalding/parquet/tuple/scheme/TypedParquetTupleScheme.scala
@@ -140,14 +140,14 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
   type SourceCallType = SourceCall[Array[AnyRef], Reader]
   type SinkCallType = SinkCall[Array[AnyRef], Output]
 
-  override def sourceConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sourceConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
     fp.map(ParquetInputFormat.setFilterPredicate(jobConf, _))
     jobConf.setInputFormat(classOf[DeprecatedParquetInputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.READ_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(readSupport))
     ParquetInputFormat.setReadSupportClass(jobConf, classOf[ReadSupportInstanceProxy[_]])
   }
 
-  override def source(flowProcess: FlowProcess[JobConf], sc: SourceCallType): Boolean = {
+  override def source(flowProcess: FlowProcess[_ <: JobConf], sc: SourceCallType): Boolean = {
     val value: Container[T] = sc.getInput.createValue()
 
     val hasNext = sc.getInput.next(null, value)
@@ -161,12 +161,12 @@ class TypedParquetTupleScheme[T](val readSupport: ParquetReadSupport[T], val wri
     }
   }
 
-  override def sinkConfInit(flowProcess: FlowProcess[JobConf], tap: TapType, jobConf: JobConf): Unit = {
+  override def sinkConfInit(flowProcess: FlowProcess[_ <: JobConf], tap: TapType, jobConf: JobConf): Unit = {
     jobConf.setOutputFormat(classOf[InnerDeprecatedParquetOutputFormat[T]])
     jobConf.set(ParquetInputOutputFormat.WRITE_SUPPORT_INSTANCE, ParquetInputOutputFormat.injection(writeSupport))
   }
 
-  override def sink(flowProcess: FlowProcess[JobConf], sinkCall: SinkCallType): Unit = {
+  override def sink(flowProcess: FlowProcess[_ <: JobConf], sinkCall: SinkCallType): Unit = {
     val tuple = sinkCall.getOutgoingEntry
     require(tuple.size == 1,
       "TypedParquetTupleScheme expects tuple with an arity of exactly 1, but found " + tuple.getFields)

From 1a982434a2a6db83e334a6a19f69cf6d18792660 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 18 Feb 2016 14:00:40 -0800
Subject: [PATCH 13/72] [cascading3] Update hashjoin and merge tests

---
 .../scalding/platform/PlatformTest.scala      | 80 ++++++++++++++++---
 1 file changed, 70 insertions(+), 10 deletions(-)

diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index c8f27752c6..70e8375f9a 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -33,11 +33,14 @@ class InAndOutJob(args: Args) extends Job(args) {
 }
 
 object TinyJoinAndMergeJob {
-  val peopleInput = TypedTsv[Int]("input1")
-  val peopleData = List(1, 2, 3, 4)
+  val joinInput1 = TypedTsv[Int]("input1")
+  val joinData1 = List(1, 2, 3, 4)
 
-  val messageInput = TypedTsv[Int]("input2")
-  val messageData = List(1, 2, 3)
+  val joinInput2 = TypedTsv[Int]("input2")
+  val joinData2 = List(1, 2, 3)
+
+  val mergerInput = TypedTsv[Int]("input3")
+  val mergerData = List(1, 2, 3, 4)
 
   val output = TypedTsv[(Int, Int)]("output")
   val outputData = List((1, 2), (2, 2), (3, 2), (4, 1))
@@ -46,13 +49,43 @@ object TinyJoinAndMergeJob {
 class TinyJoinAndMergeJob(args: Args) extends Job(args) {
   import TinyJoinAndMergeJob._
 
-  val people = peopleInput.read.mapTo(0 -> 'id) { v: Int => v }
+  val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
+
+  val joinedData = joinInput2.read
+    .mapTo(0 -> 'id) { v: Int => v }
+    .joinWithTiny('id -> 'id, input1)
+
+  val mergerData = mergerInput.read.mapTo(0 -> 'id) { v: Int => v }
+
+  (mergerData ++ joinedData).groupBy('id) { _.size('count) }.write(output)
+}
+
+class TinyJoinAndMergeUnsupportedJob(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
+
+  val joined = joinInput2.read
+    .mapTo(0 -> 'id) { v: Int => v }
+    .joinWithTiny('id -> 'id, input1)
+
+  // merging the output of a hashjoin with one of its inputs is
+  // no longer supported in cascading3. So we verify we fail here.
+  (joined ++ input1).groupBy('id) { _.size('count) }.write(output)
+}
+
+class TinyJoinAndMergeForceToDiskJob(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
 
-  val messages = messageInput.read
+  val joined = joinInput2.read
     .mapTo(0 -> 'id) { v: Int => v }
-    .joinWithTiny('id -> 'id, people)
+    .joinWithTiny('id -> 'id, input1)
+    .forceToDisk // workaround for cascading3
 
-  (messages ++ people).groupBy('id) { _.size('count) }.write(output)
+  // this should work with the forceToDisk workaround
+  (joined ++ input1).groupBy('id) { _.size('count) }.write(output)
 }
 
 object TsvNoCacheJob {
@@ -288,8 +321,35 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
 
     "merge and joinWithTiny shouldn't duplicate data" in {
       HadoopPlatformJobTest(new TinyJoinAndMergeJob(_), cluster)
-        .source(peopleInput, peopleData)
-        .source(messageInput, messageData)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .source(mergerInput, mergerData)
+        .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .run
+    }
+  }
+
+  "A TinyJoinAndMergeUnsupportedJob" should {
+    import TinyJoinAndMergeJob._
+
+    "fail without the forceToDisk workaround" in {
+      an[cascading.flow.planner.PlannerException] should be thrownBy {
+        HadoopPlatformJobTest(new TinyJoinAndMergeUnsupportedJob(_), cluster)
+          .source(joinInput1, joinData1)
+          .source(joinInput2, joinData2)
+          .sink(output) { _.toSet shouldBe (outputData.toSet) }
+          .run
+      }
+    }
+  }
+
+  "A TinyJoinAndMergeForceToDiskJob" should {
+    import TinyJoinAndMergeJob._
+
+    "run correctly with forceToDisk workaround" in {
+      HadoopPlatformJobTest(new TinyJoinAndMergeForceToDiskJob(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
         .sink(output) { _.toSet shouldBe (outputData.toSet) }
         .run
     }

From b29a6c840291500de2e3cfaab40bb25f79a38499 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 18 Feb 2016 16:52:10 -0800
Subject: [PATCH 14/72] [cascading3] Fix withDescription tests

---
 .../scalding/platform/PlatformTest.scala      | 33 +++++++++----------
 1 file changed, 15 insertions(+), 18 deletions(-)

diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 70e8375f9a..f70924b11a 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -403,13 +403,12 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
         .inspectCompletedFlow { flow =>
           val steps = flow.getFlowSteps.asScala
           steps should have size 1
-          val firstStep = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
-          val lines = List(147, 150, 154).map { i =>
-            s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:$i"
-          }
-          firstStep should include ("leftJoin")
-          firstStep should include ("hashJoin")
-          lines.foreach { l => firstStep should include (l) }
+          val firstStepDescs = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
+          val firstStepDescSet = firstStepDescs.split(",").map(_.trim).toSet
+
+          val expected = Set(180, 183, 187, 182, 186).map(linenum => /* WARNING: keep aligned with line numbers above */
+            s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:${linenum})") ++ Seq("leftJoin", "hashJoin")
+          firstStepDescSet should equal(expected)
           steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
         }
         .run
@@ -421,18 +420,16 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
       HadoopPlatformJobTest(new TypedPipeWithDescriptionJob(_), cluster)
         .inspectCompletedFlow { flow =>
           val steps = flow.getFlowSteps.asScala
-          val descs = List("map stage - assign words to 1",
+          val expectedDescs = Set("map stage - assign words to 1",
             "reduce stage - sum",
-            "write",
-            // should see the .group and the .write show up as line numbers
-            "com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:137)",
-            "com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:141)")
-
-          val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions))
-          descs.foreach { d =>
-            assert(foundDescs.size == 1)
-            assert(foundDescs(0).contains(d))
-          }
+            "write") ++
+            Seq(169, 170, 172, 173, 174).map( /* WARNING: keep aligned with line numbers above */
+              linenum => s"com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:${linenum})")
+
+          val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions).split(",").map(_.trim).toSet)
+          foundDescs should have size 1
+
+          foundDescs.head should equal(expectedDescs)
           //steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
         }
         .run

From a5d60bfe0f5991e252e85b4146aab9cbf397bb24 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 18 Feb 2016 17:19:16 -0800
Subject: [PATCH 15/72] [cascading3] Bump to 3.1.0 wip to pick up skew join
 deadlock fix

---
 build.sbt                                                       | 2 +-
 .../src/test/scala/com/twitter/scalding/TypedFieldsTest.scala   | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/build.sbt b/build.sbt
index b36991f750..d3e7839de4 100644
--- a/build.sbt
+++ b/build.sbt
@@ -292,7 +292,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.0.3")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.0-wip-52")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/TypedFieldsTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/TypedFieldsTest.scala
index 65e0768335..b907d68316 100644
--- a/scalding-core/src/test/scala/com/twitter/scalding/TypedFieldsTest.scala
+++ b/scalding-core/src/test/scala/com/twitter/scalding/TypedFieldsTest.scala
@@ -27,7 +27,7 @@ class TypedFieldsTest extends WordSpec with Matchers {
 
     "throw an exception if a field is not comparable" in {
       val thrown = the[FlowException] thrownBy untypedJob
-      thrown.getMessage shouldBe "local step failed"
+      thrown.getMessage should startWith("local step failed")
     }
 
     // Now run the typed fields version

From 3cf03b050a8fe3e7bc8e3967188b3d8157d88b46 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 18 Feb 2016 20:15:45 -0800
Subject: [PATCH 16/72] [cascading3] Elephantbird cascading3

---
 build.sbt                                     |  4 ++--
 .../commons/source/LzoGenericScheme.scala     | 23 +++++++++----------
 .../scalding/commons/source/LzoTraits.scala   |  2 +-
 .../commons/source/LzoTypedText.scala         |  2 +-
 4 files changed, 15 insertions(+), 16 deletions(-)

diff --git a/build.sbt b/build.sbt
index d3e7839de4..eb823d275e 100644
--- a/build.sbt
+++ b/build.sbt
@@ -25,7 +25,7 @@ val avroVersion = "1.7.4"
 val bijectionVersion = "0.8.1"
 val cascadingAvroVersion = "2.1.2"
 val chillVersion = "0.7.1"
-val elephantbirdVersion = "4.8"
+val elephantbirdVersion = "4.13"
 val hadoopLzoVersion = "0.4.19"
 val hadoopVersion = "2.5.0"
 val hbaseVersion = "0.94.10"
@@ -336,7 +336,7 @@ lazy val scaldingCommons = module("commons").settings(
     "com.twitter" %% "bijection-core" % bijectionVersion,
     "com.twitter" %% "algebird-core" % algebirdVersion,
     "com.twitter" %% "chill" % chillVersion,
-    "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion,
+    "com.twitter.elephantbird" % "elephant-bird-cascading3" % elephantbirdVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
     "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
     // TODO: split this out into scalding-thrift
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
index 8ba545f056..2aa8da72f6 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
@@ -20,14 +20,13 @@ import scala.reflect.ClassTag
 
 import com.twitter.bijection._
 import com.twitter.chill.Externalizer
-import com.twitter.elephantbird.cascading2.scheme.LzoBinaryScheme
+import com.twitter.elephantbird.cascading3.scheme.LzoBinaryScheme
 import com.twitter.elephantbird.mapreduce.input.combine.DelegateCombineFileInputFormat
 import com.twitter.elephantbird.mapreduce.io.{ BinaryConverter, GenericWritable }
 import com.twitter.elephantbird.mapreduce.input.{ BinaryConverterProvider, MultiInputFormat }
 import com.twitter.elephantbird.mapreduce.output.LzoGenericBlockOutputFormat
-import com.twitter.elephantbird.mapred.output.DeprecatedOutputFormatWrapper
 
-import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
+import org.apache.hadoop.mapred.{ JobConf, OutputCollector, OutputFormat, RecordReader }
 import org.apache.hadoop.conf.Configuration
 
 import cascading.tap.Tap
@@ -97,7 +96,7 @@ object LzoGenericScheme {
   /**
    * From a Binary Converter passed in configure in the JobConf using of that by ElephantBird
    */
-  def setConverter[M](conv: BinaryConverter[M], conf: JobConf, confKey: String, overrideConf: Boolean = false): Unit = {
+  def setConverter[M](conv: BinaryConverter[M], conf: Configuration, confKey: String, overrideConf: Boolean = false): Unit = {
     if ((conf.get(confKey) == null) || overrideConf) {
       val extern = Externalizer(conv)
       try {
@@ -120,24 +119,24 @@ class LzoGenericScheme[M](@transient conv: BinaryConverter[M], clazz: Class[M])
   override protected def prepareBinaryWritable(): GenericWritable[M] =
     new GenericWritable(conv)
 
-  override def sourceConfInit(fp: FlowProcess[_ <: JobConf],
-    tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
-    conf: JobConf): Unit = {
+  override def sourceConfInit(fp: FlowProcess[_ <: Configuration],
+    tap: Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]],
+    conf: Configuration): Unit = {
 
     LzoGenericScheme.setConverter(conv, conf, SourceConfigBinaryConverterProvider.ProviderConfKey)
     MultiInputFormat.setClassConf(clazz, conf)
     MultiInputFormat.setGenericConverterClassConf(classOf[SourceConfigBinaryConverterProvider[_]], conf)
 
-    DelegateCombineFileInputFormat.setDelegateInputFormat(conf, classOf[MultiInputFormat[_]])
+    DelegateCombineFileInputFormat.setDelegateInputFormatHadoop2(conf, classOf[MultiInputFormat[_]])
   }
 
-  override def sinkConfInit(fp: FlowProcess[_ <: JobConf],
-    tap: Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]],
-    conf: JobConf): Unit = {
+  override def sinkConfInit(fp: FlowProcess[_ <: Configuration],
+    tap: Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]],
+    conf: Configuration): Unit = {
     LzoGenericScheme.setConverter(conv, conf, SinkConfigBinaryConverterProvider.ProviderConfKey)
     LzoGenericBlockOutputFormat.setClassConf(clazz, conf)
     LzoGenericBlockOutputFormat.setGenericConverterClassConf(classOf[SinkConfigBinaryConverterProvider[_]], conf)
-    DeprecatedOutputFormatWrapper.setOutputFormat(classOf[LzoGenericBlockOutputFormat[_]], conf)
+    conf.setClass("mapred.output.format.class", classOf[LzoGenericBlockOutputFormat[_]], classOf[OutputFormat[_, _]])
   }
 }
 
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTraits.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTraits.scala
index eeb28fc929..def9bc1673 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTraits.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTraits.scala
@@ -22,7 +22,7 @@ import cascading.scheme.Scheme
 import org.apache.thrift.TBase
 import com.google.protobuf.Message
 import com.twitter.bijection.Injection
-import com.twitter.elephantbird.cascading2.scheme._
+import com.twitter.elephantbird.cascading3.scheme._
 import com.twitter.scalding._
 import com.twitter.scalding.Dsl._
 import com.twitter.scalding.source.{ CheckedInversion, MaxFailuresCheck }
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTypedText.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTypedText.scala
index 089968b9a4..83bc91907a 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTypedText.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoTypedText.scala
@@ -3,7 +3,7 @@ package com.twitter.scalding.commons.source
 import cascading.scheme.Scheme
 import cascading.scheme.hadoop.{ TextDelimited => CHTextDelimited }
 import cascading.scheme.local.{ TextDelimited => CLTextDelimited }
-import com.twitter.elephantbird.cascading2.scheme.LzoTextDelimited
+import com.twitter.elephantbird.cascading3.scheme.LzoTextDelimited
 import com.twitter.scalding._
 import com.twitter.scalding.source.TypedTextDelimited
 import com.twitter.scalding.source.TypedSep

From b877f5c45508f375087361661dd025cbbbc5d5e3 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 19 Feb 2016 14:05:13 -0800
Subject: [PATCH 17/72] [cascading3] Review comments

---
 build.sbt                                                 | 8 +++++++-
 .../src/main/scala/com/twitter/scalding/Operations.scala  | 8 ++++----
 2 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/build.sbt b/build.sbt
index eb823d275e..6236f83423 100644
--- a/build.sbt
+++ b/build.sbt
@@ -294,6 +294,12 @@ lazy val scaldingDate = module("date")
 lazy val cascadingVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.0-wip-52")
 
+lazy val elephantbirdCascadingArtifact = cascadingVersion.split('.').head match {
+  case "2" => "elephant-bird-cascading2"
+  case "3" => "elephant-bird-cascading3"
+  case other => sys.error(s"Unsupported cascading major version: $other")
+}
+
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
 
@@ -336,7 +342,7 @@ lazy val scaldingCommons = module("commons").settings(
     "com.twitter" %% "bijection-core" % bijectionVersion,
     "com.twitter" %% "algebird-core" % algebirdVersion,
     "com.twitter" %% "chill" % chillVersion,
-    "com.twitter.elephantbird" % "elephant-bird-cascading3" % elephantbirdVersion,
+    "com.twitter.elephantbird" % elephantbirdCascadingArtifact % elephantbirdVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
     "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
     // TODO: split this out into scalding-thrift
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala b/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
index 64dfc9a9a0..62c17f2940 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Operations.scala
@@ -139,13 +139,13 @@ package com.twitter.scalding {
 
     def cacheSize(fp: FlowProcess[_]): Int =
       cacheSize.orElse {
-        val cascading2Property = Option(fp.getStringProperty(CASCADING2_SIZE_CONFIG_KEY)).filterNot(_.isEmpty).map(_.toInt)
-        val cascading3Property = Option(fp.getStringProperty(CASCADING3_SIZE_CONFIG_KEY)).filterNot(_.isEmpty).map(_.toInt)
+        def getInt(k: String): Option[Int] = Option(fp.getStringProperty(k)).filterNot(_.isEmpty).map(_.toInt)
+        val cascading2Property = getInt(CASCADING2_SIZE_CONFIG_KEY)
+        val cascading3Property = getInt(CASCADING3_SIZE_CONFIG_KEY)
         // we support both old and new properties for backward compatibility
         // and pick the max of the two, when both exist
         (cascading2Property, cascading3Property) match {
-          case (Some(a), Some(b)) if a >= b => Some(a)
-          case (Some(a), Some(b)) if b > a => Some(b)
+          case (Some(a), Some(b)) => Some(Ordering[Int].max(a, b))
           case (None, None) => None
           case (Some(a), _) => Some(a)
           case (_, Some(b)) => Some(b)

From 2abe899b80661a71b31c35e3dd7e2d36686b47bc Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 2 Mar 2016 08:28:38 -0800
Subject: [PATCH 18/72] [cascading3] Also publish new cascading subprojects

---
 build.sbt | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/build.sbt b/build.sbt
index 6236f83423..3666a7d32d 100644
--- a/build.sbt
+++ b/build.sbt
@@ -222,7 +222,9 @@ lazy val scalding = Project(
   scaldingCommons,
   scaldingAvro,
   scaldingParquet,
+  scaldingParquetCascading,
   scaldingParquetScrooge,
+  scaldingParquetScroogeCascading,
   scaldingHRaven,
   scaldingRepl,
   scaldingJson,
@@ -250,7 +252,9 @@ lazy val scaldingAssembly = Project(
   scaldingCommons,
   scaldingAvro,
   scaldingParquet,
+  scaldingParquetCascading,
   scaldingParquetScrooge,
+  scaldingParquetScroogeCascading,
   scaldingHRaven,
   scaldingRepl,
   scaldingJson,

From 8f5aa171ea5136988b75671d7581abd58b73ca82 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 11 Mar 2016 10:03:35 -0800
Subject: [PATCH 19/72] [cascading3] Cleaner Configuration vs JobConf usage

---
 .../twitter/scalding/avro/AvroSource.scala    |  5 ++--
 .../commons/scheme/KeyValueByteScheme.java    |  1 -
 .../source/VersionedKeyValSource.scala        |  6 ++---
 .../com/twitter/scalding/FileSource.scala     | 26 ++++++++++---------
 .../scalding/HfsConfPropertySetter.scala      |  4 +--
 .../scala/com/twitter/scalding/Source.scala   | 21 +++++++++------
 .../com/twitter/scalding/TestTapFactory.scala | 14 +++++-----
 7 files changed, 41 insertions(+), 36 deletions(-)

diff --git a/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala b/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
index 4b90b7e9ea..366f11869f 100644
--- a/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
+++ b/scalding-avro/src/main/scala/com/twitter/scalding/avro/AvroSource.scala
@@ -26,14 +26,13 @@ import java.io.OutputStream
 import java.util.Properties
 import cascading.tuple.Fields
 import collection.JavaConverters._
-import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.mapred.{ OutputCollector, RecordReader, JobConf }
 
 trait UnpackedAvroFileScheme extends FileSource {
   def schema: Option[Schema]
 
   // HadoopSchemeInstance gives compile errors in 2.10 for some reason
-  override def hdfsScheme = (new AvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
+  override def hdfsScheme = (new AvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
 
   override def localScheme = (new LAvroScheme(schema.getOrElse(null))).asInstanceOf[Scheme[Properties, InputStream, OutputStream, _, _]]
 
@@ -43,7 +42,7 @@ trait PackedAvroFileScheme[T] extends FileSource {
   def schema: Schema
 
   // HadoopSchemeInstance gives compile errors for this in 2.10 for some reason
-  override def hdfsScheme = (new PackedAvroScheme[T](schema)).asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
+  override def hdfsScheme = (new PackedAvroScheme[T](schema)).asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
 
   override def localScheme = (new LPackedAvroScheme[T](schema)).asInstanceOf[Scheme[Properties, InputStream, OutputStream, _, _]]
 }
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
index d7f5573c15..12aa31c6ba 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
@@ -5,7 +5,6 @@
 
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.io.BytesWritable;
-import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
 
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/VersionedKeyValSource.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/VersionedKeyValSource.scala
index 177bb3c416..22a3a9dde9 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/VersionedKeyValSource.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/VersionedKeyValSource.scala
@@ -32,7 +32,7 @@ import com.twitter.scalding.commons.tap.VersionedTap.TapMode
 import com.twitter.scalding.source.{ CheckedInversion, MaxFailuresCheck }
 import com.twitter.scalding.typed.KeyedListLike
 import com.twitter.scalding.typed.TypedSink
-import org.apache.hadoop.mapred.JobConf
+import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
 import scala.collection.JavaConverters._
 
 /**
@@ -69,7 +69,7 @@ class VersionedKeyValSource[K, V](val path: String, val sourceVersion: Option[Lo
 
   override def setter[U <: (K, V)] = TupleSetter.asSubSetter[(K, V), U](TupleSetter.of[(K, V)])
 
-  def hdfsScheme =
+  def hdfsScheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _] =
     HadoopSchemeInstance(new KeyValueByteScheme(fields).asInstanceOf[Scheme[_, _, _, _, _]])
 
   @deprecated("This method is deprecated", "0.1.6")
@@ -77,7 +77,7 @@ class VersionedKeyValSource[K, V](val path: String, val sourceVersion: Option[Lo
     this(path, sourceVersion, sinkVersion, maxFailures, VersionedKeyValSource.defaultVersionsToKeep)(codec)
 
   def getTap(mode: TapMode) = {
-    val tap = new VersionedTap(path, hdfsScheme, mode).setVersionsToKeep(versionsToKeep)
+    val tap = new VersionedTap(path, Hadoop2SchemeInstance(hdfsScheme), mode).setVersionsToKeep(versionsToKeep)
     if (mode == TapMode.SOURCE && sourceVersion.isDefined)
       tap.setVersion(sourceVersion.get)
     else if (mode == TapMode.SINK && sinkVersion.isDefined)
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
index e99dc7b204..92a2e9bb6a 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/FileSource.scala
@@ -53,7 +53,7 @@ abstract class SchemedSource extends Source {
     throw ModeException("Cascading local mode not supported for: " + toString)
 
   /** The scheme to use if the source is on hdfs. */
-  def hdfsScheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _] =
+  def hdfsScheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _] =
     throw ModeException("Cascading Hadoop mode not supported for: " + toString)
 
   // The mode to use for output taps determining how conflicts with existing output are handled.
@@ -61,16 +61,18 @@ abstract class SchemedSource extends Source {
 }
 
 trait HfsTapProvider {
-  def createHfsTap(scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _],
+  def createHfsTap(scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _],
     path: String,
     sinkMode: SinkMode): Hfs =
-    new Hfs(scheme, path, sinkMode)
+    new Hfs(
+      Hadoop2SchemeInstance(scheme),
+      path, sinkMode)
 }
 
 private[scalding] object CastFileTap {
   // The scala compiler has problems with the generics in Cascading
-  def apply(tap: FileTap): Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]] =
-    tap.asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
+  def apply(tap: FileTap): Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]] =
+    tap.asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
 }
 
 /**
@@ -89,7 +91,7 @@ trait LocalSourceOverride extends SchemedSource {
    * @param sinkMode The mode for handling output conflicts.
    * @returns A tap.
    */
-  def createLocalTap(sinkMode: SinkMode): Tap[Configuration, _, _] = {
+  def createLocalTap(sinkMode: SinkMode): Tap[JobConf, _, _] = {
     val taps = localPaths.map {
       p: String =>
         CastFileTap(new FileTap(localScheme, p, sinkMode))
@@ -288,8 +290,8 @@ abstract class FileSource extends SchemedSource with LocalSourceOverride with Hf
     }
   }
 
-  protected def createHdfsReadTap(hdfsMode: Hdfs): Tap[Configuration, _, _] = {
-    val taps: List[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]] =
+  protected def createHdfsReadTap(hdfsMode: Hdfs): Tap[JobConf, _, _] = {
+    val taps: List[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]] =
       goodHdfsPaths(hdfsMode)
         .toList.map { path => CastHfsTap(createHfsTap(hdfsScheme, path, sinkMode)) }
     taps.size match {
@@ -306,8 +308,8 @@ abstract class FileSource extends SchemedSource with LocalSourceOverride with Hf
   }
 }
 
-class ScaldingMultiSourceTap(taps: Seq[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]])
-  extends MultiSourceTap[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]], Configuration, RecordReader[_, _]](taps: _*) {
+class ScaldingMultiSourceTap(taps: Seq[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]])
+  extends MultiSourceTap[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]], JobConf, RecordReader[_, _]](taps: _*) {
   private final val randomId = UUID.randomUUID.toString
   override def getIdentifier() = randomId
   override def hashCode: Int = randomId.hashCode
@@ -402,9 +404,9 @@ trait SuccessFileSource extends FileSource {
  * Put another way, this runs a Hadoop tap outside of Hadoop in the Cascading local mode
  */
 trait LocalTapSource extends LocalSourceOverride {
-  override def createLocalTap(sinkMode: SinkMode): Tap[Configuration, _, _] = {
+  override def createLocalTap(sinkMode: SinkMode): Tap[JobConf, _, _] = {
     val taps = localPaths.map { p =>
-      new LocalTap(p, hdfsScheme, sinkMode).asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
+      new LocalTap(p, Hadoop2SchemeInstance(hdfsScheme), sinkMode).asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
     }.toSeq
 
     taps match {
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala b/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
index 411d778ff1..74881e3930 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/HfsConfPropertySetter.scala
@@ -56,8 +56,8 @@ trait HfsConfPropertySetter extends HfsTapProvider {
   def tapConfig: Config = Config.empty
 
   override def createHfsTap(
-    scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _],
+    scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _],
     path: String,
     sinkMode: SinkMode): Hfs =
-    new ConfPropertiesHfsTap(tapConfig, scheme, path, sinkMode)
+    new ConfPropertiesHfsTap(tapConfig, Hadoop2SchemeInstance(scheme), path, sinkMode)
 }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Source.scala b/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
index 7ff53e016e..73c4f645d9 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Source.scala
@@ -50,7 +50,7 @@ class InvalidSourceException(message: String) extends RuntimeException(message)
  *
  * hdfsPaths represents user-supplied list that was detected as not containing any valid paths.
  */
-class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[Configuration, RecordReader[_, _]] {
+class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[JobConf, RecordReader[_, _]] {
 
   private final val randomId = UUID.randomUUID.toString
 
@@ -58,12 +58,12 @@ class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[Config
 
   override def hashCode: Int = randomId.hashCode
 
-  override def getModifiedTime(conf: Configuration): Long = 0L
+  override def getModifiedTime(conf: JobConf): Long = 0L
 
-  override def openForRead(flow: FlowProcess[_ <: Configuration], input: RecordReader[_, _]): TupleEntryIterator =
+  override def openForRead(flow: FlowProcess[_ <: JobConf], input: RecordReader[_, _]): TupleEntryIterator =
     sys.error(s"InvalidSourceTap: No good paths in $hdfsPaths")
 
-  override def resourceExists(conf: Configuration): Boolean = false
+  override def resourceExists(conf: JobConf): Boolean = false
 
   override def getScheme = new NullScheme()
 
@@ -76,7 +76,7 @@ class InvalidSourceTap(val hdfsPaths: Iterable[String]) extends SourceTap[Config
   // 4. source.validateTaps (throws InvalidSourceException)
   // In the worst case if the flow plan is misconfigured,
   // openForRead on mappers should fail when using this tap.
-  override def sourceConfInit(flow: FlowProcess[_ <: Configuration], conf: Configuration): Unit = {
+  override def sourceConfInit(flow: FlowProcess[_ <: JobConf], conf: JobConf): Unit = {
     conf.setClass("mapred.input.format.class",
       classOf[cascading.tap.hadoop.io.MultiInputFormat],
       classOf[org.apache.hadoop.mapred.InputFormat[_, _]]);
@@ -96,14 +96,19 @@ case object Write extends AccessMode
 // parameters with wildcards so the Scala compiler doesn't complain.
 
 object HadoopSchemeInstance {
+  def apply(scheme: Scheme[_, _, _, _, _]) =
+    scheme.asInstanceOf[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]]
+}
+
+object Hadoop2SchemeInstance {
   def apply(scheme: Scheme[_, _, _, _, _]) =
     scheme.asInstanceOf[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]]
 }
 
 object CastHfsTap {
   // The scala compiler has problems with the generics in Cascading
-  def apply(tap: Hfs): Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]] =
-    tap.asInstanceOf[Tap[Configuration, RecordReader[_, _], OutputCollector[_, _]]]
+  def apply(tap: Hfs): Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]] =
+    tap.asInstanceOf[Tap[JobConf, RecordReader[_, _], OutputCollector[_, _]]]
 }
 
 /**
@@ -272,7 +277,7 @@ trait BaseNullSource extends Source {
     readOrWrite match {
       case Read => throw new Exception("not supported, reading from null")
       case Write => mode match {
-        case Hdfs(_, _) => new NullTap[Configuration, RecordReader[_, _], OutputCollector[_, _], Any, Any]
+        case Hdfs(_, _) => new NullTap[JobConf, RecordReader[_, _], OutputCollector[_, _], Any, Any]
         case Local(_) => new NullTap[Properties, InputStream, OutputStream, Any, Any]
         case Test(_) => new NullTap[Properties, InputStream, OutputStream, Any, Any]
       }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala b/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
index 65cd0c3fa1..92d7698745 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/TestTapFactory.scala
@@ -45,20 +45,20 @@ object TestTapFactory extends Serializable {
     override def sourceFields: Fields = fields
     override def sinkFields: Fields = fields
   }
-  def apply[A, B](src: Source, scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], A, B]): TestTapFactory = apply(src, scheme, SinkMode.REPLACE)
+  def apply[A, B](src: Source, scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], A, B]): TestTapFactory = apply(src, scheme, SinkMode.REPLACE)
   def apply[A, B](src: Source,
-    scheme: Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], A, B], sinkMode: SinkMode): TestTapFactory =
+    scheme: Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], A, B], sinkMode: SinkMode): TestTapFactory =
     new TestTapFactory(src, sinkMode) { override def hdfsScheme = Some(scheme) }
 }
 
-class TestTapFactory(src: Source, sinkMode: SinkMode) extends Serializable {
+class TestTapFactory(src: Source, sinkMode: SinkMode) extends Serializable with HfsTapProvider {
   def sourceFields: Fields =
     hdfsScheme.map { _.getSourceFields }.getOrElse(sys.error("No sourceFields defined"))
 
   def sinkFields: Fields =
     hdfsScheme.map { _.getSinkFields }.getOrElse(sys.error("No sinkFields defined"))
 
-  def hdfsScheme: Option[Scheme[Configuration, RecordReader[_, _], OutputCollector[_, _], _, _]] = None
+  def hdfsScheme: Option[Scheme[JobConf, RecordReader[_, _], OutputCollector[_, _], _, _]] = None
 
   def createTap(readOrWrite: AccessMode)(implicit mode: Mode): Tap[_, _, _] = {
     mode match {
@@ -92,14 +92,14 @@ class TestTapFactory(src: Source, sinkMode: SinkMode) extends Serializable {
             if (bufOpt.isDefined) {
               val buffer = bufOpt.get
               val fields = sourceFields
-              (new MemorySourceTap(buffer.toList.asJava, fields)).asInstanceOf[Tap[Configuration, _, _]]
+              (new MemorySourceTap(buffer.toList.asJava, fields)).asInstanceOf[Tap[JobConf, _, _]]
             } else {
-              CastHfsTap(new Hfs(hdfsScheme.get, hdfsTest.getWritePathFor(src), sinkMode))
+              CastHfsTap(createHfsTap(hdfsScheme.get, hdfsTest.getWritePathFor(src), sinkMode))
             }
           }
           case Write => {
             val path = hdfsTest.getWritePathFor(src)
-            CastHfsTap(new Hfs(hdfsScheme.get, path, sinkMode))
+            CastHfsTap(createHfsTap(hdfsScheme.get, path, sinkMode))
           }
         }
       case _ => {

From dcc5ea52b735f40756e5b546cf196a1ecfc08125 Mon Sep 17 00:00:00 2001
From: Ian O Connell <ioconnell@twitter.com>
Date: Thu, 28 Jan 2016 10:47:15 -0800
Subject: [PATCH 20/72] Utility for expanding libjars

Hadoop's -libjars doesn't support wildcards, with large class paths its easy to exhaust the max arg length for linux/os x when running commands. This acts as a filter above our interaction with the generic options parser to expand wildcards
---
 .../com/twitter/scalding/ExecutionApp.scala   |  4 +-
 .../twitter/scalding/LibJarsExpansion.scala   | 65 +++++++++++++++++++
 .../scala/com/twitter/scalding/Tool.scala     |  2 +-
 .../scalding/ExpandLibJarsGlobsTest.scala     | 51 +++++++++++++++
 4 files changed, 120 insertions(+), 2 deletions(-)
 create mode 100644 scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
 create mode 100644 scalding-core/src/test/scala/com/twitter/scalding/ExpandLibJarsGlobsTest.scala

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/ExecutionApp.scala b/scalding-core/src/main/scala/com/twitter/scalding/ExecutionApp.scala
index 3a545cafe0..42df365bd4 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/ExecutionApp.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/ExecutionApp.scala
@@ -41,10 +41,12 @@ object ExecutionApp {
 
   def extractUserHadoopArgs(args: Array[String]): (HadoopArgs, NonHadoopArgs) = {
 
+    val argsWithLibJars = ExpandLibJarsGlobs(args)
+
     // This adds a look back mechanism to match on other hadoop args we need to support
     // currently thats just libjars
     val (hadoopArgs, tmpNonHadoop, finalLast) =
-      args.foldLeft(Array[String](), Array[String](), Option.empty[String]) {
+      argsWithLibJars.foldLeft(Array[String](), Array[String](), Option.empty[String]) {
         // Current is a -D, so store the last in non hadoop, and add current to hadoop args
         case ((hadoopArgs, nonHadoop, Some(l)), current) if dArgPattern.findFirstIn(current).isDefined =>
           (hadoopArgs :+ current, nonHadoop :+ l, None)
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
new file mode 100644
index 0000000000..c9fb20d708
--- /dev/null
+++ b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
@@ -0,0 +1,65 @@
+/*
+Copyright 2014 Twitter, Inc.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+package com.twitter.scalding
+
+import java.io.File
+import java.nio.file.Path
+
+object ExpandLibJarsGlobs {
+  def apply(inputArgs: Array[String]): Array[String] = {
+    // First we are going to expand out the libjars if we find it
+    val libJarsIdx = inputArgs.indexOf("-libjars") + 1
+    if (libJarsIdx > 0 && libJarsIdx < inputArgs.length) { // 0 would mean we never found -libjars
+      val newArgs = new Array[String](inputArgs.length)
+      System.arraycopy(inputArgs, 0, newArgs, 0, inputArgs.length)
+
+      val existing = newArgs(libJarsIdx)
+      val replacement = existing.split(",").flatMap { element =>
+        fromGlob(element).map(_.toString)
+      }.mkString(",")
+
+      newArgs(libJarsIdx) = replacement
+      newArgs
+    } else inputArgs
+  }
+
+  //tree from Duncan McGregor @ http://stackoverflow.com/questions/2637643/how-do-i-list-all-files-in-a-subdirectory-in-scala
+  private[this] def tree(root: File, skipHidden: Boolean = false): Stream[File] =
+    if (!root.exists || (skipHidden && root.isHidden)) Stream.empty
+    else root #:: (
+      root.listFiles match {
+        case null => Stream.empty
+        case files => files.toStream.flatMap(tree(_, skipHidden))
+      })
+
+  def fromGlob(glob: String, filesOnly: Boolean = true): Stream[Path] = {
+    import java.nio._
+    import java.nio.file._
+    val fs = FileSystems.getDefault()
+    val expandedSlash = if (glob.endsWith("/")) s"${glob}/*" else glob
+    val absoluteGlob = fs.getPath(expandedSlash).toAbsolutePath
+    val matcher: PathMatcher = fs.getPathMatcher(s"glob:$absoluteGlob")
+
+    val parentPath =
+      if (absoluteGlob.getFileName.toString.contains("*")) absoluteGlob.getParent else absoluteGlob
+
+    val pathStream = tree(parentPath.toFile, true).map(_.toPath)
+
+    val globMatchingPaths = pathStream.filter(matcher.matches)
+
+    if (filesOnly) globMatchingPaths.filter(_.toFile.isFile) else globMatchingPaths
+  }
+}
\ No newline at end of file
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala b/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
index 238edbc712..f8dcd2bacf 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
@@ -147,7 +147,7 @@ class Tool extends Configured with HTool {
 object Tool {
   def main(args: Array[String]) {
     try {
-      ToolRunner.run(new JobConf, new Tool, args)
+      ToolRunner.run(new JobConf, new Tool, ExpandLibJarsGlobs(args))
     } catch {
       case t: Throwable => {
         //re-throw the exception with extra info
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/ExpandLibJarsGlobsTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/ExpandLibJarsGlobsTest.scala
new file mode 100644
index 0000000000..8bae8242de
--- /dev/null
+++ b/scalding-core/src/test/scala/com/twitter/scalding/ExpandLibJarsGlobsTest.scala
@@ -0,0 +1,51 @@
+package com.twitter.scalding
+
+import java.io.File
+import java.nio._
+import java.nio.file._
+import org.scalatest.{ Matchers, WordSpec }
+
+class ExpandLibJarsGlobsTest extends WordSpec with Matchers {
+  def touch(parent: File, p: String): String = {
+    val f = new File(parent, p)
+    f.createNewFile
+    f.getAbsolutePath
+  }
+
+  "ExpandLibJarsGlobs" should {
+    "expand entries" in {
+      val tmpRoot = new File(System.getProperty("java.io.tmpdir"), System.currentTimeMillis.toString)
+      require(tmpRoot.mkdirs(), "Failed to make temporary directory")
+      tmpRoot.deleteOnExit()
+
+      // Has a side effect, but returns us the jars absolute paths
+      val jars = (0 until 20).map { idx =>
+        touch(tmpRoot, s"myF_${idx}.jar")
+      }
+
+      val resultingLibJars1 = ExpandLibJarsGlobs(Array("-libjars", s"${tmpRoot.getAbsolutePath}/*.jar"))(1).split(",")
+      assert(resultingLibJars1.sorted.toList == jars.sorted.toList)
+
+      val resultingLibJars2 = ExpandLibJarsGlobs(Array("-libjars", s"${tmpRoot.getAbsolutePath}/"))(1).split(",")
+      assert(resultingLibJars2.sorted.toList == jars.sorted.toList)
+
+      val resultingLibJars3 = ExpandLibJarsGlobs(Array("-libjars", s"${tmpRoot.getAbsolutePath}/*"))(1).split(",")
+      assert(resultingLibJars3.sorted.toList == jars.sorted.toList)
+    }
+
+    "Skips over unmatched entries" in {
+      val tmpRoot = new File(System.getProperty("java.io.tmpdir"), System.currentTimeMillis.toString)
+      require(tmpRoot.mkdirs(), "Failed to make temporary directory")
+      tmpRoot.deleteOnExit()
+
+      // Has a side effect, but returns us the jars absolute paths
+      val jars = (0 until 20).map { idx =>
+        touch(tmpRoot, s"myF_${idx}.jar")
+      }
+
+      val resultingLibJars1 = ExpandLibJarsGlobs(Array("-libjars", s"${tmpRoot.getAbsolutePath}/*.zip"))(1).split(",").filter(_.nonEmpty)
+      assert(resultingLibJars1.isEmpty)
+    }
+
+  }
+}

From c85b099450d0c39b1fcf9e16b507dc84d646ceb6 Mon Sep 17 00:00:00 2001
From: Ian O Connell <ioconnell@twitter.com>
Date: Fri, 29 Jan 2016 09:06:33 -0800
Subject: [PATCH 21/72] Shouldn't skip hidden files, user can decide such
 things with their glob

---
 .../src/main/scala/com/twitter/scalding/LibJarsExpansion.scala  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
index c9fb20d708..b8863a4dab 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
@@ -56,7 +56,7 @@ object ExpandLibJarsGlobs {
     val parentPath =
       if (absoluteGlob.getFileName.toString.contains("*")) absoluteGlob.getParent else absoluteGlob
 
-    val pathStream = tree(parentPath.toFile, true).map(_.toPath)
+    val pathStream = tree(parentPath.toFile).map(_.toPath)
 
     val globMatchingPaths = pathStream.filter(matcher.matches)
 

From 275bdf3b736c17595b366ad7649482c92caf1949 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 8 Apr 2016 12:54:32 -0700
Subject: [PATCH 22/72] [cascading3] Fix LzoGenericScheme

---
 build.sbt                                                  | 2 +-
 .../twitter/scalding/commons/source/LzoGenericScheme.scala | 7 ++++---
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/build.sbt b/build.sbt
index 3666a7d32d..e26e31aaa8 100644
--- a/build.sbt
+++ b/build.sbt
@@ -25,7 +25,7 @@ val avroVersion = "1.7.4"
 val bijectionVersion = "0.8.1"
 val cascadingAvroVersion = "2.1.2"
 val chillVersion = "0.7.1"
-val elephantbirdVersion = "4.13"
+val elephantbirdVersion = "4.14-RC2"
 val hadoopLzoVersion = "0.4.19"
 val hadoopVersion = "2.5.0"
 val hbaseVersion = "0.94.10"
diff --git a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
index 2aa8da72f6..3e33c75430 100644
--- a/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
+++ b/scalding-commons/src/main/scala/com/twitter/scalding/commons/source/LzoGenericScheme.scala
@@ -25,8 +25,9 @@ import com.twitter.elephantbird.mapreduce.input.combine.DelegateCombineFileInput
 import com.twitter.elephantbird.mapreduce.io.{ BinaryConverter, GenericWritable }
 import com.twitter.elephantbird.mapreduce.input.{ BinaryConverterProvider, MultiInputFormat }
 import com.twitter.elephantbird.mapreduce.output.LzoGenericBlockOutputFormat
+import com.twitter.elephantbird.mapred.output.DeprecatedOutputFormatWrapper
 
-import org.apache.hadoop.mapred.{ JobConf, OutputCollector, OutputFormat, RecordReader }
+import org.apache.hadoop.mapred.{ JobConf, OutputCollector, RecordReader }
 import org.apache.hadoop.conf.Configuration
 
 import cascading.tap.Tap
@@ -127,7 +128,7 @@ class LzoGenericScheme[M](@transient conv: BinaryConverter[M], clazz: Class[M])
     MultiInputFormat.setClassConf(clazz, conf)
     MultiInputFormat.setGenericConverterClassConf(classOf[SourceConfigBinaryConverterProvider[_]], conf)
 
-    DelegateCombineFileInputFormat.setDelegateInputFormatHadoop2(conf, classOf[MultiInputFormat[_]])
+    DelegateCombineFileInputFormat.setDelegateInputFormat(conf, classOf[MultiInputFormat[_]])
   }
 
   override def sinkConfInit(fp: FlowProcess[_ <: Configuration],
@@ -136,7 +137,7 @@ class LzoGenericScheme[M](@transient conv: BinaryConverter[M], clazz: Class[M])
     LzoGenericScheme.setConverter(conv, conf, SinkConfigBinaryConverterProvider.ProviderConfKey)
     LzoGenericBlockOutputFormat.setClassConf(clazz, conf)
     LzoGenericBlockOutputFormat.setGenericConverterClassConf(classOf[SinkConfigBinaryConverterProvider[_]], conf)
-    conf.setClass("mapred.output.format.class", classOf[LzoGenericBlockOutputFormat[_]], classOf[OutputFormat[_, _]])
+    DeprecatedOutputFormatWrapper.setOutputFormat(classOf[LzoGenericBlockOutputFormat[_]], conf)
   }
 }
 

From ed5b95d318cff43b3d7a25be1b5e1ca52066ad76 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 8 Apr 2016 12:55:41 -0700
Subject: [PATCH 23/72] [cascading3] Fix VersionedTap

---
 .../commons/scheme/KeyValueByteScheme.java    | 11 +++-
 .../VersionedSequenceFileInputFormat.java     | 64 +++++++++++++++++++
 .../scalding/commons/tap/VersionedTap.java    | 16 +++--
 3 files changed, 83 insertions(+), 8 deletions(-)
 create mode 100644 scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java

diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
index 12aa31c6ba..e1add5bbb2 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
@@ -12,12 +12,13 @@
 import cascading.scheme.SinkCall;
 import cascading.scheme.SourceCall;
 import cascading.scheme.hadoop.WritableSequenceFile;
+import cascading.tap.Tap;
 import cascading.tuple.Fields;
 import cascading.tuple.Tuple;
 import cascading.tuple.TupleEntry;
 
 /**
- *
+ * Used in conjunction with VersionedKeyValSource.
  */
 public class KeyValueByteScheme extends WritableSequenceFile {
   public KeyValueByteScheme(Fields fields) {
@@ -28,6 +29,14 @@ public static byte[] getBytes(BytesWritable key) {
     return Arrays.copyOfRange(key.getBytes(), 0, key.getLength());
   }
 
+  @Override
+  public void sourceConfInit(FlowProcess<? extends Configuration> flowProcess,
+      Tap<Configuration, RecordReader, OutputCollector> tap, Configuration conf) {
+    super.sourceConfInit(flowProcess, tap, conf);
+    conf.setClass("mapred.input.format.class", VersionedSequenceFileInputFormat.class,
+      org.apache.hadoop.mapred.InputFormat.class);
+  }
+
   @Override
   public boolean source(FlowProcess<? extends Configuration> flowProcess,
       SourceCall<Object[], RecordReader> sourceCall) throws IOException {
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java
new file mode 100644
index 0000000000..9166306701
--- /dev/null
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java
@@ -0,0 +1,64 @@
+package com.twitter.scalding.commons.scheme;
+
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.List;
+import java.io.IOException;
+
+import org.apache.hadoop.fs.FileStatus;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.fs.PathFilter;
+import org.apache.hadoop.io.SequenceFile;
+import org.apache.hadoop.mapred.FileInputFormat;
+import org.apache.hadoop.mapred.FileSplit;
+import org.apache.hadoop.mapred.InputSplit;
+import org.apache.hadoop.mapred.JobConf;
+import org.apache.hadoop.mapred.RecordReader;
+import org.apache.hadoop.mapred.Reporter;
+import org.apache.hadoop.mapred.SequenceFileRecordReader;
+
+/**
+ * Hadoop's SequenceFileInputFormat assumes separate "data" and index" files per directory.
+ * This does not apply to VersionedKeyValSource, so we bypass that behavior.
+ */
+public class VersionedSequenceFileInputFormat<K, V> extends FileInputFormat<K, V> {
+
+  public VersionedSequenceFileInputFormat() {
+    setMinSplitSize(SequenceFile.SYNC_INTERVAL);
+  }
+
+  private final PathFilter hiddenPathFilter = new PathFilter() {
+    // avoid hidden files and directories.
+    @Override
+    public boolean accept(Path path) {
+      String name = path.getName();
+      return !name.startsWith(".") && !name.startsWith("_");
+    }
+  };
+
+  @Override
+  protected FileStatus[] listStatus(JobConf job) throws IOException {
+    // we pick all the parent directories (should be only one for the picked version)
+    // and fetch the part files (non-hidden) under them
+    // any files in the parent list are version files which are to be disregarded
+    FileStatus[] parentPaths = super.listStatus(job);
+    List<FileStatus> result = new ArrayList<FileStatus>();
+    for (int i = 0; i < parentPaths.length; i++) {
+      FileStatus status = parentPaths[i];
+      if (status.isDirectory()) {
+        // add all files under this dir
+        FileSystem fs = status.getPath().getFileSystem(job);
+        result.addAll(Arrays.asList(fs.listStatus(status.getPath(), hiddenPathFilter)));
+      }
+    }
+    return result.toArray(new FileStatus[0]);
+  }
+
+  public RecordReader<K, V> getRecordReader(InputSplit split, JobConf job, Reporter reporter)
+      throws IOException {
+    reporter.setStatus(split.toString());
+    return new SequenceFileRecordReader<K, V>(job, (FileSplit) split);
+  }
+}
+
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
index d21b5447b8..c3105e8801 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
@@ -14,6 +14,7 @@
 import org.apache.hadoop.mapred.RecordReader;
 
 import cascading.flow.FlowProcess;
+import cascading.flow.hadoop.util.HadoopUtil;
 import cascading.scheme.Scheme;
 import cascading.tap.hadoop.Hfs;
 
@@ -93,20 +94,21 @@ public String getSinkPath(Configuration conf) {
 
   @Override
   public void sourceConfInit(FlowProcess<? extends Configuration> process, Configuration conf) {
-    JobConf jobConf = new JobConf(conf);
-    super.sourceConfInit(process, jobConf);
-    FileInputFormat.setInputPaths(jobConf, getSourcePath(jobConf));
+    super.sourceConfInit(process, conf);
+    conf.unset("mapred.input.dir"); // need this to unset any paths set in super.sourceConfInit
+    Path fullyQualifiedPath = getFileSystem(conf).makeQualified(new Path(getSourcePath(conf)));
+    HadoopUtil.addInputPath(conf, fullyQualifiedPath);
   }
 
   @Override
   public void sinkConfInit(FlowProcess<? extends Configuration> process, Configuration conf) {
-    JobConf jobConf = new JobConf(conf);
-    super.sinkConfInit(process, jobConf);
+    super.sinkConfInit(process, conf);
 
     if (newVersionPath == null)
-      newVersionPath = getSinkPath(jobConf);
+      newVersionPath = getSinkPath(conf);
 
-    FileOutputFormat.setOutputPath(jobConf, new Path(newVersionPath));
+    Path fullyQualifiedPath = getFileSystem(conf).makeQualified(new Path(newVersionPath));
+    HadoopUtil.setOutputPath(conf, fullyQualifiedPath);
   }
 
   @Override

From 47e852ece7f923efe67ba49b9e60d8aa3f56573c Mon Sep 17 00:00:00 2001
From: Ian O Connell <ioconnell@twitter.com>
Date: Fri, 29 Jan 2016 09:06:33 -0800
Subject: [PATCH 24/72] Shouldn't skip hidden files, user can decide such
 things with their glob

---
 .../twitter/scalding/LibJarsExpansion.scala   | 65 +++++++++++++++++++
 1 file changed, 65 insertions(+)
 create mode 100644 scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
new file mode 100644
index 0000000000..b8863a4dab
--- /dev/null
+++ b/scalding-core/src/main/scala/com/twitter/scalding/LibJarsExpansion.scala
@@ -0,0 +1,65 @@
+/*
+Copyright 2014 Twitter, Inc.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+package com.twitter.scalding
+
+import java.io.File
+import java.nio.file.Path
+
+object ExpandLibJarsGlobs {
+  def apply(inputArgs: Array[String]): Array[String] = {
+    // First we are going to expand out the libjars if we find it
+    val libJarsIdx = inputArgs.indexOf("-libjars") + 1
+    if (libJarsIdx > 0 && libJarsIdx < inputArgs.length) { // 0 would mean we never found -libjars
+      val newArgs = new Array[String](inputArgs.length)
+      System.arraycopy(inputArgs, 0, newArgs, 0, inputArgs.length)
+
+      val existing = newArgs(libJarsIdx)
+      val replacement = existing.split(",").flatMap { element =>
+        fromGlob(element).map(_.toString)
+      }.mkString(",")
+
+      newArgs(libJarsIdx) = replacement
+      newArgs
+    } else inputArgs
+  }
+
+  //tree from Duncan McGregor @ http://stackoverflow.com/questions/2637643/how-do-i-list-all-files-in-a-subdirectory-in-scala
+  private[this] def tree(root: File, skipHidden: Boolean = false): Stream[File] =
+    if (!root.exists || (skipHidden && root.isHidden)) Stream.empty
+    else root #:: (
+      root.listFiles match {
+        case null => Stream.empty
+        case files => files.toStream.flatMap(tree(_, skipHidden))
+      })
+
+  def fromGlob(glob: String, filesOnly: Boolean = true): Stream[Path] = {
+    import java.nio._
+    import java.nio.file._
+    val fs = FileSystems.getDefault()
+    val expandedSlash = if (glob.endsWith("/")) s"${glob}/*" else glob
+    val absoluteGlob = fs.getPath(expandedSlash).toAbsolutePath
+    val matcher: PathMatcher = fs.getPathMatcher(s"glob:$absoluteGlob")
+
+    val parentPath =
+      if (absoluteGlob.getFileName.toString.contains("*")) absoluteGlob.getParent else absoluteGlob
+
+    val pathStream = tree(parentPath.toFile).map(_.toPath)
+
+    val globMatchingPaths = pathStream.filter(matcher.matches)
+
+    if (filesOnly) globMatchingPaths.filter(_.toFile.isFile) else globMatchingPaths
+  }
+}
\ No newline at end of file

From 81f6ac17c4d3906493ac1a8581055c68d537c682 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 21 Apr 2016 10:26:53 -0700
Subject: [PATCH 25/72] [cascading3] Remove duplicate files from earlier
 develop merge

---
 .../thrift/TestParquetTBaseScheme.java        | 168 ------------------
 .../parquet/tuple/TestParquetTupleScheme.java | 165 -----------------
 scalding-parquet/src/test/resources/names.txt |   3 -
 3 files changed, 336 deletions(-)
 delete mode 100644 scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
 delete mode 100644 scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
 delete mode 100644 scalding-parquet/src/test/resources/names.txt

diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
deleted file mode 100644
index 5d4a2fb898..0000000000
--- a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/thrift/TestParquetTBaseScheme.java
+++ /dev/null
@@ -1,168 +0,0 @@
-package com.twitter.scalding.parquet.thrift;
-
-import com.twitter.scalding.parquet.thrift_java.test.Name;
-
-import cascading.flow.Flow;
-import cascading.flow.FlowProcess;
-import cascading.flow.hadoop.HadoopFlowConnector;
-import cascading.operation.BaseOperation;
-import cascading.operation.Function;
-import cascading.operation.FunctionCall;
-import cascading.pipe.Each;
-import cascading.pipe.Pipe;
-import cascading.scheme.Scheme;
-import cascading.scheme.hadoop.TextLine;
-import cascading.tap.Tap;
-import cascading.tap.hadoop.Hfs;
-import cascading.tuple.Fields;
-import cascading.tuple.Tuple;
-import cascading.tuple.TupleEntry;
-
-import org.apache.commons.io.FileUtils;
-import org.apache.hadoop.conf.Configuration;
-import org.apache.hadoop.fs.FileSystem;
-import org.apache.hadoop.fs.Path;
-import org.apache.hadoop.io.BytesWritable;
-import org.apache.hadoop.mapred.JobConf;
-import org.apache.hadoop.mapreduce.TaskAttemptID;
-import org.apache.thrift.protocol.TCompactProtocol;
-import org.apache.thrift.protocol.TProtocol;
-import org.apache.thrift.protocol.TProtocolFactory;
-import org.apache.thrift.transport.TIOStreamTransport;
-import org.junit.Test;
-import static org.junit.Assert.*;
-
-import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
-import org.apache.parquet.hadoop.util.ContextUtil;
-
-import java.io.File;
-import java.io.ByteArrayOutputStream;
-import java.util.HashMap;
-import java.util.Map;
-
-public class TestParquetTBaseScheme {
-  final String txtInputPath = "src/test/resources/names.txt";
-  final String parquetInputPath = "target/test/ParquetTBaseScheme/names-parquet-in";
-  final String parquetOutputPath = "target/test/ParquetTBaseScheme/names-parquet-out";
-  final String txtOutputPath = "target/test/ParquetTBaseScheme/names-txt-out";
-
-  @Test
-  public void testWrite() throws Exception {
-    Path path = new Path(parquetOutputPath);
-    JobConf jobConf = new JobConf();
-    final FileSystem fs = path.getFileSystem(jobConf);
-    if (fs.exists(path)) fs.delete(path, true);
-
-    Scheme sourceScheme = new TextLine( new Fields( "first", "last" ) );
-    Tap source = new Hfs(sourceScheme, txtInputPath);
-
-    Scheme sinkScheme = new ParquetTBaseScheme(Name.class);
-    Tap sink = new Hfs(sinkScheme, parquetOutputPath);
-
-    Pipe assembly = new Pipe( "namecp" );
-    assembly = new Each(assembly, new PackThriftFunction());
-    HadoopFlowConnector hadoopFlowConnector = new HadoopFlowConnector();
-    Flow flow  = hadoopFlowConnector.connect("namecp", source, sink, assembly);
-
-    flow.complete();
-
-    assertTrue(fs.exists(new Path(parquetOutputPath)));
-    assertTrue(fs.exists(new Path(parquetOutputPath + "/_metadata")));
-    assertTrue(fs.exists(new Path(parquetOutputPath + "/_common_metadata")));
-  }
-
-  @Test
-  public void testRead() throws Exception {
-    doRead(new ParquetTBaseScheme(Name.class));
-  }
-
-  @Test
-  public void testReadWithoutClass() throws Exception {
-    doRead(new ParquetTBaseScheme());
-  }
-
-  private void doRead(Scheme sourceScheme) throws Exception {
-    createFileForRead();
-
-    Path path = new Path(txtOutputPath);
-    final FileSystem fs = path.getFileSystem(new Configuration());
-    if (fs.exists(path)) fs.delete(path, true);
-
-    Tap source = new Hfs(sourceScheme, parquetInputPath);
-
-    Scheme sinkScheme = new TextLine(new Fields("first", "last"));
-    Tap sink = new Hfs(sinkScheme, txtOutputPath);
-
-    Pipe assembly = new Pipe( "namecp" );
-    assembly = new Each(assembly, new UnpackThriftFunction());
-    Flow flow  = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
-
-    flow.complete();
-    String result = FileUtils.readFileToString(new File(txtOutputPath+"/part-00000"));
-    assertEquals("Alice\tPractice\nBob\tHope\nCharlie\tHorse\n", result);
-  }
-
-
-  private void createFileForRead() throws Exception {
-    final Path fileToCreate = new Path(parquetInputPath+"/names.parquet");
-
-    final Configuration conf = new Configuration();
-    final FileSystem fs = fileToCreate.getFileSystem(conf);
-    if (fs.exists(fileToCreate)) fs.delete(fileToCreate, true);
-
-    TProtocolFactory protocolFactory = new TCompactProtocol.Factory();
-    TaskAttemptID taskId = new TaskAttemptID("local", 0, true, 0, 0);
-    ThriftToParquetFileWriter w = new ThriftToParquetFileWriter(fileToCreate, ContextUtil.newTaskAttemptContext(conf, taskId), protocolFactory, Name.class);
-
-    final ByteArrayOutputStream baos = new ByteArrayOutputStream();
-    final TProtocol protocol = protocolFactory.getProtocol(new TIOStreamTransport(baos));
-
-    Name n1 = new Name();
-    n1.setFirst_name("Alice");
-    n1.setLast_name("Practice");
-    Name n2 = new Name();
-    n2.setFirst_name("Bob");
-    n2.setLast_name("Hope");
-    Name n3 = new Name();
-    n3.setFirst_name("Charlie");
-    n3.setLast_name("Horse");
-
-    n1.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    baos.reset();
-    n2.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    baos.reset();
-    n3.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    w.close();
-  }
-
-  private static class PackThriftFunction extends BaseOperation implements Function {
-    @Override
-    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
-      TupleEntry arguments = functionCall.getArguments();
-      Tuple result = new Tuple();
-
-      Name name = new Name();
-      name.setFirst_name(arguments.getString(0));
-      name.setLast_name(arguments.getString(1));
-
-      result.add(name);
-      functionCall.getOutputCollector().add(result);
-    }
-  }
-
-  private static class UnpackThriftFunction extends BaseOperation implements Function {
-    @Override
-    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
-      TupleEntry arguments = functionCall.getArguments();
-      Tuple result = new Tuple();
-
-      Name name = (Name) arguments.get(0);
-      result.add(name.getFirst_name());
-      result.add(name.getLast_name());
-      functionCall.getOutputCollector().add(result);
-    }
-  }
-}
diff --git a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java b/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
deleted file mode 100644
index b6300a7857..0000000000
--- a/scalding-parquet/src/test/java/com/twitter/scalding/parquet/tuple/TestParquetTupleScheme.java
+++ /dev/null
@@ -1,165 +0,0 @@
-package com.twitter.scalding.parquet.tuple;
-
-import com.twitter.scalding.parquet.thrift_java.test.Name;
-
-import cascading.flow.Flow;
-import cascading.flow.FlowProcess;
-import cascading.flow.hadoop.HadoopFlowConnector;
-import cascading.operation.BaseOperation;
-import cascading.operation.Function;
-import cascading.operation.FunctionCall;
-import cascading.pipe.Each;
-import cascading.pipe.Pipe;
-import cascading.scheme.Scheme;
-import cascading.scheme.hadoop.TextLine;
-import cascading.tap.Tap;
-import cascading.tap.hadoop.Hfs;
-import cascading.tuple.Fields;
-import cascading.tuple.Tuple;
-import cascading.tuple.TupleEntry;
-import org.apache.commons.io.FileUtils;
-import org.apache.hadoop.conf.Configuration;
-import org.apache.hadoop.fs.FileSystem;
-import org.apache.hadoop.fs.Path;
-import org.apache.hadoop.io.BytesWritable;
-import org.apache.hadoop.mapreduce.TaskAttemptContext;
-import org.apache.hadoop.mapreduce.TaskAttemptID;
-import org.apache.thrift.protocol.TCompactProtocol;
-import org.apache.thrift.protocol.TProtocol;
-import org.apache.thrift.protocol.TProtocolFactory;
-import org.apache.thrift.transport.TIOStreamTransport;
-import org.junit.Test;
-import org.apache.parquet.hadoop.thrift.ThriftToParquetFileWriter;
-import org.apache.parquet.hadoop.util.ContextUtil;
-
-import java.io.ByteArrayOutputStream;
-import java.io.File;
-
-import static org.junit.Assert.assertEquals;
-
-public class TestParquetTupleScheme {
-  final String parquetInputPath = "target/test/ParquetTupleIn/names-parquet-in";
-  final String txtOutputPath = "target/test/ParquetTupleOut/names-txt-out";
-
-  @Test
-  public void testReadPattern() throws Exception {
-    String sourceFolder = parquetInputPath;
-    testReadWrite(sourceFolder);
-
-    String sourceGlobPattern = parquetInputPath + "/*";
-    testReadWrite(sourceGlobPattern);
-
-    String multiLevelGlobPattern = "target/test/ParquetTupleIn/**/*";
-    testReadWrite(multiLevelGlobPattern);
-  }
-
-  @Test
-  public void testFieldProjection() throws Exception {
-    createFileForRead();
-
-    Path path = new Path(txtOutputPath);
-    final FileSystem fs = path.getFileSystem(new Configuration());
-    if (fs.exists(path)) fs.delete(path, true);
-
-    Scheme sourceScheme = new ParquetTupleScheme(new Fields("last_name"));
-    Tap source = new Hfs(sourceScheme, parquetInputPath);
-
-    Scheme sinkScheme = new TextLine(new Fields("last_name"));
-    Tap sink = new Hfs(sinkScheme, txtOutputPath);
-
-    Pipe assembly = new Pipe("namecp");
-    assembly = new Each(assembly, new ProjectedTupleFunction());
-    Flow flow = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
-
-    flow.complete();
-    String result = FileUtils.readFileToString(new File(txtOutputPath + "/part-00000"));
-    assertEquals("Practice\nHope\nHorse\n", result);
-  }
-
-  public void testReadWrite(String inputPath) throws Exception {
-    createFileForRead();
-
-    Path path = new Path(txtOutputPath);
-    final FileSystem fs = path.getFileSystem(new Configuration());
-    if (fs.exists(path)) fs.delete(path, true);
-
-    Scheme sourceScheme = new ParquetTupleScheme(new Fields("first_name", "last_name"));
-    Tap source = new Hfs(sourceScheme, inputPath);
-
-    Scheme sinkScheme = new TextLine(new Fields("first", "last"));
-    Tap sink = new Hfs(sinkScheme, txtOutputPath);
-
-    Pipe assembly = new Pipe("namecp");
-    assembly = new Each(assembly, new UnpackTupleFunction());
-    Flow flow = new HadoopFlowConnector().connect("namecp", source, sink, assembly);
-
-    flow.complete();
-    String result = FileUtils.readFileToString(new File(txtOutputPath + "/part-00000"));
-    assertEquals("Alice\tPractice\nBob\tHope\nCharlie\tHorse\n", result);
-  }
-
-  private void createFileForRead() throws Exception {
-    final Path fileToCreate = new Path(parquetInputPath + "/names.parquet");
-
-    final Configuration conf = new Configuration();
-    final FileSystem fs = fileToCreate.getFileSystem(conf);
-    if (fs.exists(fileToCreate)) fs.delete(fileToCreate, true);
-
-    TProtocolFactory protocolFactory = new TCompactProtocol.Factory();
-    TaskAttemptID taskId = new TaskAttemptID("local", 0, true, 0, 0);
-    ThriftToParquetFileWriter w = new ThriftToParquetFileWriter(fileToCreate, ContextUtil.newTaskAttemptContext(conf, taskId), protocolFactory, Name.class);
-
-    final ByteArrayOutputStream baos = new ByteArrayOutputStream();
-    final TProtocol protocol = protocolFactory.getProtocol(new TIOStreamTransport(baos));
-
-    Name n1 = new Name();
-    n1.setFirst_name("Alice");
-    n1.setLast_name("Practice");
-    Name n2 = new Name();
-    n2.setFirst_name("Bob");
-    n2.setLast_name("Hope");
-    Name n3 = new Name();
-    n3.setFirst_name("Charlie");
-    n3.setLast_name("Horse");
-
-    n1.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    baos.reset();
-    n2.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    baos.reset();
-    n3.write(protocol);
-    w.write(new BytesWritable(baos.toByteArray()));
-    w.close();
-  }
-
-  private static class UnpackTupleFunction extends BaseOperation implements Function {
-    @Override
-    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
-      TupleEntry arguments = functionCall.getArguments();
-      Tuple result = new Tuple();
-
-      Tuple name = new Tuple();
-      name.addString(arguments.getString(0));
-      name.addString(arguments.getString(1));
-
-      result.add(name);
-      functionCall.getOutputCollector().add(result);
-    }
-  }
-
-  private static class ProjectedTupleFunction extends BaseOperation implements Function {
-    @Override
-    public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
-      TupleEntry arguments = functionCall.getArguments();
-      Tuple result = new Tuple();
-
-      Tuple name = new Tuple();
-      name.addString(arguments.getString(0));
-//      name.addString(arguments.getString(1));
-
-      result.add(name);
-      functionCall.getOutputCollector().add(result);
-    }
-  }
-}
diff --git a/scalding-parquet/src/test/resources/names.txt b/scalding-parquet/src/test/resources/names.txt
deleted file mode 100644
index e2d0408c8f..0000000000
--- a/scalding-parquet/src/test/resources/names.txt
+++ /dev/null
@@ -1,3 +0,0 @@
-Alice	Practive
-Bob	Hope
-Charlie	Horse

From 4554b066744293cc0cd3581363d36cb38bd783b5 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Mon, 25 Apr 2016 09:18:10 -0700
Subject: [PATCH 26/72] [cascading3] Fix merge conflict in PlatformTest

---
 .../scala/com/twitter/scalding/platform/PlatformTest.scala    | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 968bc8203a..549f41c2de 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -555,7 +555,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val firstStepDescs = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
           val firstStepDescSet = firstStepDescs.split(",").map(_.trim).toSet
 
-          val expected = Set(180, 183, 187, 182, 186).map(linenum => /* WARNING: keep aligned with line numbers above */
+          val expected = Set(188, 190, 191, 194, 195).map(linenum => /* WARNING: keep aligned with line numbers above */
             s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:${linenum})") ++ Seq("leftJoin", "hashJoin")
           firstStepDescSet should equal(expected)
           steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
@@ -687,7 +687,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val expectedDescs = Set("map stage - assign words to 1",
             "reduce stage - sum",
             "write") ++
-            Seq(169, 170, 172, 173, 174).map( /* WARNING: keep aligned with line numbers above */
+            Seq(175, 176, 178, 179, 180).map( /* WARNING: keep aligned with line numbers above */
               linenum => s"com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:${linenum})")
 
           val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions).split(",").map(_.trim).toSet)

From 22266bb0102dd7f96e62da3d25b69c3031b2dfe7 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Mon, 25 Apr 2016 11:53:32 -0700
Subject: [PATCH 27/72] [cascading3] Bump cascading jdbc to 3

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index 5bb198cefa..3629223a7f 100644
--- a/build.sbt
+++ b/build.sbt
@@ -307,7 +307,7 @@ lazy val elephantbirdCascadingArtifact = cascadingVersion.split('.').head match
 }
 
 lazy val cascadingJDBCVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "2.6.0")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")
 
 lazy val scaldingBenchmarks = module("benchmarks").settings(
   libraryDependencies ++= Seq(

From a764128ae5d12614579dddf47f48ad93c2050a28 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Mon, 25 Apr 2016 13:41:35 -0700
Subject: [PATCH 28/72] [cascading3] Drop deprecated TableDesc constructor
 usage

---
 .../main/scala/com/twitter/scalding/jdbc/JDBCDriver.scala    | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/scalding-jdbc/src/main/scala/com/twitter/scalding/jdbc/JDBCDriver.scala b/scalding-jdbc/src/main/scala/com/twitter/scalding/jdbc/JDBCDriver.scala
index 3d9b4f70fc..243a2128aa 100644
--- a/scalding-jdbc/src/main/scala/com/twitter/scalding/jdbc/JDBCDriver.scala
+++ b/scalding-jdbc/src/main/scala/com/twitter/scalding/jdbc/JDBCDriver.scala
@@ -10,7 +10,7 @@ trait JdbcDriver {
     tableName: TableName,
     columnNames: Array[ColumnName],
     columnDefinitions: Array[Definition]) =
-    new TableDesc(tableName.get, columnNames.map(_.get), columnDefinitions.map(_.get), null, null)
+    new TableDesc(tableName.get, columnNames.map(_.get), columnDefinitions.map(_.get), null)
   def getJDBCScheme(
     columnNames: Array[ColumnName],
     filterCondition: Option[String],
@@ -37,8 +37,7 @@ trait MysqlDriver extends JdbcDriver with MysqlTableCreationImplicits {
       tableName.get,
       columnNames.map(_.get),
       columnDefinitions.map(_.get),
-      null,
-      "SHOW TABLES LIKE '%s'")
+      null)
   override def getJDBCScheme(
     columnNames: Array[ColumnName],
     filterCondition: Option[String],

From 9cd14b0932283d5a3039ca10b9de52b725033096 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 5 May 2016 13:53:37 -0700
Subject: [PATCH 29/72] [cascading3] merge with hashjoin fix take 1

---
 .../scala/com/twitter/scalding/RichPipe.scala |  84 +++++++++++--
 .../twitter/scalding/typed/HashJoinable.scala |   7 +-
 .../twitter/scalding/typed/TypedPipe.scala    |  12 +-
 .../scalding/platform/PlatformTest.scala      | 118 +++++++++++++++---
 4 files changed, 187 insertions(+), 34 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index fcc83994ae..cae35a56f3 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -27,6 +27,9 @@ import scala.util.Random
 import java.util.concurrent.atomic.AtomicInteger
 import scala.collection.immutable.Queue
 
+private[scalding] case class RenamedPipe(newName: String, pipe: Pipe)
+  extends Pipe(newName, pipe)
+
 object RichPipe extends java.io.Serializable {
   private val nextPipe = new AtomicInteger(-1)
 
@@ -36,7 +39,7 @@ object RichPipe extends java.io.Serializable {
 
   def getNextName: String = "_pipe_" + nextPipe.incrementAndGet.toString
 
-  def assignName(p: Pipe) = new Pipe(getNextName, p)
+  def assignName(p: Pipe): Pipe = RenamedPipe(getNextName, p)
 
   private val REDUCER_KEY = "mapred.reduce.tasks"
   /**
@@ -95,6 +98,61 @@ object RichPipe extends java.io.Serializable {
     p
   }
 
+  def getPreviousPipe(p: Pipe): Option[Pipe] = {
+    if (p.getPrevious != null && p.getPrevious.length == 1) p.getPrevious.headOption
+    else None
+  }
+
+  /*
+   * If p1 represents a hashjoin, this method checks if
+   * p2 is one of the two sides in that hashjoin.
+   */
+  def isHashJoinedWithPipe(p1: Pipe, p2: Pipe): Boolean = {
+    // gets the HashJoin if present up the Each chain
+    @annotation.tailrec
+    def getHashJoinableFrom(pipe: Each): Option[HashJoin] =
+      getPreviousPipe(pipe) match {
+        case Some(p: HashJoin) => Some(p)
+        case Some(p: Each) => getHashJoinableFrom(p)
+        case _ => None
+      }
+
+    // collects all Eachs ending with a non-Each
+    @annotation.tailrec
+    def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] = {
+      p match {
+        case each @ (_: Each | _: RenamedPipe) => getChainOfEachs(getPreviousPipe(each).get, collect :+ each)
+        case other => collect :+ other
+      }
+    }
+
+    def getJoinedPipeSet(p: HashJoin): Set[Pipe] =
+      p.getPrevious match {
+        case a @ Array(_, _) =>
+          a.flatMap { p => getChainOfEachs(p) }.toSet
+        case other =>
+          throw new IllegalStateException(s"More than two sides found in cascading's HashJoin pipe: $other")
+      }
+
+    p1 match {
+      case hj: HashJoin =>
+        val result = getJoinedPipeSet(hj).contains(p2)
+        result
+      case m: Merge =>
+        m.getPrevious.exists { p => isHashJoinedWithPipe(p, p2) }
+      case e: Each =>
+        getHashJoinableFrom(e) match {
+          case Some(hj) =>
+            isHashJoinedWithPipe(hj, p2)
+          case None =>
+            false
+        }
+      case r: RenamedPipe =>
+        isHashJoinedWithPipe(getPreviousPipe(r).get, p2)
+      case _ =>
+        false
+    }
+  }
 }
 
 /**
@@ -106,6 +164,7 @@ class RichPipe(val pipe: Pipe) extends java.io.Serializable with JoinAlgorithms
   // We need this for the implicits
   import Dsl._
   import RichPipe.assignName
+  import RichPipe.isHashJoinedWithPipe
 
   /**
    * Rename the current pipe
@@ -210,15 +269,22 @@ class RichPipe(val pipe: Pipe) extends java.io.Serializable with JoinAlgorithms
   /**
    * Merge or Concatenate several pipes together with this one:
    */
-  def ++(that: Pipe): Pipe = {
-    if (this.pipe == that) {
-      // Cascading fails on self merge:
-      // solution by Jack Guo
-      new Merge(assignName(this.pipe), assignName(new Each(that, new Identity)))
-    } else {
-      new Merge(assignName(this.pipe), assignName(that))
+  def ++(that: Pipe): Pipe =
+    (this.pipe, that) match {
+      case (a, b) if a == b =>
+        // Cascading fails on self merge:
+        // solution by Jack Guo
+        new Merge(assignName(a), assignName(new Each(b, new Identity)))
+      // special handling for cases where one side of the hashjoin is merged
+      // with the hashjoin result. Cascading no longer allows it,
+      // so we add a checkpoint to the join result as a workaround
+      case (a, b) if isHashJoinedWithPipe(a, b) =>
+        new Merge(assignName(new Checkpoint(a)), assignName(b))
+      case (a, b) if isHashJoinedWithPipe(b, a) =>
+        new Merge(assignName(a), assignName(new Checkpoint(b)))
+      case (a, b) =>
+        new Merge(assignName(a), assignName(b))
     }
-  }
 
   /**
    * Group all tuples down to one reducer.
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
index ad04381cb1..e774206526 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
@@ -88,7 +88,7 @@ trait HashJoinable[K, +V] extends CoGroupable[K, V] with KeyedPipe[K] {
       case eachPipe: Each =>
         if (canSkipEachOperation(eachPipe.getOperation, mode)) {
           //need to recurse down to see if parent pipe is ok
-          getPreviousPipe(eachPipe).exists(prevPipe => isSafeToSkipForceToDisk(prevPipe, mode))
+          RichPipe.getPreviousPipe(eachPipe).exists(prevPipe => isSafeToSkipForceToDisk(prevPipe, mode))
         } else false
       case _: Checkpoint => true
       case _: GroupBy => true
@@ -130,11 +130,6 @@ trait HashJoinable[K, +V] extends CoGroupable[K, V] with KeyedPipe[K] {
     }
   }
 
-  private def getPreviousPipe(p: Pipe): Option[Pipe] = {
-    if (p.getPrevious != null && p.getPrevious.length == 1) p.getPrevious.headOption
-    else None
-  }
-
   /**
    * Return true if a pipe is a source Pipe (has no parents / previous) and isn't a
    * Splice.
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
index 8296a2a77a..588b0db04e 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
@@ -19,7 +19,7 @@ import java.io.{ OutputStream, InputStream, Serializable }
 import java.util.Random
 
 import cascading.flow.FlowDef
-import cascading.pipe.{ Each, Pipe }
+import cascading.pipe.{ Checkpoint, Each, Pipe, Merge }
 import cascading.tap.Tap
 import cascading.tuple.{ Fields, TupleEntry }
 import com.twitter.algebird.{ Aggregator, Monoid, Semigroup }
@@ -1088,7 +1088,15 @@ final case class MergedTypedPipe[T](left: TypedPipe[T], right: TypedPipe[T]) ext
       // there is no actual merging here, no need to rename:
       merged.head
     } else {
-      new cascading.pipe.Merge(merged.map(RichPipe.assignName): _*)
+      merged.reduce[Pipe] {
+        case (left, right) =>
+          if (RichPipe.isHashJoinedWithPipe(left, right))
+            new Merge(RichPipe.assignName(new Checkpoint(left)), RichPipe.assignName(right))
+          else if (RichPipe.isHashJoinedWithPipe(right, left))
+            new Merge(RichPipe.assignName(left), RichPipe.assignName(new Checkpoint(right)))
+          else
+            new Merge(RichPipe.assignName(left), RichPipe.assignName(right))
+      }
     }
   }
 
diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 549f41c2de..b10b4e2151 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -66,7 +66,7 @@ class TinyJoinAndMergeJob(args: Args) extends Job(args) {
   (mergerData ++ joinedData).groupBy('id) { _.size('count) }.write(output)
 }
 
-class TinyJoinAndMergeUnsupportedJob(args: Args) extends Job(args) {
+class TinyJoinAndSelfMergeJob(args: Args) extends Job(args) {
   import TinyJoinAndMergeJob._
 
   val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
@@ -74,13 +74,17 @@ class TinyJoinAndMergeUnsupportedJob(args: Args) extends Job(args) {
   val joined = joinInput2.read
     .mapTo(0 -> 'id) { v: Int => v }
     .joinWithTiny('id -> 'id, input1)
+    .flatMapTo('id -> 'id) { v: Int => Some(v) } // test Each traversal
 
   // merging the output of a hashjoin with one of its inputs is
-  // no longer supported in cascading3. So we verify we fail here.
+  // no longer supported in cascading3.
+  // scalding should put in a explicit checkpoint
+  // and this should pass
   (joined ++ input1).groupBy('id) { _.size('count) }.write(output)
 }
 
-class TinyJoinAndMergeForceToDiskJob(args: Args) extends Job(args) {
+// same as TinyJoinAndSelfMergeJob, but with ++ merge operation order swapped
+class TinyJoinAndSelfMergeJob2(args: Args) extends Job(args) {
   import TinyJoinAndMergeJob._
 
   val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
@@ -88,12 +92,45 @@ class TinyJoinAndMergeForceToDiskJob(args: Args) extends Job(args) {
   val joined = joinInput2.read
     .mapTo(0 -> 'id) { v: Int => v }
     .joinWithTiny('id -> 'id, input1)
-    .forceToDisk // workaround for cascading3
+    .flatMapTo('id -> 'id) { v: Int => Some(v) } // test Each traversal
+
+  // merging the output of a hashjoin with one of its inputs is
+  // no longer supported in cascading3.
+  // scalding should put in a explicit checkpoint
+  // and this should pass
+  (input1 ++ joined).groupBy('id) { _.size('count) }.write(output)
+}
+
+class TinyJoinAndSelfMergeForceToDiskJob(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
+
+  val joined = joinInput2.read
+    .mapTo(0 -> 'id) { v: Int => v }
+    .joinWithTiny('id -> 'id, input1)
+    .forceToDisk
+  // user supplied forceToDisk in addition to the one scalding
+  // adds under the hood
 
-  // this should work with the forceToDisk workaround
   (joined ++ input1).groupBy('id) { _.size('count) }.write(output)
 }
 
+// same as TinyJoinAndSelfMergeJob, but using typed api
+class TinyJoinAndSelfMergeJobTyped(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = TypedPipe.from(joinInput1)
+
+  val joined = TypedPipe.from(joinInput2)
+    .asKeys
+    .hashJoin(input1.asKeys)
+    .keys
+    .forceToDisk // TODO: fix
+
+  (joined ++ input1).asKeys.size.map { case (k, v) => (k, v.toInt) }.write(output)
+}
+
 object TsvNoCacheJob {
   val dataInput = TypedTsv[String]("fakeInput")
   val data = List("-0.2f -0.3f -0.5f", "-0.1f", "-0.5f")
@@ -473,32 +510,79 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
         .source(joinInput2, joinData2)
         .source(mergerInput, mergerData)
         .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 1
+        }
         .run
     }
   }
 
-  "A TinyJoinAndMergeUnsupportedJob" should {
+  "A TinyJoinAndSelfMergeJob" should {
     import TinyJoinAndMergeJob._
 
-    "fail without the forceToDisk workaround" in {
-      an[cascading.flow.planner.PlannerException] should be thrownBy {
-        HadoopPlatformJobTest(new TinyJoinAndMergeUnsupportedJob(_), cluster)
-          .source(joinInput1, joinData1)
-          .source(joinInput2, joinData2)
-          .sink(output) { _.toSet shouldBe (outputData.toSet) }
-          .run
-      }
+    "work correctly without explicit forceToDisk " in {
+      HadoopPlatformJobTest(new TinyJoinAndSelfMergeJob(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _ => () } //_.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 2
+          // two steps given we auto checkpoint before the merge
+        }
+        .run
     }
   }
 
-  "A TinyJoinAndMergeForceToDiskJob" should {
+  "A TinyJoinAndSelfMergeJob2" should {
     import TinyJoinAndMergeJob._
 
-    "run correctly with forceToDisk workaround" in {
-      HadoopPlatformJobTest(new TinyJoinAndMergeForceToDiskJob(_), cluster)
+    "work correctly without explicit forceToDisk " in {
+      HadoopPlatformJobTest(new TinyJoinAndSelfMergeJob2(_), cluster)
         .source(joinInput1, joinData1)
         .source(joinInput2, joinData2)
         .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 2
+          // two steps given we auto checkpoint before the merge
+        }
+        .run
+    }
+  }
+
+  "A TinyJoinAndSelfMergeForceToDiskJob" should {
+    import TinyJoinAndMergeJob._
+
+    "run correctly with explicit forceToDisk" in {
+      HadoopPlatformJobTest(new TinyJoinAndSelfMergeForceToDiskJob(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 2
+          // two steps given we auto checkpoint before the merge
+          // user supplied forceToDisk should not add a third step
+        }
+        .run
+    }
+  }
+
+  "A TinyJoinAndSelfMergeJobTyped" should {
+    import TinyJoinAndMergeJob._
+
+    "work correctly without explicit forceToDisk " in {
+      HadoopPlatformJobTest(new TinyJoinAndSelfMergeJobTyped(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 2
+          // two steps given we auto checkpoint before the merge
+        }
         .run
     }
   }

From 749b626cee7ca19af0839dffd97b83e58f5506bb Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 5 May 2016 15:11:54 -0700
Subject: [PATCH 30/72] [cacading3] undo RenamedPipe usage

---
 .../scala/com/twitter/scalding/RichPipe.scala     | 15 ++++++---------
 1 file changed, 6 insertions(+), 9 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index cae35a56f3..f16b5f4e1d 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -27,9 +27,6 @@ import scala.util.Random
 import java.util.concurrent.atomic.AtomicInteger
 import scala.collection.immutable.Queue
 
-private[scalding] case class RenamedPipe(newName: String, pipe: Pipe)
-  extends Pipe(newName, pipe)
-
 object RichPipe extends java.io.Serializable {
   private val nextPipe = new AtomicInteger(-1)
 
@@ -39,7 +36,7 @@ object RichPipe extends java.io.Serializable {
 
   def getNextName: String = "_pipe_" + nextPipe.incrementAndGet.toString
 
-  def assignName(p: Pipe): Pipe = RenamedPipe(getNextName, p)
+  def assignName(p: Pipe): Pipe = new Pipe(getNextName, p)
 
   private val REDUCER_KEY = "mapred.reduce.tasks"
   /**
@@ -121,7 +118,7 @@ object RichPipe extends java.io.Serializable {
     @annotation.tailrec
     def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] = {
       p match {
-        case each @ (_: Each | _: RenamedPipe) => getChainOfEachs(getPreviousPipe(each).get, collect :+ each)
+        case each: Each => getChainOfEachs(getPreviousPipe(each).get, collect :+ each)
         case other => collect :+ other
       }
     }
@@ -129,7 +126,9 @@ object RichPipe extends java.io.Serializable {
     def getJoinedPipeSet(p: HashJoin): Set[Pipe] =
       p.getPrevious match {
         case a @ Array(_, _) =>
-          a.flatMap { p => getChainOfEachs(p) }.toSet
+          a.map(getPreviousPipe(_).get)
+            .flatMap { p => getChainOfEachs(p) }
+            .toSet
         case other =>
           throw new IllegalStateException(s"More than two sides found in cascading's HashJoin pipe: $other")
       }
@@ -139,7 +138,7 @@ object RichPipe extends java.io.Serializable {
         val result = getJoinedPipeSet(hj).contains(p2)
         result
       case m: Merge =>
-        m.getPrevious.exists { p => isHashJoinedWithPipe(p, p2) }
+        m.getPrevious.exists { p => isHashJoinedWithPipe(getPreviousPipe(p).get, p2) }
       case e: Each =>
         getHashJoinableFrom(e) match {
           case Some(hj) =>
@@ -147,8 +146,6 @@ object RichPipe extends java.io.Serializable {
           case None =>
             false
         }
-      case r: RenamedPipe =>
-        isHashJoinedWithPipe(getPreviousPipe(r).get, p2)
       case _ =>
         false
     }

From ca184e27115cfd49516cffdc86a8ed1285feb89b Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 6 May 2016 13:04:52 -0700
Subject: [PATCH 31/72] [cascading3] merge with hasjoin fixes, tests

---
 .../scala/com/twitter/scalding/RichPipe.scala | 59 +++++++++++--------
 .../twitter/scalding/typed/HashJoinable.scala | 12 +---
 .../twitter/scalding/typed/TypedPipe.scala    |  3 +
 .../scalding/platform/PlatformTest.scala      | 40 ++++++++++++-
 4 files changed, 74 insertions(+), 40 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index f16b5f4e1d..1eccf62e5b 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -95,6 +95,16 @@ object RichPipe extends java.io.Serializable {
     p
   }
 
+  /**
+   * Return true if a pipe is a source Pipe (has no parents / previous) and isn't a
+   * Splice.
+   */
+  def isSourcePipe(pipe: Pipe): Boolean = {
+    pipe.getParent == null &&
+      (pipe.getPrevious == null || pipe.getPrevious.isEmpty) &&
+      (!pipe.isInstanceOf[Splice])
+  }
+
   def getPreviousPipe(p: Pipe): Option[Pipe] = {
     if (p.getPrevious != null && p.getPrevious.length == 1) p.getPrevious.headOption
     else None
@@ -105,48 +115,45 @@ object RichPipe extends java.io.Serializable {
    * p2 is one of the two sides in that hashjoin.
    */
   def isHashJoinedWithPipe(p1: Pipe, p2: Pipe): Boolean = {
-    // gets the HashJoin if present up the Each chain
-    @annotation.tailrec
-    def getHashJoinableFrom(pipe: Each): Option[HashJoin] =
-      getPreviousPipe(pipe) match {
-        case Some(p: HashJoin) => Some(p)
-        case Some(p: Each) => getHashJoinableFrom(p)
-        case _ => None
-      }
-
     // collects all Eachs ending with a non-Each
     @annotation.tailrec
-    def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] = {
+    def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] =
       p match {
-        case each: Each => getChainOfEachs(getPreviousPipe(each).get, collect :+ each)
-        case other => collect :+ other
+        case p if isSourcePipe(p) =>
+          collect :+ p
+        case each: Each =>
+          getChainOfEachs(each.getPrevious.head, collect :+ each)
+        // we don't use a special Pipe subtype for the assignName method
+        // and we can't. all Pipe types need to be defined in cascading
+        // because cascading assumes it knows all the Pipe subtypes
+        // and fails to match any others (think of it as a sealed trait)
+        // So we handle all special types before checking for the assignName case
+        case other @ (_: Checkpoint | _: Operator | _: Splice | _: SubAssembly) =>
+          collect :+ other
+        case renamedPipe: Pipe =>
+          // this is the assignName case
+          getChainOfEachs(renamedPipe.getPrevious.head, collect :+ renamedPipe)
       }
-    }
 
     def getJoinedPipeSet(p: HashJoin): Set[Pipe] =
       p.getPrevious match {
         case a @ Array(_, _) =>
-          a.map(getPreviousPipe(_).get)
-            .flatMap { p => getChainOfEachs(p) }
-            .toSet
+          // collect nodes up the left and right sides
+          a.flatMap { p => getChainOfEachs(p) }.toSet
         case other =>
           throw new IllegalStateException(s"More than two sides found in cascading's HashJoin pipe: $other")
       }
 
     p1 match {
       case hj: HashJoin =>
-        val result = getJoinedPipeSet(hj).contains(p2)
-        result
+        getJoinedPipeSet(hj).intersect(getChainOfEachs(p2).toSet).nonEmpty
       case m: Merge =>
-        m.getPrevious.exists { p => isHashJoinedWithPipe(getPreviousPipe(p).get, p2) }
+        m.getPrevious // gets all merged pipes
+          .exists { p => isHashJoinedWithPipe(p, p2) }
       case e: Each =>
-        getHashJoinableFrom(e) match {
-          case Some(hj) =>
-            isHashJoinedWithPipe(hj, p2)
-          case None =>
-            false
-        }
-      case _ =>
+        getPreviousPipe(e)
+          .exists { p => isHashJoinedWithPipe(p, p2) }
+      case other =>
         false
     }
   }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
index e774206526..634d2d1c32 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/HashJoinable.scala
@@ -94,7 +94,7 @@ trait HashJoinable[K, +V] extends CoGroupable[K, V] with KeyedPipe[K] {
       case _: GroupBy => true
       case _: CoGroup => true
       case _: Every => true
-      case p if isSourcePipe(p) => true
+      case p if RichPipe.isSourcePipe(p) => true
       case _ => false
     }
   }
@@ -129,14 +129,4 @@ trait HashJoinable[K, +V] extends CoGroupable[K, V] with KeyedPipe[K] {
       case _ => false //default to false
     }
   }
-
-  /**
-   * Return true if a pipe is a source Pipe (has no parents / previous) and isn't a
-   * Splice.
-   */
-  private def isSourcePipe(pipe: Pipe): Boolean = {
-    pipe.getParent == null &&
-      (pipe.getPrevious == null || pipe.getPrevious.isEmpty) &&
-      (!pipe.isInstanceOf[Splice])
-  }
 }
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
index 588b0db04e..82bbc854ea 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
@@ -1090,6 +1090,9 @@ final case class MergedTypedPipe[T](left: TypedPipe[T], right: TypedPipe[T]) ext
     } else {
       merged.reduce[Pipe] {
         case (left, right) =>
+          // special handling for cases where one side of the hashjoin is merged
+          // with the hashjoin result. Cascading no longer allows it,
+          // so we add a checkpoint to the join result as a workaround
           if (RichPipe.isHashJoinedWithPipe(left, right))
             new Merge(RichPipe.assignName(new Checkpoint(left)), RichPipe.assignName(right))
           else if (RichPipe.isHashJoinedWithPipe(right, left))
diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index b10b4e2151..0535e23ec5 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -126,7 +126,23 @@ class TinyJoinAndSelfMergeJobTyped(args: Args) extends Job(args) {
     .asKeys
     .hashJoin(input1.asKeys)
     .keys
-    .forceToDisk // TODO: fix
+
+  (joined ++ input1).asKeys.size.map { case (k, v) => (k, v.toInt) }.write(output)
+}
+
+// same as TinyJoinAndSelfMergeForceToDiskJob, but using typed api
+class TinyJoinAndSelfMergeForceToDiskJobTyped(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = TypedPipe.from(joinInput1)
+
+  val joined = TypedPipe.from(joinInput2)
+    .asKeys
+    .hashJoin(input1.asKeys)
+    .keys
+    .forceToDisk
+  // user supplied forceToDisk in addition to the one scalding
+  // adds under the hood
 
   (joined ++ input1).asKeys.size.map { case (k, v) => (k, v.toInt) }.write(output)
 }
@@ -587,6 +603,24 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
     }
   }
 
+  "A TinyJoinAndSelfMergeForceToDiskJobTyped" should {
+    import TinyJoinAndMergeJob._
+
+    "run correctly with explicit forceToDisk" in {
+      HadoopPlatformJobTest(new TinyJoinAndSelfMergeForceToDiskJobTyped(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _.toSet shouldBe (outputData.toSet) }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 2
+          // two steps given we auto checkpoint before the merge
+          // user supplied forceToDisk should not add a third step
+        }
+        .run
+    }
+  }
+
   "A TsvNoCacheJob" should {
     import TsvNoCacheJob._
 
@@ -639,7 +673,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val firstStepDescs = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
           val firstStepDescSet = firstStepDescs.split(",").map(_.trim).toSet
 
-          val expected = Set(188, 190, 191, 194, 195).map(linenum => /* WARNING: keep aligned with line numbers above */
+          val expected = Set(241, 243, 244, 247, 248).map(linenum => /* WARNING: keep aligned with line numbers above */
             s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:${linenum})") ++ Seq("leftJoin", "hashJoin")
           firstStepDescSet should equal(expected)
           steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
@@ -771,7 +805,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val expectedDescs = Set("map stage - assign words to 1",
             "reduce stage - sum",
             "write") ++
-            Seq(175, 176, 178, 179, 180).map( /* WARNING: keep aligned with line numbers above */
+            Seq(228, 229, 231, 232, 233).map( /* WARNING: keep aligned with line numbers above */
               linenum => s"com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:${linenum})")
 
           val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions).split(",").map(_.trim).toSet)

From fb0e4de1d2144a93f01a9511168664db68ca1ac1 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 6 May 2016 15:24:07 -0700
Subject: [PATCH 32/72] [cascading3] minor rename in isHashJoinedWithPipe

---
 .../main/scala/com/twitter/scalding/RichPipe.scala | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index 1eccf62e5b..2ed333e16a 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -111,10 +111,10 @@ object RichPipe extends java.io.Serializable {
   }
 
   /*
-   * If p1 represents a hashjoin, this method checks if
-   * p2 is one of the two sides in that hashjoin.
+   * If hashJoinPipe represents a hashjoin, this method checks if
+   * hashJoinOperandPipe is one of the two sides in that hashjoin.
    */
-  def isHashJoinedWithPipe(p1: Pipe, p2: Pipe): Boolean = {
+  def isHashJoinedWithPipe(hashJoinPipe: Pipe, hashJoinOperandPipe: Pipe): Boolean = {
     // collects all Eachs ending with a non-Each
     @annotation.tailrec
     def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] =
@@ -144,15 +144,15 @@ object RichPipe extends java.io.Serializable {
           throw new IllegalStateException(s"More than two sides found in cascading's HashJoin pipe: $other")
       }
 
-    p1 match {
+    hashJoinPipe match {
       case hj: HashJoin =>
-        getJoinedPipeSet(hj).intersect(getChainOfEachs(p2).toSet).nonEmpty
+        getJoinedPipeSet(hj).intersect(getChainOfEachs(hashJoinOperandPipe).toSet).nonEmpty
       case m: Merge =>
         m.getPrevious // gets all merged pipes
-          .exists { p => isHashJoinedWithPipe(p, p2) }
+          .exists { p => isHashJoinedWithPipe(p, hashJoinOperandPipe) }
       case e: Each =>
         getPreviousPipe(e)
-          .exists { p => isHashJoinedWithPipe(p, p2) }
+          .exists { p => isHashJoinedWithPipe(p, hashJoinOperandPipe) }
       case other =>
         false
     }

From f5a2b12c4ba1ee62bb99e612534c9b0353361d0d Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 13 May 2016 17:26:21 -0700
Subject: [PATCH 33/72] [cascading3] Bump cascading 3.1 wip-60

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index 3629223a7f..dc4fa4e8a0 100644
--- a/build.sbt
+++ b/build.sbt
@@ -298,7 +298,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.0-wip-52")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.0-wip-60")
 
 lazy val elephantbirdCascadingArtifact = cascadingVersion.split('.').head match {
   case "2" => "elephant-bird-cascading2"

From 1fabd1a80528494ff84502506dc836f90d56f04b Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 9 Jun 2016 09:54:14 -0700
Subject: [PATCH 34/72] [cascading3] Bump to 3.1.1-wip61, add platform test

---
 build.sbt                                     |  2 +-
 .../scalding/platform/PlatformTest.scala      | 71 ++++++++++++++++++-
 2 files changed, 71 insertions(+), 2 deletions(-)

diff --git a/build.sbt b/build.sbt
index dc4fa4e8a0..d788da69e3 100644
--- a/build.sbt
+++ b/build.sbt
@@ -298,7 +298,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.0-wip-60")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.1-wip-61")
 
 lazy val elephantbirdCascadingArtifact = cascadingVersion.split('.').head match {
   case "2" => "elephant-bird-cascading2"
diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 0535e23ec5..367e821807 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -49,6 +49,7 @@ object TinyJoinAndMergeJob {
   val mergerData = List(1, 2, 3, 4)
 
   val output = TypedTsv[(Int, Int)]("output")
+  val output2 = TypedTsv[(Int, Int)]("output2")
   val outputData = List((1, 2), (2, 2), (3, 2), (4, 1))
 }
 
@@ -66,6 +67,40 @@ class TinyJoinAndMergeJob(args: Args) extends Job(args) {
   (mergerData ++ joinedData).groupBy('id) { _.size('count) }.write(output)
 }
 
+// Verifies fix for https://github.com/cwensel/cascading/pull/53
+class MergeTwoSinksForceToDiskJob(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = joinInput1.read.mapTo(0 -> 'id) { v: Int => v }
+  val input2 = joinInput2.read.mapTo(0 -> 'id) { v: Int => v }
+
+  val merged = (input1 ++ input2).groupBy('id) { _.size('count) }
+
+  merged
+    .project('id, 'count)
+    .forceToDisk
+    .write(output)
+
+  merged
+    .write(output2)
+}
+
+class MergeTwoSinksForceToDiskTypedJob(args: Args) extends Job(args) {
+  import TinyJoinAndMergeJob._
+
+  val input1 = TypedPipe.from(joinInput1)
+  val input2 = TypedPipe.from(joinInput2)
+
+  val merged = (input1 ++ input2).asKeys.group.size.map { case (k, v) => (k, v.toInt) }
+
+  merged
+    .forceToDisk
+    .write(output)
+
+  merged
+    .write(output2)
+}
+
 class TinyJoinAndSelfMergeJob(args: Args) extends Job(args) {
   import TinyJoinAndMergeJob._
 
@@ -534,6 +569,40 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
     }
   }
 
+  "A MergeTwoSinksForceToDiskJob" should {
+    import TinyJoinAndMergeJob._
+
+    "merge and write to two sinks with forceToDisk" in {
+      HadoopPlatformJobTest(new MergeTwoSinksForceToDiskJob(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _.toSet == outputData.toSet }
+        .sink(output2) { _.toSet == outputData.toSet }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 4
+        }
+        .run
+    }
+  }
+
+  "A MergeTwoSinksForceToDiskTypedJob" should {
+    import TinyJoinAndMergeJob._
+
+    "merge and write to two sinks with forceToDisk" in {
+      HadoopPlatformJobTest(new MergeTwoSinksForceToDiskTypedJob(_), cluster)
+        .source(joinInput1, joinData1)
+        .source(joinInput2, joinData2)
+        .sink(output) { _.toSet == outputData.toSet }
+        .sink(output2) { _.toSet == outputData.toSet }
+        .inspectCompletedFlow { flow =>
+          val steps = flow.getFlowSteps.asScala
+          steps should have size 4
+        }
+        .run
+    }
+  }
+
   "A TinyJoinAndSelfMergeJob" should {
     import TinyJoinAndMergeJob._
 
@@ -541,7 +610,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
       HadoopPlatformJobTest(new TinyJoinAndSelfMergeJob(_), cluster)
         .source(joinInput1, joinData1)
         .source(joinInput2, joinData2)
-        .sink(output) { _ => () } //_.toSet shouldBe (outputData.toSet) }
+        .sink(output) { _.toSet shouldBe (outputData.toSet) }
         .inspectCompletedFlow { flow =>
           val steps = flow.getFlowSteps.asScala
           steps should have size 2

From a4cb49121ecdcedee694f47efa599dfcff92434f Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Thu, 9 Jun 2016 10:32:40 -0700
Subject: [PATCH 35/72] [cascading3] fix test line numbers

---
 .../scala/com/twitter/scalding/platform/PlatformTest.scala    | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 367e821807..c5edd741a3 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -742,7 +742,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val firstStepDescs = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
           val firstStepDescSet = firstStepDescs.split(",").map(_.trim).toSet
 
-          val expected = Set(241, 243, 244, 247, 248).map(linenum => /* WARNING: keep aligned with line numbers above */
+          val expected = Set(276, 278, 279, 282, 283).map(linenum => /* WARNING: keep aligned with line numbers above */
             s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:${linenum})") ++ Seq("leftJoin", "hashJoin")
           firstStepDescSet should equal(expected)
           steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
@@ -874,7 +874,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val expectedDescs = Set("map stage - assign words to 1",
             "reduce stage - sum",
             "write") ++
-            Seq(228, 229, 231, 232, 233).map( /* WARNING: keep aligned with line numbers above */
+            Seq(263, 264, 266, 267, 268).map( /* WARNING: keep aligned with line numbers above */
               linenum => s"com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:${linenum})")
 
           val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions).split(",").map(_.trim).toSet)

From 0d407fbfb9d360f8604ca81d4fd3779d5402f68e Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Tue, 21 Jun 2016 14:59:04 -0700
Subject: [PATCH 36/72] [cascading3] Move to stable EB release 4.14

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index d788da69e3..85e6b16b11 100644
--- a/build.sbt
+++ b/build.sbt
@@ -25,7 +25,7 @@ val avroVersion = "1.7.4"
 val bijectionVersion = "0.9.1"
 val cascadingAvroVersion = "2.1.2"
 val chillVersion = "0.7.3"
-val elephantbirdVersion = "4.14-RC2"
+val elephantbirdVersion = "4.14"
 val hadoopLzoVersion = "0.4.19"
 val hadoopVersion = "2.5.0"
 val hbaseVersion = "0.94.10"

From f37a131a44d97cb89eeb984dcc7290f8b913bf7a Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 29 Jun 2016 12:48:56 -0700
Subject: [PATCH 37/72] Setting version to 0.16.1-RC3

---
 version.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/version.sbt b/version.sbt
index 6927b97e82..5a927c5eb5 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1 @@
-version in ThisBuild := "0.16.1-SNAPSHOT"
\ No newline at end of file
+version in ThisBuild := "0.16.1-RC3"
\ No newline at end of file

From 220497b4c7780416318e119cf4128c849efc2dd3 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 20 Jul 2016 09:35:37 -0700
Subject: [PATCH 38/72] [cascading3] Fix version.sbt to SNAPSHOT

---
 version.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/version.sbt b/version.sbt
index 5a927c5eb5..7ae423c32e 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1 @@
-version in ThisBuild := "0.16.1-RC3"
\ No newline at end of file
+version in ThisBuild := "0.16.1-SNAPSHOT"

From 52cbc402d9f7f55320325024580e4c7bc7596bf3 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 20 Jul 2016 10:06:00 -0700
Subject: [PATCH 39/72] [cascading3] drop v2 vs v3 switch in build file, use v3
 for scalding-json

---
 build.sbt                                              | 10 ++--------
 .../main/scala/com/twitter/scalding/TypedJson.scala    |  2 +-
 2 files changed, 3 insertions(+), 9 deletions(-)

diff --git a/build.sbt b/build.sbt
index f7084e5468..f8be179dde 100644
--- a/build.sbt
+++ b/build.sbt
@@ -306,12 +306,6 @@ lazy val scaldingDate = module("date")
 lazy val cascadingVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.1-wip-61")
 
-lazy val elephantbirdCascadingArtifact = cascadingVersion.split('.').head match {
-  case "2" => "elephant-bird-cascading2"
-  case "3" => "elephant-bird-cascading3"
-  case other => sys.error(s"Unsupported cascading major version: $other")
-}
-
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")
 
@@ -354,7 +348,7 @@ lazy val scaldingCommons = module("commons").settings(
     "com.twitter" %% "bijection-core" % bijectionVersion,
     "com.twitter" %% "algebird-core" % algebirdVersion,
     "com.twitter" %% "chill" % chillVersion,
-    "com.twitter.elephantbird" % elephantbirdCascadingArtifact % elephantbirdVersion,
+    "com.twitter.elephantbird" % "elephant-bird-cascading3" % elephantbirdVersion,
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
     "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
     // TODO: split this out into scalding-thrift
@@ -567,7 +561,7 @@ lazy val scaldingJson = module("json").settings(
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
     "com.fasterxml.jackson.module" %% "jackson-module-scala" % jacksonVersion,
     "org.json4s" %% "json4s-native" % json4SVersion,
-    "com.twitter.elephantbird" % "elephant-bird-cascading2" % elephantbirdVersion % "provided"
+    "com.twitter.elephantbird" % "elephant-bird-cascading3" % elephantbirdVersion % "provided"
     )
   }
 ).dependsOn(scaldingCore)
diff --git a/scalding-json/src/main/scala/com/twitter/scalding/TypedJson.scala b/scalding-json/src/main/scala/com/twitter/scalding/TypedJson.scala
index 1dde3d1648..582b74237d 100644
--- a/scalding-json/src/main/scala/com/twitter/scalding/TypedJson.scala
+++ b/scalding-json/src/main/scala/com/twitter/scalding/TypedJson.scala
@@ -2,7 +2,7 @@ package com.twitter.scalding
 
 import com.twitter.bijection.{ Injection, AbstractInjection }
 import com.twitter.bijection.Inversion._
-import com.twitter.elephantbird.cascading2.scheme.LzoTextLine
+import com.twitter.elephantbird.cascading3.scheme.LzoTextLine
 
 import org.json4s._
 import org.json4s.native.Serialization._

From 6c97a3296b2b192b9b0be80984a9f880bf946554 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 20 Jul 2016 10:08:39 -0700
Subject: [PATCH 40/72] fix missing end line

---
 version.sbt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/version.sbt b/version.sbt
index 7ae423c32e..ca8b8b5526 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1,2 @@
 version in ThisBuild := "0.16.1-SNAPSHOT"
+

From 59a1abcf9cdc791c9927b32317134743917da5ae Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 20 Jul 2016 10:23:40 -0700
Subject: [PATCH 41/72] Revert "fix missing end line"

This reverts commit 6c97a3296b2b192b9b0be80984a9f880bf946554.
---
 version.sbt | 1 -
 1 file changed, 1 deletion(-)

diff --git a/version.sbt b/version.sbt
index ca8b8b5526..7ae423c32e 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1,2 +1 @@
 version in ThisBuild := "0.16.1-SNAPSHOT"
-

From 48d22b5179b7b48e640d966bcf2ebac6d639f431 Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Wed, 10 Aug 2016 11:40:45 -0700
Subject: [PATCH 42/72] [cascading3] fix missing dep from merge conflict

---
 build.sbt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/build.sbt b/build.sbt
index e92d041763..9d0f5ece76 100644
--- a/build.sbt
+++ b/build.sbt
@@ -422,6 +422,7 @@ lazy val scaldingParquet = module("parquet").settings(
     "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.scala-lang" % "scala-compiler" % scalaVersion,
     "org.scala-lang" % "scala-reflect" % scalaVersion,
     "com.twitter" %% "bijection-macros" % bijectionVersion,
     "com.twitter" %% "chill-bijection" % chillVersion,

From e882e89a61c01ec3e661573031d4a8c12a95a00a Mon Sep 17 00:00:00 2001
From: Ruban Monu <rmonu@twitter.com>
Date: Fri, 12 Aug 2016 09:07:30 -0700
Subject: [PATCH 43/72] [cascading3] attempt at fixing sbt 2.10 failure for
 hadoop-test

---
 build.sbt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/build.sbt b/build.sbt
index 9d0f5ece76..ce6ce2619c 100644
--- a/build.sbt
+++ b/build.sbt
@@ -587,6 +587,7 @@ lazy val scaldingHadoopTest = module("hadoop-test").settings(
     "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",
     "org.apache.hadoop" % "hadoop-common" % hadoopVersion classifier "tests",
     "org.apache.hadoop" % "hadoop-mapreduce-client-jobclient" % hadoopVersion classifier "tests",
+    "org.scala-lang" % "scala-compiler" % scalaVersion,
     "com.twitter" %% "chill-algebird" % chillVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.slf4j" % "slf4j-log4j12" % slf4jVersion,

From 250fb4213fff340ada8fc38eb0b0c70374eb0070 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Fri, 9 Sep 2016 16:16:28 -0700
Subject: [PATCH 44/72] Bump cascading version to pick up hashJoin distcache
 update

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index ce6ce2619c..d51b5c18ff 100644
--- a/build.sbt
+++ b/build.sbt
@@ -305,7 +305,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.1.1-wip-61")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-3")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")

From 1a2d2e48830306fe2ccf63411aebb161c5b46ee3 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Mon, 12 Sep 2016 11:45:41 -0700
Subject: [PATCH 45/72] Switch Cascading version to 3.2-wip4

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index d51b5c18ff..451d519556 100644
--- a/build.sbt
+++ b/build.sbt
@@ -305,7 +305,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-3")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-4")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")

From 7346a55bde790633f6a492032cd524ed571959bc Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 13 Sep 2016 14:15:30 -0700
Subject: [PATCH 46/72] Update hadoop version to match cascading

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index 451d519556..c42dac68e6 100644
--- a/build.sbt
+++ b/build.sbt
@@ -27,7 +27,7 @@ val cascadingAvroVersion = "2.1.2"
 val chillVersion = "0.7.3"
 val elephantbirdVersion = "4.14"
 val hadoopLzoVersion = "0.4.19"
-val hadoopVersion = "2.5.0"
+val hadoopVersion = "2.7.2"
 val hbaseVersion = "0.94.10"
 val hravenVersion = "0.9.17.t05"
 val jacksonVersion = "2.4.2"

From 7bd70177312ffae9f865dcc6fa956a3270cdd0a4 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 13 Sep 2016 17:17:46 -0700
Subject: [PATCH 47/72] Switch to hadoop 2.6.0

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index c42dac68e6..e8c1bae36d 100644
--- a/build.sbt
+++ b/build.sbt
@@ -27,7 +27,7 @@ val cascadingAvroVersion = "2.1.2"
 val chillVersion = "0.7.3"
 val elephantbirdVersion = "4.14"
 val hadoopLzoVersion = "0.4.19"
-val hadoopVersion = "2.7.2"
+val hadoopVersion = "2.6.0"
 val hbaseVersion = "0.94.10"
 val hravenVersion = "0.9.17.t05"
 val jacksonVersion = "2.4.2"

From bed0c10b8be52edb55d47657e44f1ffdfc5bd3f2 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 13 Sep 2016 23:56:18 -0700
Subject: [PATCH 48/72] Exclude guava explicitly to prevent guava 0.16.0 from
 being pulled in

---
 build.sbt | 46 ++++++++++++++++++++++++++++++----------------
 1 file changed, 30 insertions(+), 16 deletions(-)

diff --git a/build.sbt b/build.sbt
index e8c1bae36d..6f412dac46 100644
--- a/build.sbt
+++ b/build.sbt
@@ -333,7 +333,8 @@ lazy val scaldingCore = module("core").settings(
     "com.twitter" %% "bijection-macros" % bijectionVersion,
     "com.twitter" %% "chill" % chillVersion,
     "com.twitter" %% "chill-algebird" % chillVersion,
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "org.scala-lang" % "scala-library" % scalaVersion,
     "org.scala-lang" % "scala-reflect" % scalaVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
@@ -353,7 +354,8 @@ lazy val scaldingCommons = module("commons").settings(
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion,
     "com.hadoop.gplcompression" % "hadoop-lzo" % hadoopLzoVersion,
     // TODO: split this out into scalding-thrift
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "org.apache.thrift" % "libthrift" % thriftVersion,
     // TODO: split this out into a scalding-scrooge
     "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
@@ -369,6 +371,7 @@ lazy val scaldingAvro = module("avro").settings(
     "org.apache.avro" % "avro" % avroVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava")
   )
 ).dependsOn(scaldingCore)
 
@@ -409,7 +412,8 @@ lazy val scaldingParquetCascading = module("parquet-cascading").settings(
       exclude("com.twitter.elephantbird", "elephant-bird-pig")
       exclude("com.twitter.elephantbird", "elephant-bird-core"),
     "org.apache.thrift" % "libthrift" % thriftVersion,
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "cascading" % "cascading-core" % cascadingVersion % "provided",
     "cascading" % "cascading-hadoop" % cascadingVersion % "provided",
     "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test"
@@ -421,7 +425,8 @@ lazy val scaldingParquet = module("parquet").settings(
     "org.apache.parquet" % "parquet-column" % parquetVersion,
     "org.apache.parquet" % "parquet-hadoop" % parquetVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "org.scala-lang" % "scala-compiler" % scalaVersion,
     "org.scala-lang" % "scala-reflect" % scalaVersion,
     "com.twitter" %% "bijection-macros" % bijectionVersion,
@@ -469,7 +474,8 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-core"),
        "com.twitter" %% "scrooge-serializer" % scroogeVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+        exclude("com.google.guava", "guava"),
       "junit" % "junit" % junitVersion % "test"
     )
 ).dependsOn(scaldingParquetCascading % "compile->compile;test->test", scaldingParquetScroogeFixtures % "test->test")
@@ -483,7 +489,8 @@ lazy val scaldingParquetScrooge = module("parquet-scrooge")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-core"),
       "com.twitter" %% "scrooge-serializer" % scroogeVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+        exclude("com.google.guava", "guava"),
       "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test",
       "com.novocode" % "junit-interface" % junitInterfaceVersion % "test",
       "junit" % "junit" % junitVersion % "test"
@@ -510,6 +517,7 @@ lazy val scaldingHRaven = module("hraven").settings(
     "org.apache.hbase" % "hbase" % hbaseVersion,
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava")
   )
 ).dependsOn(scaldingCore)
 
@@ -531,8 +539,10 @@ lazy val scaldingRepl = module("repl")
       "jline" % "jline" % scalaVersion.take(4),
       "org.scala-lang" % "scala-compiler" % scalaVersion,
       "org.scala-lang" % "scala-reflect" % scalaVersion,
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
-      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "unprovided",
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+        exclude("com.google.guava", "guava"),
+      "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "unprovided"
+        exclude("com.google.guava", "guava"),
       "org.slf4j" % "slf4j-api" % slf4jVersion,
       "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "provided",
       "org.slf4j" % "slf4j-log4j12" % slf4jVersion % "unprovided"
@@ -561,7 +571,8 @@ addCompilerPlugin("org.scalamacros" % "paradise" % "2.0.1" cross CrossVersion.fu
 
 lazy val scaldingJson = module("json").settings(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "com.fasterxml.jackson.module" %% "jackson-module-scala" % jacksonVersion,
     "org.json4s" %% "json4s-native" % json4SVersion,
     "com.twitter.elephantbird" % "elephant-bird-cascading3" % elephantbirdVersion % "provided"
@@ -571,7 +582,8 @@ lazy val scaldingJson = module("json").settings(
 
 lazy val scaldingJdbc = module("jdbc").settings(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "cascading" % "cascading-jdbc-core" % cascadingJDBCVersion,
     "cascading" % "cascading-jdbc-mysql" % cascadingJDBCVersion
   )
@@ -580,7 +592,8 @@ lazy val scaldingJdbc = module("jdbc").settings(
 
 lazy val scaldingHadoopTest = module("hadoop-test").settings(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion
+      exclude("com.google.guava", "guava"),
     "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion,
     "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
     "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion,
@@ -612,7 +625,8 @@ lazy val maple = Project(
       if(scalaVersion.startsWith("2.10")) false else true
       },
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
+      exclude("com.google.guava", "guava"),
     "org.apache.hbase" % "hbase" % hbaseVersion % "provided",
     "cascading" % "cascading-hadoop" % cascadingVersion % "provided"
   )
@@ -628,7 +642,8 @@ lazy val executionTutorial = Project(
   libraryDependencies <++= (scalaVersion) { scalaVersion => Seq(
     "org.scala-lang" % "scala-library" % scalaVersion,
     "org.scala-lang" % "scala-reflect" % scalaVersion,
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion,
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion
+      exclude("com.google.guava", "guava"),
     "org.slf4j" % "slf4j-api" % slf4jVersion,
     "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
     "cascading" % "cascading-hadoop" % cascadingVersion
@@ -667,10 +682,9 @@ lazy val scaldingThriftMacros = module("thrift-macros")
     "com.twitter" % "chill-thrift" % chillVersion % "test",
     "com.twitter" %% "scrooge-serializer" % scroogeVersion % "provided",
     "org.apache.thrift" % "libthrift" % thriftVersion,
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
+    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test"
+      exclude("com.google.guava", "guava"),
     "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion % "test",
-    "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "test",
-    "org.apache.hadoop" % "hadoop-minicluster" % hadoopVersion  % "test",
     "org.apache.hadoop" % "hadoop-yarn-server-tests" % hadoopVersion classifier "tests",
     "org.apache.hadoop" % "hadoop-yarn-server" % hadoopVersion % "test",
     "org.apache.hadoop" % "hadoop-hdfs" % hadoopVersion classifier "tests",

From 477ffc5e232abe17c31a2f4422c59965a5d97134 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Wed, 14 Sep 2016 13:29:37 -0700
Subject: [PATCH 49/72] Setting version to 0.16.1-cascading3-RC3

---
 version.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/version.sbt b/version.sbt
index 7ae423c32e..594ebd1fb2 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1 @@
-version in ThisBuild := "0.16.1-SNAPSHOT"
+version in ThisBuild := "0.16.1-cascading3-RC3"
\ No newline at end of file

From 0ceb9fd266345a7c892cb47e92c8397fe29a82a2 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Wed, 14 Sep 2016 13:45:10 -0700
Subject: [PATCH 50/72] Setting version to 0.16.1-SNAPSHOT

---
 version.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/version.sbt b/version.sbt
index 594ebd1fb2..6927b97e82 100644
--- a/version.sbt
+++ b/version.sbt
@@ -1 +1 @@
-version in ThisBuild := "0.16.1-cascading3-RC3"
\ No newline at end of file
+version in ThisBuild := "0.16.1-SNAPSHOT"
\ No newline at end of file

From 45db1e0e018cd6ea3f7c5c9f6b5daaa52689c742 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Mon, 26 Sep 2016 17:52:21 -0700
Subject: [PATCH 51/72] Remove VersionedSequenceFileInputFormat and unset
 hadoop input dir conf

---
 .../commons/scheme/KeyValueByteScheme.java    |  3 +-
 .../VersionedSequenceFileInputFormat.java     | 64 -------------------
 .../scalding/commons/tap/VersionedTap.java    |  8 +--
 .../commons/VersionedKeyValSourceTest.scala   | 40 ++++++++++--
 4 files changed, 40 insertions(+), 75 deletions(-)
 delete mode 100644 scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java

diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
index e1add5bbb2..1ca84861c4 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/KeyValueByteScheme.java
@@ -7,6 +7,7 @@
 import org.apache.hadoop.io.BytesWritable;
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
+import org.apache.hadoop.mapred.SequenceFileInputFormat;
 
 import cascading.flow.FlowProcess;
 import cascading.scheme.SinkCall;
@@ -33,7 +34,7 @@ public static byte[] getBytes(BytesWritable key) {
   public void sourceConfInit(FlowProcess<? extends Configuration> flowProcess,
       Tap<Configuration, RecordReader, OutputCollector> tap, Configuration conf) {
     super.sourceConfInit(flowProcess, tap, conf);
-    conf.setClass("mapred.input.format.class", VersionedSequenceFileInputFormat.class,
+    conf.setClass("mapred.input.format.class", SequenceFileInputFormat.class,
       org.apache.hadoop.mapred.InputFormat.class);
   }
 
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java
deleted file mode 100644
index 9166306701..0000000000
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/scheme/VersionedSequenceFileInputFormat.java
+++ /dev/null
@@ -1,64 +0,0 @@
-package com.twitter.scalding.commons.scheme;
-
-import java.util.ArrayList;
-import java.util.Arrays;
-import java.util.List;
-import java.io.IOException;
-
-import org.apache.hadoop.fs.FileStatus;
-import org.apache.hadoop.fs.FileSystem;
-import org.apache.hadoop.fs.Path;
-import org.apache.hadoop.fs.PathFilter;
-import org.apache.hadoop.io.SequenceFile;
-import org.apache.hadoop.mapred.FileInputFormat;
-import org.apache.hadoop.mapred.FileSplit;
-import org.apache.hadoop.mapred.InputSplit;
-import org.apache.hadoop.mapred.JobConf;
-import org.apache.hadoop.mapred.RecordReader;
-import org.apache.hadoop.mapred.Reporter;
-import org.apache.hadoop.mapred.SequenceFileRecordReader;
-
-/**
- * Hadoop's SequenceFileInputFormat assumes separate "data" and index" files per directory.
- * This does not apply to VersionedKeyValSource, so we bypass that behavior.
- */
-public class VersionedSequenceFileInputFormat<K, V> extends FileInputFormat<K, V> {
-
-  public VersionedSequenceFileInputFormat() {
-    setMinSplitSize(SequenceFile.SYNC_INTERVAL);
-  }
-
-  private final PathFilter hiddenPathFilter = new PathFilter() {
-    // avoid hidden files and directories.
-    @Override
-    public boolean accept(Path path) {
-      String name = path.getName();
-      return !name.startsWith(".") && !name.startsWith("_");
-    }
-  };
-
-  @Override
-  protected FileStatus[] listStatus(JobConf job) throws IOException {
-    // we pick all the parent directories (should be only one for the picked version)
-    // and fetch the part files (non-hidden) under them
-    // any files in the parent list are version files which are to be disregarded
-    FileStatus[] parentPaths = super.listStatus(job);
-    List<FileStatus> result = new ArrayList<FileStatus>();
-    for (int i = 0; i < parentPaths.length; i++) {
-      FileStatus status = parentPaths[i];
-      if (status.isDirectory()) {
-        // add all files under this dir
-        FileSystem fs = status.getPath().getFileSystem(job);
-        result.addAll(Arrays.asList(fs.listStatus(status.getPath(), hiddenPathFilter)));
-      }
-    }
-    return result.toArray(new FileStatus[0]);
-  }
-
-  public RecordReader<K, V> getRecordReader(InputSplit split, JobConf job, Reporter reporter)
-      throws IOException {
-    reporter.setStatus(split.toString());
-    return new SequenceFileRecordReader<K, V>(job, (FileSplit) split);
-  }
-}
-
diff --git a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
index c57b753efe..fe75b66914 100644
--- a/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
+++ b/scalding-commons/src/main/java/com/twitter/scalding/commons/tap/VersionedTap.java
@@ -7,9 +7,6 @@
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;
-import org.apache.hadoop.mapred.FileInputFormat;
-import org.apache.hadoop.mapred.FileOutputFormat;
-import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.OutputCollector;
 import org.apache.hadoop.mapred.RecordReader;
 
@@ -18,8 +15,10 @@
 import cascading.scheme.Scheme;
 import cascading.tap.hadoop.Hfs;
 
+import static org.apache.hadoop.mapreduce.lib.input.FileInputFormat.INPUT_DIR;
+
 public class VersionedTap extends Hfs {
-  public static enum TapMode {SOURCE, SINK}
+  public enum TapMode {SOURCE, SINK}
 
   public Long version = null;
 
@@ -96,6 +95,7 @@ public String getSinkPath(Configuration conf) {
   public void sourceConfInit(FlowProcess<? extends Configuration> process, Configuration conf) {
     super.sourceConfInit(process, conf);
     conf.unset("mapred.input.dir"); // need this to unset any paths set in super.sourceConfInit
+    conf.unset(INPUT_DIR); // need this to unset any paths set in super.sourceConfInit
     Path fullyQualifiedPath = getFileSystem(conf).makeQualified(new Path(getSourcePath(conf)));
     HadoopUtil.addInputPath(conf, fullyQualifiedPath);
   }
diff --git a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
index e3189f17b1..b0a2ded9ce 100644
--- a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
+++ b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
@@ -15,13 +15,14 @@ limitations under the License.
 */
 package com.twitter.scalding.commons.source
 
+import org.apache.hadoop.fs.Path
 import org.scalatest.{ Matchers, WordSpec }
 import com.twitter.scalding._
-import com.twitter.scalding.commons.datastores.VersionedStore;
+import com.twitter.scalding.commons.datastores.VersionedStore
 import com.twitter.scalding.typed.IterablePipe
 import com.twitter.bijection.Injection
 import com.google.common.io.Files
-import org.apache.hadoop.mapred.JobConf
+import org.apache.hadoop.mapred.{SequenceFileInputFormat, JobConf}
 
 import java.io.File
 // Use the scalacheck generators
@@ -38,6 +39,12 @@ class TypedWriteIncrementalJob(args: Args) extends Job(args) {
     .writeIncremental(VersionedKeyValSource[Int, Int]("output"))
 }
 
+// Test version of SequenceFileInputFormat to get details on which
+// paths it will use
+class TestSequenceFileInputFormat extends SequenceFileInputFormat[Int, Int] {
+  def getPaths(conf: JobConf): Array[Path] = super.listStatus(conf).map(_.getPath)
+}
+
 class MoreComplexTypedWriteIncrementalJob(args: Args) extends Job(args) {
   import RichPipeEx._
   val pipe = TypedPipe.from(TypedTsv[Int]("input"))
@@ -89,7 +96,7 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
       .sink[(Int, Int)](VersionedKeyValSource[Array[Byte], Array[Byte]]("output")) { outputBuffer: Buffer[(Int, Int)] =>
         "Outputs must be as expected" in {
           assert(outputBuffer.size === input.size)
-          val singleInj = implicitly[Injection[Int, Array[Byte]]]
+          implicitly[Injection[Int, Array[Byte]]]
           assert(input.map{ k => (k, k) }.sortBy(_._1).toString === outputBuffer.sortBy(_._1).toList.toString)
         }
       }
@@ -136,6 +143,9 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
     versions foreach { v =>
       val p = store.createVersion(v)
       new File(p).mkdirs()
+      // create a part file here
+      new File(p + "/part-00000").createNewFile()
+      // and succeed
       store.succeedVersion(p)
     }
 
@@ -146,7 +156,25 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
    * Creates a VersionedKeyValSource using the provided version
    * and then validates it.
    */
-  private def validateVersion(path: String, version: Option[Long] = None) =
-    VersionedKeyValSource(path = path, sourceVersion = version)
-      .validateTaps(Hdfs(false, new JobConf()))
+  private def validateVersion(path: String, version: Option[Long] = None) = {
+    val store = VersionedKeyValSource(path = path, sourceVersion = version)
+    val conf: JobConf = new JobConf()
+    store.validateTaps(Hdfs(strict = false, conf))
+
+    // also validate the paths for the version
+    validateVersionPaths(path, version, store, conf)
+  }
+
+  def validateVersionPaths(path: String, version: Option[Long], store: VersionedKeyValSource[_, _], conf: JobConf): Unit = {
+    store.source.sourceConfInit(null, conf) // this sets up the splits needed for input format
+    val fileInputFormat = new TestSequenceFileInputFormat()
+    val paths = fileInputFormat.getPaths(conf)
+    version match {
+      case Some(ver) =>
+        // expect only the part file for the specified version
+        assert(paths.length == paths.count(_.toString.endsWith(ver + "/part-00000")))
+      case _ =>
+        assert(paths.count(_.toString.contains(path)) > 0)
+    }
+  }
 }

From cc1c2d8978e9bdd9760ed3cf19a05668cb4f53fc Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 27 Sep 2016 11:21:59 -0700
Subject: [PATCH 52/72] Tweak check for versioned store test when no version is
 specified

---
 .../twitter/scalding/commons/VersionedKeyValSourceTest.scala  | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
index b0a2ded9ce..34d39a91f9 100644
--- a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
+++ b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
@@ -174,7 +174,9 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
         // expect only the part file for the specified version
         assert(paths.length == paths.count(_.toString.endsWith(ver + "/part-00000")))
       case _ =>
-        assert(paths.count(_.toString.contains(path)) > 0)
+        // when no version is specified, we get the most recent version's data
+        val mostRecentVersion = store.source.getStore(conf).mostRecentVersion()
+        assert(paths.length == paths.count(_.toString.endsWith(mostRecentVersion + "/part-00000")))
     }
   }
 }

From 5fa1c50c2a63989baccd5dc767dbb643be90321e Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 27 Sep 2016 13:10:52 -0700
Subject: [PATCH 53/72] Make case check explicit

---
 .../twitter/scalding/commons/VersionedKeyValSourceTest.scala    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
index 34d39a91f9..fe382ca062 100644
--- a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
+++ b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
@@ -173,7 +173,7 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
       case Some(ver) =>
         // expect only the part file for the specified version
         assert(paths.length == paths.count(_.toString.endsWith(ver + "/part-00000")))
-      case _ =>
+      case None =>
         // when no version is specified, we get the most recent version's data
         val mostRecentVersion = store.source.getStore(conf).mostRecentVersion()
         assert(paths.length == paths.count(_.toString.endsWith(mostRecentVersion + "/part-00000")))

From 3cbe7fa3ad558e6846257a87b12e0d450e660ae8 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 27 Sep 2016 13:14:20 -0700
Subject: [PATCH 54/72] Remove unnecessary implicitly calls

---
 .../twitter/scalding/commons/VersionedKeyValSourceTest.scala    | 2 --
 1 file changed, 2 deletions(-)

diff --git a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
index fe382ca062..da9bd0290e 100644
--- a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
+++ b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
@@ -82,7 +82,6 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
       .sink[(Int, Int)](VersionedKeyValSource[Array[Byte], Array[Byte]]("output")) { outputBuffer: Buffer[(Int, Int)] =>
         "Outputs must be as expected" in {
           assert(outputBuffer.size === input.size)
-          val singleInj = implicitly[Injection[Int, Array[Byte]]]
           assert(input.map{ k => (k, k) }.sortBy(_._1).toString === outputBuffer.sortBy(_._1).toList.toString)
         }
       }
@@ -96,7 +95,6 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
       .sink[(Int, Int)](VersionedKeyValSource[Array[Byte], Array[Byte]]("output")) { outputBuffer: Buffer[(Int, Int)] =>
         "Outputs must be as expected" in {
           assert(outputBuffer.size === input.size)
-          implicitly[Injection[Int, Array[Byte]]]
           assert(input.map{ k => (k, k) }.sortBy(_._1).toString === outputBuffer.sortBy(_._1).toList.toString)
         }
       }

From 954adb6c15755ce80a9a3f5a854bf3b7ceb9f563 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Tue, 4 Oct 2016 21:54:22 -0700
Subject: [PATCH 55/72] Fix missing deps & incorrect import related build
 failures

---
 build.sbt                                                      | 3 ++-
 .../parquet/scrooge/PartitionedParquetScroogeSourceTests.scala | 1 +
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index 6f412dac46..afb5f8d60d 100644
--- a/build.sbt
+++ b/build.sbt
@@ -431,10 +431,11 @@ lazy val scaldingParquet = module("parquet").settings(
     "org.scala-lang" % "scala-reflect" % scalaVersion,
     "com.twitter" %% "bijection-macros" % bijectionVersion,
     "com.twitter" %% "chill-bijection" % chillVersion,
+    "com.twitter.elephantbird" % "elephant-bird-core" % elephantbirdVersion % "test",
     "org.typelevel" %% "macro-compat" % macroCompatVersion
   ) ++ (if(isScala210x(scalaVersion)) Seq("org.scalamacros" %% "quasiquotes" % quasiquotesVersion) else Seq())
 }, addCompilerPlugin("org.scalamacros" % "paradise" % paradiseVersion cross CrossVersion.full))
-  .dependsOn(scaldingCore, scaldingParquetCascading, scaldingHadoopTest % "test")
+  .dependsOn(scaldingCore, scaldingParquetCascading, scaldingHadoopTest % "test", scaldingParquetFixtures % "test->test")
 
 lazy val scaldingParquetScroogeFixtures = module("parquet-scrooge-fixtures")
   .settings(ScroogeSBT.newSettings:_*)
diff --git a/scalding-parquet-scrooge/src/test/scala/com/twitter/scalding/parquet/scrooge/PartitionedParquetScroogeSourceTests.scala b/scalding-parquet-scrooge/src/test/scala/com/twitter/scalding/parquet/scrooge/PartitionedParquetScroogeSourceTests.scala
index 368a44eb92..136840e0d0 100644
--- a/scalding-parquet-scrooge/src/test/scala/com/twitter/scalding/parquet/scrooge/PartitionedParquetScroogeSourceTests.scala
+++ b/scalding-parquet-scrooge/src/test/scala/com/twitter/scalding/parquet/scrooge/PartitionedParquetScroogeSourceTests.scala
@@ -3,6 +3,7 @@ package com.twitter.scalding.parquet.scrooge
 import java.io.File
 
 import com.twitter.scalding._
+import com.twitter.scalding.parquet.cascading.scrooge.{ ScroogeReadSupport, ScroogeRecordConverter }
 import com.twitter.scalding.parquet.scrooge.thrift_scala.test.Address
 import org.apache.hadoop.conf.Configuration
 import org.apache.hadoop.fs.Path

From d99c213d60301c5580cc00fb22dcc3cd3e8a0589 Mon Sep 17 00:00:00 2001
From: Piyush Narang <pnarang@twitter.com>
Date: Wed, 5 Oct 2016 22:18:06 -0700
Subject: [PATCH 56/72] Update cascading3 release + add regression test

---
 build.sbt                                     |  2 +-
 .../scalding/platform/PlatformTest.scala      | 59 ++++++++++++++++---
 2 files changed, 53 insertions(+), 8 deletions(-)

diff --git a/build.sbt b/build.sbt
index afb5f8d60d..ede97bc1ba 100644
--- a/build.sbt
+++ b/build.sbt
@@ -305,7 +305,7 @@ lazy val scaldingArgs = module("args")
 lazy val scaldingDate = module("date")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-4")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-6")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")
diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index bdae8db679..d452f2c00e 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -26,13 +26,8 @@ import com.twitter.scalding.serialization.OrderedSerialization
 import java.util.{ Iterator => JIterator }
 import org.scalacheck.{ Arbitrary, Gen }
 import org.scalatest.{ Matchers, WordSpec }
-import org.slf4j.{ LoggerFactory, Logger }
 import scala.collection.JavaConverters._
 import scala.language.experimental.macros
-import scala.math.Ordering
-import scala.util.Failure
-import scala.util.Success
-import scala.util.Try
 
 class InAndOutJob(args: Args) extends Job(args) {
   Tsv("input").read.write(Tsv("output"))
@@ -547,6 +542,46 @@ class ReadPathJob(args: Args) extends Job(args) {
     .write(NullSink)
 }
 
+// Based on a user job that fails in Cascading3 without fix: https://github.com/cwensel/cascading/pull/57
+// Results in a groupBy which inputs to a coGroup1. The groupBy and coGroup1 are used as inputs to
+// another coGroup2. Without this fix, the Cascading planner loses one of the Each operations between
+// this triangle.
+object GroupByCoGroupCoGroupTriangleJob {
+  val output = TypedTsv[(String, Int)]("output")
+
+  val inputData = List(("A", Seq(1, 2)), ("B", Seq(3, 4)), ("B", Seq(5, 6)), ("A", Seq(1, 2)))
+  val deleteList = List(1, 2)
+  val expectedOutput = List(("B", 3), ("B", 4), ("B", 5), ("B", 6))
+}
+
+class GroupByCoGroupCoGroupTriangleJob(args: Args) extends Job(args) {
+  import GroupByCoGroupCoGroupTriangleJob._
+
+  val inputTP = TypedPipe.from(inputData)
+  val deleteTP = TypedPipe.from(deleteList)
+
+  val groupedValues: TypedPipe[(String, Seq[Int])] =
+    inputTP
+      .groupBy(_._1)
+      .mapValueStream(x => x)
+      .values
+
+  val tuplesToDel =
+    groupedValues
+      .flatMap { case (str, seq) => seq.map { userId => (userId, str) } }
+      .join(deleteTP.asKeys)
+      .toTypedPipe
+      .map { case (userId, (name, _)) => (name, userId) }
+
+  groupedValues
+    .groupBy(_._1)
+    .leftJoin(tuplesToDel)
+    .filter { case (name, (_, isPartOfDeletedSet)) => isPartOfDeletedSet.isEmpty }
+    .values
+    .flatMap { case (tuple, _) => tuple._2.map { id => (tuple._1, id) } }
+    .write(output)
+}
+
 object PlatformTest {
   def setAutoForceRight(mode: Mode, autoForce: Boolean): Unit = {
     mode match {
@@ -777,7 +812,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val firstStepDescs = steps.headOption.map(_.getConfig.get(Config.StepDescriptions)).getOrElse("")
           val firstStepDescSet = firstStepDescs.split(",").map(_.trim).toSet
 
-          val expected = Set(276, 278, 279, 282, 283).map(linenum => /* WARNING: keep aligned with line numbers above */
+          val expected = Set(271, 273, 274, 277, 278).map(linenum => /* WARNING: keep aligned with line numbers above */
             s"com.twitter.scalding.platform.TypedPipeJoinWithDescriptionJob.<init>(PlatformTest.scala:${linenum})") ++ Seq("leftJoin", "hashJoin")
           firstStepDescSet should equal(expected)
           steps.map(_.getConfig.get(Config.StepDescriptions)).foreach(s => info(s))
@@ -909,7 +944,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
           val expectedDescs = Set("map stage - assign words to 1",
             "reduce stage - sum",
             "write") ++
-            Seq(263, 264, 266, 267, 268).map( /* WARNING: keep aligned with line numbers above */
+            Seq(258, 259, 261, 262, 263).map( /* WARNING: keep aligned with line numbers above */
               linenum => s"com.twitter.scalding.platform.TypedPipeWithDescriptionJob.<init>(PlatformTest.scala:${linenum})")
 
           val foundDescs = steps.map(_.getConfig.get(Config.StepDescriptions).split(",").map(_.trim).toSet)
@@ -1013,4 +1048,14 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
       assert(Option(result.getCause).exists(_.isInstanceOf[InvalidSourceException]))
     }
   }
+
+  "A GroupByCoGroupCoGroupTriangle job" should {
+    import GroupByCoGroupCoGroupTriangleJob._
+
+    "do a groupBy along with two coGroups and not lose an Each operation" in {
+      HadoopPlatformJobTest(new GroupByCoGroupCoGroupTriangleJob(_), cluster)
+        .sink[(String, Int)]("output") { _.toList shouldBe expectedOutput }
+        .run()
+    }
+  }
 }

From f31c612ff6f84d3f40d9814d213d41b28e666e10 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Cyrille=20Ch=C3=A9p=C3=A9lov?= <cyrille@chepelov.org>
Date: Tue, 11 Oct 2016 20:38:56 +0200
Subject: [PATCH 57/72] Remove two obsolete uses of reflection towards
 cascading 2.5/2.6/2.7 (#1609)

---
 .../scala/com/twitter/scalding/Tool.scala     | 26 ++++++++--------
 .../scala/com/twitter/scalding/Tracing.scala  | 30 ++-----------------
 2 files changed, 15 insertions(+), 41 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala b/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
index e428a57fc0..e54fad92ba 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Tool.scala
@@ -17,10 +17,9 @@ package com.twitter.scalding
 
 import cascading.flow.hadoop.HadoopFlow
 import cascading.flow.planner.BaseFlowStep
-
 import org.apache.hadoop.conf.Configured
 import org.apache.hadoop.mapred.JobConf
-import org.apache.hadoop.util.{ GenericOptionsParser, Tool => HTool, ToolRunner }
+import org.apache.hadoop.util.{ GenericOptionsParser, ToolRunner, Tool => HTool }
 
 import scala.annotation.tailrec
 import scala.collection.JavaConverters._
@@ -98,18 +97,17 @@ class Tool extends Configured with HTool {
         flow match {
           case hadoopFlow: HadoopFlow =>
             val flowSteps = hadoopFlow.getFlowSteps.asScala
-            flowSteps.foreach(step => {
-              val baseFlowStep: BaseFlowStep[JobConf] = step.asInstanceOf[BaseFlowStep[JobConf]]
-              val descriptions = baseFlowStep.getConfig.get(Config.StepDescriptions, "")
-              if (!descriptions.isEmpty) {
-                val stepXofYData = """\(\d+/\d+\)""".r.findFirstIn(baseFlowStep.getName).getOrElse("")
-                // Reflection is only temporary.  Latest cascading has setName public: https://github.com/cwensel/cascading/commit/487a6e9ef#diff-0feab84bc8832b2a39312dbd208e3e69L175
-                // https://github.com/twitter/scalding/issues/1294
-                val x = classOf[BaseFlowStep[JobConf]].getDeclaredMethod("setName", classOf[String])
-                x.setAccessible(true)
-                x.invoke(step, "%s %s".format(stepXofYData, descriptions))
-              }
-            })
+
+            flowSteps.foreach {
+              case baseFlowStep: BaseFlowStep[JobConf @unchecked] =>
+                val descriptions = Option(baseFlowStep.getConfig.get(Config.StepDescriptions))
+                val stepXofYData = """\(\d+/\d+\)""".r.findFirstIn(baseFlowStep.getName)
+
+                (descriptions, stepXofYData) match {
+                  case (Some(d), Some(s)) => baseFlowStep.setName(s"${s} ${d}")
+                  case (_, _) => () // keep the existing name, don't apply the description
+                }
+            }
           case _ => // descriptions not yet supported in other modes
         }
 
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/Tracing.scala b/scalding-core/src/main/scala/com/twitter/scalding/Tracing.scala
index f70e81b3ae..76469a86ad 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/Tracing.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/Tracing.scala
@@ -18,6 +18,7 @@ package com.twitter.scalding
 
 import java.lang.reflect.InvocationTargetException
 
+import cascading.util.TraceUtil
 import org.slf4j.{ Logger, LoggerFactory => LogManager }
 
 /**
@@ -34,10 +35,6 @@ import org.slf4j.{ Logger, LoggerFactory => LogManager }
 object Tracing {
   private val LOG: Logger = LogManager.getLogger(this.getClass)
 
-  // TODO: remove this once we no longer want backwards compatiblity
-  // with cascading versions pre 2.6
-  private val traceUtilClassName = "cascading.util.TraceUtil"
-
   /**
    * Put a barrier at com.twitter.scalding, but exclude things like Tool
    * that are common entry points for calling user code
@@ -58,7 +55,7 @@ object Tracing {
    * tracing boundary. Normally not needed, but may be useful
    * after a call to unregister()
    */
-  def register(regex: String = defaultRegex) = invokeStaticMethod(traceUtilClassName, "registerApiBoundary", regex)
+  def register(regex: String = defaultRegex) = TraceUtil.registerApiBoundary(regex)
 
   /**
    * Unregisters "com.twitter.scalding" as a Cascading
@@ -68,27 +65,6 @@ object Tracing {
    * should normally not be called but can be useful in testing
    * the development of Scalding internals
    */
-  def unregister(regex: String = defaultRegex) = invokeStaticMethod(traceUtilClassName, "unregisterApiBoundary", regex)
+  def unregister(regex: String = defaultRegex) = TraceUtil.unregisterApiBoundary(regex)
 
-  /**
-   * Use reflection to register/unregister tracing boundaries so that cascading versions prior to 2.6 can be used
-   * without completely breaking
-   */
-  private def invokeStaticMethod(clazz: String, methodName: String, args: AnyRef*): Unit = {
-    try {
-      val argTypes = args map (_.getClass())
-      Class.forName(clazz).getMethod(methodName, argTypes: _*).invoke(null, args: _*)
-    } catch {
-      case e @ (_: NoSuchMethodException |
-        _: SecurityException |
-        _: IllegalAccessException |
-        _: IllegalArgumentException |
-        _: InvocationTargetException |
-        _: NullPointerException |
-        _: ClassNotFoundException) => LOG.warn("There was an error initializing tracing. " +
-        "Tracing information in DocumentServices such as Driven may point to Scalding code instead of " +
-        "user code. The most likely cause is a mismatch in Cascading library version. Upgrading the " +
-        "Cascading library to at least 2.6 should fix this issue.The cause was [" + e + "]")
-    }
-  }
 }
\ No newline at end of file

From dcc736f77449770ce23c825755337ae4555066d7 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Cyrille=20Ch=C3=A9p=C3=A9lov?= <cyrille@chepelov.org>
Date: Thu, 27 Oct 2016 03:34:22 +0200
Subject: [PATCH 58/72] Avoid sending a tree of multiple nested cascading.Merge
 when merging multiple inputs (#1605)

---
 .../scala/com/twitter/scalding/RichPipe.scala |  58 ++++++-
 .../twitter/scalding/typed/TypedPipe.scala    |  23 +--
 .../com/twitter/scalding/TypedPipeTest.scala  | 152 ++++++++++++++++++
 3 files changed, 214 insertions(+), 19 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index 7398c1d434..13b892c7f4 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -128,7 +128,9 @@ object RichPipe extends java.io.Serializable {
         // because cascading assumes it knows all the Pipe subtypes
         // and fails to match any others (think of it as a sealed trait)
         // So we handle all special types before checking for the assignName case
-        case other @ (_: Checkpoint | _: Operator | _: Splice | _: SubAssembly) =>
+        case other @ (hj: HashJoin) =>
+          collect ++ getJoinedPipeSet(hj)
+        case other @ (_: Checkpoint | _: Operator | _: Splice /* except HashJoin*/ | _: SubAssembly) =>
           collect :+ other
         case renamedPipe: Pipe =>
           // this is the assignName case
@@ -157,6 +159,60 @@ object RichPipe extends java.io.Serializable {
         false
     }
   }
+
+  /**
+   * Special handling for cases where one side of the hashjoin is merged
+   *  with the hashjoin result. Cascading no longer allows it (as of 3.0),
+   *  so we insert checkpoints and/or intermediate merge stages as appropriate
+   *
+   * @param head the first pipe to be merged
+   * @param tail a list of other pipes to be merged within the first
+   *
+   * @return an updated list of pipes, which can safely be merged
+   */
+  private[scalding] def mergeAvoidingHashes(head: Pipe, tail: List[Pipe]): Pipe = {
+
+    // we make use of the fact that the pipe merge operation is not just associative but also commutative
+    val pipes = head :: tail
+    val (colliding, uncolliding) = pipes.partition(p => pipes.exists(o => (o != p) && isHashJoinedWithPipe(p, o)))
+
+    val (innerColliding, innerUncolliding) = colliding.partition(p =>
+      colliding.exists(o => (o != p) && (isHashJoinedWithPipe(p, o) || isHashJoinedWithPipe(o, p))))
+    /* innerUncolliding pipes collide with some pipes in the uncolliding set, but don't collide with one another.
+     It is fine to lump them and merge them together before merging with the 'uncolliding' set.
+
+      innerColliding pipes collide with one another and must each be checkpointed before use in the general merge.
+     */
+    val safedInnerColliding = innerColliding.map(new Checkpoint(_))
+    val safedInnerUncolliding =
+      if (innerUncolliding.isEmpty) Nil
+      else List(new Checkpoint(mergeAvoidingNameClashes(innerUncolliding.head, innerUncolliding.tail)))
+
+    val reassembled = safedInnerColliding ::: safedInnerUncolliding ::: uncolliding
+    mergeAvoidingNameClashes(reassembled.head, reassembled.tail)
+  }
+
+  /**
+   * Cascading Merge does not support having multiple incoming pipes with the same name.
+   * Selectively rename pipes to avoid naming conflicts.
+   *
+   * @param head the first pipe to be merged (or checkpointed)
+   * @param tail a list of other pipes to be merged within the first
+   * @return a Merge of input pipes with any name clashes removed, or the input pipe if there was only one
+   */
+  private[scalding] def mergeAvoidingNameClashes(head: Pipe, tail: List[Pipe]): Pipe = tail match {
+    case Nil => head // avoid generating new Merge(pipes.head)
+    case _ =>
+      val (result, buf) = tail.foldLeft((List[Pipe](head), Set[String](head.getName))) {
+        case ((result, names), p) =>
+          if (names.contains(p.getName))
+            (assignName(p) :: result, names) /* no need to add the new name to names: assignName is guaranteed unique
+                                               and never assigned again */
+          else (p :: result, names + p.getName)
+      }
+      new Merge(result: _*)
+  }
+
 }
 
 /**
diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
index 06631b036c..561afa7c1d 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/TypedPipe.scala
@@ -1089,24 +1089,11 @@ final case class MergedTypedPipe[T](left: TypedPipe[T], right: TypedPipe[T]) ext
         case (pipe, cnt) => pipe.flatMap(List.fill(cnt)(_).iterator)
       }
       .map(_.toPipe[U](fieldNames)(flowDef, mode, setter)) // linter:ignore
-      .toList
-
-    if (merged.size == 1) {
-      // there is no actual merging here, no need to rename:
-      merged.head
-    } else {
-      merged.reduce[Pipe] {
-        case (left, right) =>
-          // special handling for cases where one side of the hashjoin is merged
-          // with the hashjoin result. Cascading no longer allows it,
-          // so we add a checkpoint to the join result as a workaround
-          if (RichPipe.isHashJoinedWithPipe(left, right))
-            new Merge(RichPipe.assignName(new Checkpoint(left)), RichPipe.assignName(right))
-          else if (RichPipe.isHashJoinedWithPipe(right, left))
-            new Merge(RichPipe.assignName(left), RichPipe.assignName(new Checkpoint(right)))
-          else
-            new Merge(RichPipe.assignName(left), RichPipe.assignName(right))
-      }
+
+    merged match {
+      case Nil => sys.error("we can never merge to create 0 pipes") // should never happen as we cannot create this without two incoming pipes
+      case h :: Nil => h
+      case h :: tail => RichPipe.mergeAvoidingHashes(h, tail)
     }
   }
 
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
index 54c225e79b..39aebfb2a6 100644
--- a/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
+++ b/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
@@ -808,6 +808,158 @@ class TypedMergeTest extends WordSpec with Matchers {
   }
 }
 
+class TypedHashAndMergeJob(args: Args) extends Job(args) {
+  val tp = TypedPipe.from(TypedText.tsv[String]("input"))
+  val tp2 = TypedPipe.from(TypedText.tsv[(String, Int)]("mixin"))
+
+  val x = tp.groupBy(x => x)
+    .hashJoin(tp2.group)
+    .values
+    .map { case (s, i) => s"${s}-${i}" }
+
+  (x ++ tp)
+    .write(TypedText.tsv[String]("output"))
+}
+
+class TypedHashAndMergeTest extends WordSpec with Matchers {
+  import Dsl._
+  "A TypedMergeJob" should {
+    var idx = 0
+    JobTest(new TypedHashAndMergeJob(_))
+      .source(TypedText.tsv[String]("input"), List(Tuple1("abc"), Tuple1("def"), Tuple1("ghi")))
+      .source(TypedText.tsv[(String, Int)]("mixin"), List("def" -> 2, "ghi" -> 3))
+      .typedSink(TypedText.tsv[String]("output")) { outBuf =>
+        (idx + ": correctly run despite a hash-merge situation") in { /* which isn't straightforward in Cascading */
+          outBuf.toSet shouldBe Set("def-2", "ghi-3", "abc", "def", "ghi")
+        }
+        idx += 1
+      }
+      .runHadoop
+      .finish()
+  }
+}
+
+trait TypedComplexHashAndMergeJobBase {
+  def ta: TypedPipe[String]
+  def taXb: TypedPipe[String]
+  def tc: TypedPipe[String]
+  def td: TypedPipe[String]
+  def tdXe: TypedPipe[String]
+}
+
+class TypedComplexHashAndMergeJob(args: Args ,
+                                  fieldsToMerge: Seq[(String, TypedComplexHashAndMergeJobBase => TypedPipe[String])])
+  extends Job(args) with TypedComplexHashAndMergeJobBase {
+
+  override def name: String = super.name + " (" + fieldsToMerge.map(_._1).mkString(" ++ ") + ")"
+
+  val ta = TypedPipe.from(TypedText.tsv[String]("a"))
+  val tb = TypedPipe.from(TypedText.tsv[(String, Int)]("b"))
+
+  val tc = TypedPipe.from(TypedText.tsv[String]("c"))
+  val td = TypedPipe.from(TypedText.tsv[String]("d"))
+  val te = TypedPipe.from(TypedText.tsv[(String, Int)]("e"))
+
+  val taXb: TypedPipe[String] = ta.groupBy(x => x).hashJoin(tb.group).values.map { case (s, i) => s"${s}→${i}" }
+  val tdXe: TypedPipe[String] = td.groupBy(x => x).hashJoin(te.group).values.map { case (s, i) => s"${s}⇒${i}" }
+
+  fieldsToMerge.map(_._2(this)).reduce(_ ++ _)
+    .write(TypedText.tsv[String]("output"))
+}
+
+class TypedComplexHashAndMergeTest extends WordSpec with Matchers {
+  import Dsl._
+
+  val fields = Seq[(String, TypedComplexHashAndMergeJobBase => TypedPipe[String])](
+    ("a", _.ta),
+    ("a∩b", _.taXb),
+    ("c", _.tc),
+    ("d",  _.td),
+    ("d∩e", _.tdXe))
+
+  val selection = fields.permutations.take(3) // Take'em all if you need to prove all permutations work equally (kind of slow, and internally we do use commutativity)
+
+  selection.foreach(perm => {
+    val permName = perm.map(_._1).mkString(" ++ ")
+
+    s"A TypedComplexHashAndMergeJob ${permName}" should {
+      var idx = 0
+
+      JobTest(new TypedComplexHashAndMergeJob(_: Args, perm))
+        .source(TypedText.tsv[String]("a"), List(Tuple1("a1"), Tuple1("a2"), Tuple1("a3"), Tuple1("a4")))
+        .source(TypedText.tsv[(String, Int)]("b"), List("a2" -> 2, "a3" -> 3, "a6" -> 6, "d2" -> 7, "d3" -> 8))
+        .source(TypedText.tsv[String]("c"), List(Tuple1("c1"), Tuple1("c2")))
+        .source(TypedText.tsv[String]("d"), List(Tuple1("d1"), Tuple1("d2"), Tuple1("d3"), Tuple1("d4")))
+        .source(TypedText.tsv[(String, Int)]("e"), List("d2" -> 4, "d3" -> 5, "a2" -> 9))
+        .typedSink(TypedText.tsv[String]("output")) { outBuf =>
+          (s"${idx}: correctly run despite a hash-merge situation") in {
+            /* which isn't straightforward in Cascading */
+
+            outBuf.toSet shouldBe Set("a1", "a2", "a3", "a4", "a2→2", "a3→3",
+              "c1", "c2", "d1", "d2", "d3", "d4", "d2⇒4", "d3⇒5")
+          }
+          idx += 1
+        }
+        .runWithoutNext(true) // .runHadoop but we don't want the hadoop thing to run everything at once.
+        .finish()
+    }
+  })
+}
+
+class TypedTwistedHashAndMergeJob(args: Args) extends Job(args) {
+  /* The purpose of this job is to find a complex case where TypedPipe#mergeAvoidingHashes might fail to stop */
+
+  val ta = TypedPipe.from(TypedText.tsv[String]("a"))
+  val tb = TypedPipe.from(TypedText.tsv[(String, Int)]("b"))
+
+  val td = TypedPipe.from(TypedText.tsv[String]("d"))
+  val te = TypedPipe.from(TypedText.tsv[(String, Int)]("e"))
+
+  val taXb: TypedPipe[String] = ta.groupBy(x => x).hashJoin(tb.group).values.map { case (s, i) => s"${s}→${i}" }
+  val tdXe: TypedPipe[String] = td.groupBy(x => x).hashJoin(te.group).values.map { case (s, i) => s"${s}⇒${i}" }
+
+  val taXbXe: TypedPipe[String] = taXb.groupBy(_.split("→").head).hashJoin(te.group).values.map { case (s, i) => s"${s}→${i}" }
+  val tdXeXb: TypedPipe[String] = tdXe.groupBy(_.split("⇒").head).hashJoin(tb.group).values.map { case (s, i) => s"${s}⇒${i}" }
+
+  val twistA = taXbXe.map(x => {
+    val y = x.split("→", 1)
+    (y.head, y.tail)
+  }).group
+
+  val twistB = tdXeXb.map(x => {
+    val y = x.split("⇒", 1)
+    (y.head, y.tail)
+  }).group
+
+  val twistAB: TypedPipe[String] = twistA.hashJoin(twistB).values.map { case (a,b) => a + "≡" + b }
+  val twistBA: TypedPipe[String] = twistB.hashJoin(twistA).values.map { case (a,b) => a + "≢" + b }
+
+  (taXbXe ++ tdXeXb ++ twistAB ++ twistBA)
+    .write(TypedText.tsv[String]("output"))
+}
+
+class TypedTwistedHashAndMergeTest extends WordSpec with Matchers {
+  import Dsl._
+
+  s"A TypedTwistedHashAndMergeTest" should {
+    var idx = 0
+
+    JobTest(new TypedTwistedHashAndMergeJob(_: Args))
+      .source(TypedText.tsv[String]("a"), List(Tuple1("a1"), Tuple1("a2"), Tuple1("a3"), Tuple1("a4")))
+      .source(TypedText.tsv[(String, Int)]("b"), List("a2" -> 2, "a3" -> 3, "a6" -> 6, "d2" -> 7, "d3" -> 8))
+      .source(TypedText.tsv[String]("d"), List(Tuple1("d1"), Tuple1("d2"), Tuple1("d3"), Tuple1("d4")))
+      .source(TypedText.tsv[(String, Int)]("e"), List("d2" -> 4, "d3" -> 5, "a2" -> 9))
+      .typedSink(TypedText.tsv[String]("output")) { outBuf =>
+        (s"${idx}: correctly run despite a hash-merge situation") in {
+          outBuf.toSet shouldBe Set("d2⇒4⇒7", "d3⇒5⇒8", "a2→2→9")
+        }
+        idx += 1
+      }
+      .runHadoop
+      .finish()
+  }
+}
+
 class TypedShardJob(args: Args) extends Job(args) {
   (TypedPipe.from(TypedText.tsv[String]("input")) ++
     (TypedPipe.empty.map { _ => "hey" }) ++

From ee5f6996a06c37459b2ef775a3c4744a67b438ae Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Tue, 2 Jan 2018 10:41:49 -0500
Subject: [PATCH 59/72] Fix StepNum / StepID in HRavenHistory service test

---
 .../scalding/hraven/estimation/HRavenHistoryServiceTest.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala b/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
index 734aa755e7..40f989ad61 100644
--- a/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
+++ b/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
@@ -83,7 +83,7 @@ object TestFlowStrategyInfo {
     val mockedInfo = mock(classOf[FlowStrategyInfo])
 
     when(mockedStep.getConfig).thenReturn(mockedConf)
-    when(mockedStep.getStepNum).thenReturn(stepNum)
+    when(mockedStep.getID).thenReturn(stepNum.toString)
     when(mockedInfo.step).thenReturn(mockedStep)
 
     mockedInfo

From 41fbdb163caa7326d642df9dca64e2ca4a7356a2 Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Tue, 2 Jan 2018 18:09:32 -0500
Subject: [PATCH 60/72] Fix VKVS test broken by merge

---
 .../commons/VersionedKeyValSourceTest.scala    | 18 ++++++++++++------
 1 file changed, 12 insertions(+), 6 deletions(-)

diff --git a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
index ad8c7320c9..93d38ed42b 100644
--- a/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
+++ b/scalding-commons/src/test/scala/com/twitter/scalding/commons/VersionedKeyValSourceTest.scala
@@ -19,14 +19,14 @@ import org.apache.hadoop.fs.Path
 import org.scalatest.{ Matchers, WordSpec }
 import com.twitter.scalding._
 import com.twitter.scalding.commons.datastores.VersionedStore
-import com.twitter.scalding.typed.IterablePipe
 import com.twitter.bijection.Injection
 import com.google.common.io.Files
-import org.apache.hadoop.mapred.JobConf
-import java.io.{ File, FileWriter }
-import org.apache.hadoop.mapred.{SequenceFileInputFormat, JobConf}
+import java.io.FileWriter
 
+import org.apache.hadoop.mapred.{ JobConf, SequenceFileInputFormat }
 import java.io.File
+
+import org.apache.hadoop.conf.Configuration
 // Use the scalacheck generators
 import scala.collection.mutable.Buffer
 
@@ -145,7 +145,7 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
 
       val keyValueSize = VersionedKeyValSource(path)
         .source
-        .getSize(new JobConf())
+        .getSize(new Configuration())
 
       contentSize should be (keyValueSize)
     }
@@ -162,7 +162,13 @@ class VersionedKeyValSourceTest extends WordSpec with Matchers {
       val p = store.createVersion(v)
       new File(p).mkdirs()
       // create a part file here
-      new File(p + "/part-00000").createNewFile()
+      contentFn(v)
+        .foreach { text =>
+          val content = new FileWriter(new File(p + "/test"))
+          content.write(text)
+          content.close()
+        }
+
       // and succeed
       store.succeedVersion(p)
     }

From 398878faa85b0529a1ab6e18d88bf7e5f0b54dab Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 3 Jan 2018 10:48:38 -0500
Subject: [PATCH 61/72] Fix Guava exclusion error

---
 build.sbt | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index 68ae541d4b..9447b4da5c 100644
--- a/build.sbt
+++ b/build.sbt
@@ -443,7 +443,8 @@ lazy val scaldingParquetScroogeCascading = module("parquet-scrooge-cascading")
         exclude("org.apache.parquet", "parquet-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-pig")
         exclude("com.twitter.elephantbird", "elephant-bird-core"),
-       "com.twitter" %% "scrooge-serializer" % scroogeVersion,
+      "com.twitter" %% "scrooge-serializer" % scroogeVersion
+        exclude("com.google.guava", "guava"),
       "org.apache.hadoop" % "hadoop-client" % hadoopVersion % "provided"
         exclude("com.google.guava", "guava"),
       "junit" % "junit" % junitVersion % "test"

From c4723c14d30826295f7b3629fdf658cdd790796e Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 3 Jan 2018 12:38:47 -0500
Subject: [PATCH 62/72] Switch to getOrdinal instead of stepNum in
 HRavenHistoryService

---
 .../scalding/hraven/estimation/HRavenHistoryService.scala       | 2 +-
 .../scalding/hraven/estimation/HRavenHistoryServiceTest.scala   | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryService.scala b/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryService.scala
index 50481c48cc..a599e6c1e2 100644
--- a/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryService.scala
+++ b/scalding-hraven/src/main/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryService.scala
@@ -145,7 +145,7 @@ trait HRavenHistoryService extends HistoryService {
    */
   def fetchPastJobDetails(step: FlowStep[JobConf], max: Int): Try[Seq[JobDetails]] = {
     val conf = step.getConfig
-    val stepNum = step.getID.toInt
+    val stepNum = step.getOrdinal
 
     def findMatchingJobStep(pastFlow: Flow) =
       pastFlow.getJobs.asScala.find { step =>
diff --git a/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala b/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
index 40f989ad61..0d8edd9a0e 100644
--- a/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
+++ b/scalding-hraven/src/test/scala/com/twitter/scalding/hraven/estimation/HRavenHistoryServiceTest.scala
@@ -83,7 +83,7 @@ object TestFlowStrategyInfo {
     val mockedInfo = mock(classOf[FlowStrategyInfo])
 
     when(mockedStep.getConfig).thenReturn(mockedConf)
-    when(mockedStep.getID).thenReturn(stepNum.toString)
+    when(mockedStep.getOrdinal).thenReturn(stepNum)
     when(mockedInfo.step).thenReturn(mockedStep)
 
     mockedInfo

From 5bc26fd0ca813dfd539515145ad3b0d182a71430 Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 17 Jan 2018 15:26:06 -0500
Subject: [PATCH 63/72] Use getOrdinal

---
 .../scalding/estimation/memory/MemoryEstimatorTest.scala      | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala b/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
index ee4d65b123..25e4d47acf 100644
--- a/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
+++ b/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
@@ -143,9 +143,9 @@ class CustomHistoryService(val history: JobConf => Seq[(String, Long)]) extends
   import Utils._
 
   override def fetchHistory(info: FlowStrategyInfo, maxHistory: Int): Try[Seq[FlowStepHistory]] = {
-    if (info.step.getStepNum == 1) {
+    if (info.step.getOrdinal == 1) {
       makeHistory(info.step.getConfig, history)
-    } else if (info.step.getStepNum == 2) {
+    } else if (info.step.getOrdinal == 2) {
       Success(Nil)
     } else {
       makeHistory(info.step.getConfig, _ => Seq(

From 4e64cb5b9f4bb22d581ebf4aba0b947908ad81ee Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 17 Jan 2018 19:17:57 -0500
Subject: [PATCH 64/72] Include Cyrille's fix from #1605

---
 .../cascading_backend/CascadingBackend.scala  | 35 +++++++------------
 1 file changed, 13 insertions(+), 22 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
index a03d2afc93..8bb25ec301 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
@@ -2,26 +2,17 @@ package com.twitter.scalding.typed.cascading_backend
 
 import cascading.flow.FlowDef
 import cascading.operation.Operation
-import cascading.pipe.{ CoGroup, Each, Pipe, HashJoin }
-import cascading.tuple.{ Fields, Tuple => CTuple, TupleEntry }
-import com.twitter.scalding.TupleConverter.{ singleConverter, tuple2Converter }
-import com.twitter.scalding.TupleSetter.{ singleSetter, tup2Setter }
-import com.twitter.scalding.{
-  CleanupIdentityFunction, Config, Dsl, Field, FlatMapFunction, FlowStateMap, GroupBuilder,
-  HadoopMode, LineNumber, IterableSource, MapsideReduce, Mode,
-  RichPipe, TupleConverter, TupleGetter, TupleSetter, TypedBufferOp, WrappedJoiner, Write
-}
+import cascading.pipe.{CoGroup, Each, HashJoin, Pipe}
+import cascading.tuple.{Fields, TupleEntry, Tuple => CTuple}
+import com.twitter.scalding.TupleConverter.{singleConverter, tuple2Converter}
+import com.twitter.scalding.TupleSetter.{singleSetter, tup2Setter}
+import com.twitter.scalding.{CleanupIdentityFunction, Config, Dsl, Field, FlatMapFunction, FlowStateMap, GroupBuilder, HadoopMode, IterableSource, LineNumber, MapsideReduce, Mode, RichPipe, TupleConverter, TupleGetter, TupleSetter, TypedBufferOp, WrappedJoiner, Write}
 import com.twitter.scalding.typed._
-import com.twitter.scalding.serialization.{
-  Boxed,
-  BoxedOrderedSerialization,
-  CascadingBinaryComparator,
-  EquivSerialization,
-  OrderedSerialization,
-  WrappedSerialization
-}
+import com.twitter.scalding.serialization.{Boxed, BoxedOrderedSerialization, CascadingBinaryComparator, EquivSerialization, OrderedSerialization, WrappedSerialization}
 import java.util.WeakHashMap
-import scala.collection.mutable.{ Map => MMap }
+
+import scala.collection.immutable
+import scala.collection.mutable.{Map => MMap}
 
 object CascadingBackend {
   import TypedPipe._
@@ -274,14 +265,14 @@ object CascadingBackend {
         uniquePipes match {
           case Nil => loop(EmptyTypedPipe, rest, ds ::: descriptions)
           case h :: Nil => loop(h, rest, ds ::: descriptions)
-          case otherwise =>
+          case h :: tail =>
             // push all the remaining flatmaps up:
-            val pipes = otherwise.map(loop(_, rest, Nil))
-            // make the cascading pipe
             // TODO: a better optimization is to not materialize this
             // node at all if there is no fan out since groupBy and cogroupby
             // can accept multiple inputs
-            val merged = new cascading.pipe.Merge(pipes.map(RichPipe.assignName): _*)
+            val headPipe = loop(h, rest, ds ::: descriptions)
+            val tailPipes = tail.map(loop(_, rest, Nil))
+            val merged = RichPipe.mergeAvoidingHashes(headPipe, tailPipes)
             applyDescriptions(merged, ds ::: descriptions)
         }
       case src@SourcePipe(_) =>

From cc7f24920cb2676136b7e7f0a88420b5db17291d Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 17 Jan 2018 19:18:31 -0500
Subject: [PATCH 65/72] Scala formatting fixes

---
 .../com/twitter/scalding/TypedPipeTest.scala  | 10 +--
 .../MemoryEstimatorStepStrategyTest.scala     |  7 +-
 .../SmoothedHistoryMemoryEstimatorTest.scala  | 90 +++++++++----------
 3 files changed, 49 insertions(+), 58 deletions(-)

diff --git a/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
index 96a0506d6a..639f0fd3c6 100644
--- a/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
+++ b/scalding-core/src/test/scala/com/twitter/scalding/TypedPipeTest.scala
@@ -857,8 +857,8 @@ trait TypedComplexHashAndMergeJobBase {
   def tdXe: TypedPipe[String]
 }
 
-class TypedComplexHashAndMergeJob(args: Args ,
-                                  fieldsToMerge: Seq[(String, TypedComplexHashAndMergeJobBase => TypedPipe[String])])
+class TypedComplexHashAndMergeJob(args: Args,
+  fieldsToMerge: Seq[(String, TypedComplexHashAndMergeJobBase => TypedPipe[String])])
   extends Job(args) with TypedComplexHashAndMergeJobBase {
 
   override def name: String = super.name + " (" + fieldsToMerge.map(_._1).mkString(" ++ ") + ")"
@@ -884,7 +884,7 @@ class TypedComplexHashAndMergeTest extends WordSpec with Matchers {
     ("a", _.ta),
     ("a∩b", _.taXb),
     ("c", _.tc),
-    ("d",  _.td),
+    ("d", _.td),
     ("d∩e", _.tdXe))
 
   val selection = fields.permutations.take(3) // Take'em all if you need to prove all permutations work equally (kind of slow, and internally we do use commutativity)
@@ -941,8 +941,8 @@ class TypedTwistedHashAndMergeJob(args: Args) extends Job(args) {
     (y.head, y.tail)
   }).group
 
-  val twistAB: TypedPipe[String] = twistA.hashJoin(twistB).values.map { case (a,b) => a + "≡" + b }
-  val twistBA: TypedPipe[String] = twistB.hashJoin(twistA).values.map { case (a,b) => a + "≢" + b }
+  val twistAB: TypedPipe[String] = twistA.hashJoin(twistB).values.map { case (a, b) => a + "≡" + b }
+  val twistBA: TypedPipe[String] = twistB.hashJoin(twistA).values.map { case (a, b) => a + "≢" + b }
 
   (taXbXe ++ tdXeXb ++ twistAB ++ twistBA)
     .write(TypedText.tsv[String]("output"))
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategyTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategyTest.scala
index 0b8ce6e6ec..0a2a34e767 100644
--- a/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategyTest.scala
+++ b/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategyTest.scala
@@ -1,7 +1,7 @@
 package com.twitter.scalding.estimation.memory
 
 import org.apache.hadoop.mapred.JobConf
-import org.scalatest.{Matchers, WordSpec}
+import org.scalatest.{ Matchers, WordSpec }
 
 class MemoryEstimatorStepStrategyTest extends WordSpec with Matchers {
   "A Memory estimator step strategy" should {
@@ -28,8 +28,9 @@ class MemoryEstimatorStepStrategyTest extends WordSpec with Matchers {
   def confWith(values: Map[String, String]): JobConf = {
     val conf = new JobConf(false)
 
-    values.foreach { case (k, v) =>
-      conf.set(k, v)
+    values.foreach {
+      case (k, v) =>
+        conf.set(k, v)
     }
 
     conf
diff --git a/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/SmoothedHistoryMemoryEstimatorTest.scala b/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/SmoothedHistoryMemoryEstimatorTest.scala
index 8184e1d369..0173a9a16f 100644
--- a/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/SmoothedHistoryMemoryEstimatorTest.scala
+++ b/scalding-core/src/test/scala/com/twitter/scalding/estimation/memory/SmoothedHistoryMemoryEstimatorTest.scala
@@ -1,12 +1,12 @@
 package com.twitter.scalding.estimation.memory
 
 import cascading.flow.FlowStep
-import com.twitter.scalding.estimation.{FlowStepHistory, FlowStrategyInfo, HistoryService, Task}
+import com.twitter.scalding.estimation.{ FlowStepHistory, FlowStrategyInfo, HistoryService, Task }
 import org.apache.hadoop.mapred.JobConf
 import org.mockito.Mockito._
 import org.mockito.Matchers._
-import org.scalatest.{Matchers, WordSpec}
-import scala.util.{Success, Try}
+import org.scalatest.{ Matchers, WordSpec }
+import scala.util.{ Success, Try }
 
 class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
   import Utils._
@@ -19,8 +19,7 @@ class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
     "estimate correct numbers for only reducers" in {
       val estimation = SmoothedMemoryEstimator
         .makeHistory(Seq(
-          "REDUCE" -> 1024.megabytes
-        ))
+          "REDUCE" -> 1024.megabytes))
         .estimate(TestFlowStrategyInfo.dummy)
 
       estimation shouldBe reduceEstimate((1228, 1536))
@@ -29,8 +28,7 @@ class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
     "estimate correct numbers for only mappers" in {
       val estimation = SmoothedMemoryEstimator
         .makeHistory(Seq(
-          "MAP" -> 1024.megabytes
-        ))
+          "MAP" -> 1024.megabytes))
         .estimate(TestFlowStrategyInfo.dummy)
 
       estimation shouldBe mapEstimate((1228, 1536))
@@ -46,8 +44,7 @@ class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
           "MAP" -> 1300.megabytes,
           "REDUCE" -> 1300.megabytes,
           "MAP" -> 723.megabytes,
-          "REDUCE" -> 723.megabytes
-        ))
+          "REDUCE" -> 723.megabytes))
         .estimate(TestFlowStrategyInfo.dummy)
 
       estimation shouldBe Some(MemoryEstimate(Some((1228, 1536)), Some((1228, 1536))))
@@ -57,14 +54,12 @@ class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
       val conf = TestFlowStrategyInfo.dummy.step.getConfig
       val estimation = SmoothedMemoryEstimator
         .makeHistory(Seq(
-          "MAP" -> (MemoryEstimatorConfig.getMaxContainerMemory(conf).megabyte + 1.gigabyte)
-        ))
+          "MAP" -> (MemoryEstimatorConfig.getMaxContainerMemory(conf).megabyte + 1.gigabyte)))
         .estimate(TestFlowStrategyInfo.dummy)
 
       val expectedEstimation = (
         (MemoryEstimatorConfig.getMaxContainerMemory(conf) / MemoryEstimatorConfig.getXmxScaleFactor(conf)).toLong,
-        MemoryEstimatorConfig.getMaxContainerMemory(conf)
-      )
+        MemoryEstimatorConfig.getMaxContainerMemory(conf))
 
       estimation shouldBe mapEstimate(expectedEstimation)
     }
@@ -73,14 +68,12 @@ class SmoothedHistoryMemoryEstimatorTest extends WordSpec with Matchers {
       val conf = TestFlowStrategyInfo.dummy.step.getConfig
       val estimation = SmoothedMemoryEstimator
         .makeHistory(Seq(
-          "MAP" -> (MemoryEstimatorConfig.getMinContainerMemory(conf).megabyte - 500.megabyte)
-        ))
+          "MAP" -> (MemoryEstimatorConfig.getMinContainerMemory(conf).megabyte - 500.megabyte)))
         .estimate(TestFlowStrategyInfo.dummy)
 
       val expectedEstimation = (
         (MemoryEstimatorConfig.getMinContainerMemory(conf) / MemoryEstimatorConfig.getXmxScaleFactor(conf)).toLong,
-        MemoryEstimatorConfig.getMinContainerMemory(conf)
-      )
+        MemoryEstimatorConfig.getMinContainerMemory(conf))
 
       estimation shouldBe mapEstimate(expectedEstimation)
     }
@@ -94,39 +87,36 @@ object EmptyHistoryService extends HistoryService {
 
 class DummyHistoryService(val history: Seq[(String, Long)]) extends HistoryService {
   override def fetchHistory(info: FlowStrategyInfo, maxHistory: Int): Try[Seq[FlowStepHistory]] = {
-    Success(history.map { case (taskType, memory) =>
-      val task = Task(
-        details = Map(
-          Task.TaskType -> taskType
-        ),
-        counters = Map(
-          SmoothedHistoryMemoryEstimator.CommittedHeapBytes -> memory
-        )
-      )
-      val tasks = Seq(task)
-      FlowStepHistory(
-        keys = null,
-        submitTimeMillis = 0,
-        launchTimeMillis = 0L,
-        finishTimeMillis = 0L,
-        totalMaps = 0L,
-        totalReduces = 0L,
-        finishedMaps = 0L,
-        finishedReduces = 0L,
-        failedMaps = 0L,
-        failedReduces = 0L,
-        mapFileBytesRead = 0L,
-        mapFileBytesWritten = 0L,
-        mapOutputBytes = 0l,
-        reduceFileBytesRead = 0l,
-        hdfsBytesRead = 0l,
-        hdfsBytesWritten = 0L,
-        mapperTimeMillis = 0L,
-        reducerTimeMillis = 0L,
-        reduceShuffleBytes = 0L,
-        cost = 1.1,
-        tasks = tasks
-      )
+    Success(history.map {
+      case (taskType, memory) =>
+        val task = Task(
+          details = Map(
+            Task.TaskType -> taskType),
+          counters = Map(
+            SmoothedHistoryMemoryEstimator.CommittedHeapBytes -> memory))
+        val tasks = Seq(task)
+        FlowStepHistory(
+          keys = null,
+          submitTimeMillis = 0,
+          launchTimeMillis = 0L,
+          finishTimeMillis = 0L,
+          totalMaps = 0L,
+          totalReduces = 0L,
+          finishedMaps = 0L,
+          finishedReduces = 0L,
+          failedMaps = 0L,
+          failedReduces = 0L,
+          mapFileBytesRead = 0L,
+          mapFileBytesWritten = 0L,
+          mapOutputBytes = 0l,
+          reduceFileBytesRead = 0l,
+          hdfsBytesRead = 0l,
+          hdfsBytesWritten = 0L,
+          mapperTimeMillis = 0L,
+          reducerTimeMillis = 0L,
+          reduceShuffleBytes = 0L,
+          cost = 1.1,
+          tasks = tasks)
     })
   }
 }

From 5f1987e876246776fad6c1c2ac05d506f093142f Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Mon, 22 Jan 2018 09:48:18 -0500
Subject: [PATCH 66/72] Switch step count to 3 in
 MergeTwoSinksForceToDiskTypedJob test

---
 .../scala/com/twitter/scalding/platform/PlatformTest.scala   | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
index 98dd08b591..dff7cc316a 100644
--- a/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
+++ b/scalding-hadoop-test/src/test/scala/com/twitter/scalding/platform/PlatformTest.scala
@@ -623,7 +623,6 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
     }
   }
 
-
   "A MergeTwoSinksForceToDiskJob" should {
     import TinyJoinAndMergeJob._
 
@@ -652,7 +651,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
         .sink(output2) { _.toSet == outputData.toSet }
         .inspectCompletedFlow { flow =>
           val steps = flow.getFlowSteps.asScala
-          steps should have size 4
+          steps should have size 3
         }
         .run()
     }
@@ -746,7 +745,7 @@ class PlatformTest extends WordSpec with Matchers with HadoopSharedPlatformTest
         .run()
     }
   }
-  
+
   "A TsvNoCacheJob" should {
     import TsvNoCacheJob._
 

From e24fd40488986cd1206b04308d95b403d434d4bb Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Mon, 22 Jan 2018 14:55:52 -0500
Subject: [PATCH 67/72] Fix for a couple of memory estimator tests

---
 .../estimation/memory/MemoryEstimatorStepStrategy.scala     | 6 +++++-
 .../scalding/estimation/memory/MemoryEstimatorTest.scala    | 4 ++--
 2 files changed, 7 insertions(+), 3 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategy.scala b/scalding-core/src/main/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategy.scala
index 540775e7b9..6ce1af2c61 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategy.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorStepStrategy.scala
@@ -68,7 +68,11 @@ object MemoryEstimatorStepStrategy extends FlowStepStrategy[JobConf] {
         case Some(MemoryEstimate(_, Some(reduceMem))) =>
           LOG.info(s"Overriding only reduce memory to: $reduceMem in Mb")
           setMemory(reduceMem, (Config.ReduceJavaOpts, Config.ReduceMemory), conf)
-        case _ => LOG.info("Memory estimators didn't calculate any value. Skipping setting memory overrides")
+        case _ =>
+          LOG.info("Memory estimators didn't calculate any value. Skipping setting memory overrides")
+          // explicitly unset these as Cascading seems to set them to 1024M
+          conf.unset(Config.MapMemory)
+          conf.unset(Config.ReduceMemory)
       }
     }
   }
diff --git a/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala b/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
index 25e4d47acf..30438ee339 100644
--- a/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
+++ b/scalding-estimators-test/src/test/scala/com/twitter/scalding/estimation/memory/MemoryEstimatorTest.scala
@@ -143,9 +143,9 @@ class CustomHistoryService(val history: JobConf => Seq[(String, Long)]) extends
   import Utils._
 
   override def fetchHistory(info: FlowStrategyInfo, maxHistory: Int): Try[Seq[FlowStepHistory]] = {
-    if (info.step.getOrdinal == 1) {
+    if (info.step.getOrdinal == 0) {
       makeHistory(info.step.getConfig, history)
-    } else if (info.step.getOrdinal == 2) {
+    } else if (info.step.getOrdinal == 1) {
       Success(Nil)
     } else {
       makeHistory(info.step.getConfig, _ => Seq(

From 3c350b900301a13ec378d49459a6137c900cc763 Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Wed, 24 Jan 2018 15:35:22 -0500
Subject: [PATCH 68/72] Fix Oscar's comment on MergedType pipe in
 CascadingBackend

---
 .../scalding/typed/cascading_backend/CascadingBackend.scala     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala b/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
index 8bb25ec301..0a24f2d840 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/typed/cascading_backend/CascadingBackend.scala
@@ -270,7 +270,7 @@ object CascadingBackend {
             // TODO: a better optimization is to not materialize this
             // node at all if there is no fan out since groupBy and cogroupby
             // can accept multiple inputs
-            val headPipe = loop(h, rest, ds ::: descriptions)
+            val headPipe = loop(h, rest, Nil)
             val tailPipes = tail.map(loop(_, rest, Nil))
             val merged = RichPipe.mergeAvoidingHashes(headPipe, tailPipes)
             applyDescriptions(merged, ds ::: descriptions)

From 052310f2b96c4a7eb03ee77e4f170d759e8cb910 Mon Sep 17 00:00:00 2001
From: Oscar Boykin <oscar.boykin@gmail.com>
Date: Wed, 24 Jan 2018 14:50:45 -1000
Subject: [PATCH 69/72] use https for twttr maven

---
 build.sbt           | 2 +-
 project/plugins.sbt | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/build.sbt b/build.sbt
index 9447b4da5c..dead11d56c 100644
--- a/build.sbt
+++ b/build.sbt
@@ -72,7 +72,7 @@ val sharedSettings = assemblySettings ++ scalariformSettings ++ Seq(
     Opts.resolver.sonatypeSnapshots,
     Opts.resolver.sonatypeReleases,
     "Concurrent Maven Repo" at "http://conjars.org/repo",
-    "Twitter Maven" at "http://maven.twttr.com",
+    "Twitter Maven" at "https://maven.twttr.com",
     "Cloudera" at "https://repository.cloudera.com/artifactory/cloudera-repos/"
   ),
 
diff --git a/project/plugins.sbt b/project/plugins.sbt
index 5dacf1329c..be4e74c664 100644
--- a/project/plugins.sbt
+++ b/project/plugins.sbt
@@ -3,7 +3,7 @@ resolvers += Resolver.url("artifactory", url("http://scalasbt.artifactoryonline.
 resolvers ++= Seq(
   "jgit-repo" at "http://download.eclipse.org/jgit/maven",
   "sonatype-releases"  at "https://oss.sonatype.org/content/repositories/releases",
-  "Twitter Maven" at "http://maven.twttr.com"
+  "Twitter Maven" at "https://maven.twttr.com"
 )
 
 addSbtPlugin("com.eed3si9n"       % "sbt-assembly"        % "0.10.2")

From 58349ec179cb38c6e827e8d70ee781389b83f24e Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Thu, 25 Jan 2018 10:33:50 -0500
Subject: [PATCH 70/72] Bump Cascading version to 3.2.1

---
 build.sbt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/build.sbt b/build.sbt
index dead11d56c..3b27f140e5 100644
--- a/build.sbt
+++ b/build.sbt
@@ -301,7 +301,7 @@ lazy val scaldingDate = module("date")
 lazy val scaldingGraph = module("graph")
 
 lazy val cascadingVersion =
-  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.0-wip-6")
+  System.getenv.asScala.getOrElse("SCALDING_CASCADING_VERSION", "3.2.1")
 
 lazy val cascadingJDBCVersion =
   System.getenv.asScala.getOrElse("SCALDING_CASCADING_JDBC_VERSION", "3.0.0-wip-127")

From 54c1fa0969d60a9e20be94be263d7c95e5d62eea Mon Sep 17 00:00:00 2001
From: Piyush Narang <p.narang@criteo.com>
Date: Fri, 26 Jan 2018 17:02:55 -0500
Subject: [PATCH 71/72] Update packages to match files

---
 .../cascading => cascading/scrooge}/ParquetScroogeScheme.java     | 0
 .../cascading => cascading/scrooge}/ScroogeReadSupport.java       | 0
 .../cascading => cascading/scrooge}/ScroogeRecordConverter.java   | 0
 .../scrooge}/ScroogeSchemaConversionException.java                | 0
 .../cascading => cascading/scrooge}/ScroogeStructConverter.java   | 0
 .../cascading => cascading/scrooge}/ScroogeWriteSupport.java      | 0
 .../cascading => cascading/scrooge}/Parquet346ScroogeScheme.scala | 0
 .../cascading => cascading/scrooge}/ParquetScroogeSchemeTest.java | 0
 .../scrooge}/ScroogeStructConverterTest.java                      | 0
 9 files changed, 0 insertions(+), 0 deletions(-)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ParquetScroogeScheme.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeReadSupport.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeRecordConverter.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeSchemaConversionException.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeStructConverter.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeWriteSupport.java (100%)
 rename scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/Parquet346ScroogeScheme.scala (100%)
 rename scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ParquetScroogeSchemeTest.java (100%)
 rename scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/{scrooge/cascading => cascading/scrooge}/ScroogeStructConverterTest.java (100%)

diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ParquetScroogeScheme.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeScheme.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ParquetScroogeScheme.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeReadSupport.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeReadSupport.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeReadSupport.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeReadSupport.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeRecordConverter.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeRecordConverter.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeRecordConverter.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeRecordConverter.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeSchemaConversionException.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeSchemaConversionException.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeSchemaConversionException.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeSchemaConversionException.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverter.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeStructConverter.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverter.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeStructConverter.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeWriteSupport.java b/scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeWriteSupport.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeWriteSupport.java
rename to scalding-parquet-scrooge-cascading/src/main/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeWriteSupport.java
diff --git a/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala b/scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/scrooge/Parquet346ScroogeScheme.scala
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/scrooge/cascading/Parquet346ScroogeScheme.scala
rename to scalding-parquet-scrooge-cascading/src/main/scala/com/twitter/scalding/parquet/cascading/scrooge/Parquet346ScroogeScheme.scala
diff --git a/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeSchemeTest.java b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/cascading/scrooge/ParquetScroogeSchemeTest.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ParquetScroogeSchemeTest.java
rename to scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/cascading/scrooge/ParquetScroogeSchemeTest.java
diff --git a/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverterTest.java b/scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeStructConverterTest.java
similarity index 100%
rename from scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/scrooge/cascading/ScroogeStructConverterTest.java
rename to scalding-parquet-scrooge-cascading/src/test/java/com/twitter/scalding/parquet/cascading/scrooge/ScroogeStructConverterTest.java

From 4514905fe4cda3e0c8ff64396f17dca06173cba9 Mon Sep 17 00:00:00 2001
From: "P. Oscar Boykin" <johnynek@users.noreply.github.com>
Date: Wed, 31 Jan 2018 13:53:56 -1000
Subject: [PATCH 72/72] Remove a quadradic function in our cascading3 support
 (#1779)

* Remove a quadradic function in our cascading3 support

* fix a bug
---
 .../scala/com/twitter/scalding/RichPipe.scala    | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
index e2cc1e7c5f..fc69d61ea2 100644
--- a/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
+++ b/scalding-core/src/main/scala/com/twitter/scalding/RichPipe.scala
@@ -136,38 +136,38 @@ object RichPipe extends java.io.Serializable {
   def isHashJoinedWithPipe(hashJoinPipe: Pipe, hashJoinOperandPipe: Pipe): Boolean = {
     // collects all Eachs ending with a non-Each
     @annotation.tailrec
-    def getChainOfEachs(p: Pipe, collect: List[Pipe] = Nil): List[Pipe] =
+    def getChainOfEachs(p: Pipe, collect: List[Pipe]): Set[Pipe] =
       p match {
         case p if isSourcePipe(p) =>
-          collect :+ p
+          (p :: collect).toSet
         case each: Each =>
-          getChainOfEachs(each.getPrevious.head, collect :+ each)
+          getChainOfEachs(each.getPrevious.head, each :: collect)
         // we don't use a special Pipe subtype for the assignName method
         // and we can't. all Pipe types need to be defined in cascading
         // because cascading assumes it knows all the Pipe subtypes
         // and fails to match any others (think of it as a sealed trait)
         // So we handle all special types before checking for the assignName case
         case other @ (hj: HashJoin) =>
-          collect ++ getJoinedPipeSet(hj)
+          getJoinedPipeSet(hj) ++ collect
         case other @ (_: Checkpoint | _: Operator | _: Splice /* except HashJoin*/ | _: SubAssembly) =>
-          collect :+ other
+          (other :: collect).toSet
         case renamedPipe: Pipe =>
           // this is the assignName case
-          getChainOfEachs(renamedPipe.getPrevious.head, collect :+ renamedPipe)
+          getChainOfEachs(renamedPipe.getPrevious.head, renamedPipe :: collect)
       }
 
     def getJoinedPipeSet(p: HashJoin): Set[Pipe] =
       p.getPrevious match {
         case a @ Array(_, _) =>
           // collect nodes up the left and right sides
-          a.flatMap { p => getChainOfEachs(p) }.toSet
+          a.flatMap { p => getChainOfEachs(p, Nil) }.toSet
         case other =>
           throw new IllegalStateException(s"More than two sides found in cascading's HashJoin pipe: $other")
       }
 
     hashJoinPipe match {
       case hj: HashJoin =>
-        getJoinedPipeSet(hj).intersect(getChainOfEachs(hashJoinOperandPipe).toSet).nonEmpty
+        getJoinedPipeSet(hj).intersect(getChainOfEachs(hashJoinOperandPipe, Nil)).nonEmpty
       case m: Merge =>
         m.getPrevious // gets all merged pipes
           .exists { p => isHashJoinedWithPipe(p, hashJoinOperandPipe) }