indentation

mxhao2 · mxhao2 · commit 9092d1c80da3 · 2016-08-28T16:36:58.000-04:00
diff --git a/language/mlsql/mlsql/functions/keywords/preprocessing/encode_functions.py b/language/mlsql/mlsql/functions/keywords/preprocessing/encode_functions.py
@@ -4,8 +4,8 @@
 from sklearn.base import BaseEstimator, TransformerMixin
 from sklearn.feature_extraction import DictVectorizer
 
-# Encodes Categorical variables to be numerical values 
-# Usage: 
+# Encodes Categorical variables to be numerical values
+# Usage:
 # encoder = EncodeCategorical()
 # encoder.fit_transform(data)
 # For now, do not use since this does not work well with python3
@@ -37,28 +37,28 @@
   May need runtime improvements
 Parameters:
   df: Dataframe to encode
-  cols: Columns to encode. If None, then encode all object columns  
+  cols: Columns to encode. If None, then encode all object columns
 Returns:
   1 Dimensionally encoded dataframe
 """
 def encode_categorical(df, cols=None):
-  categorical = list()
-  if cols is not None:
-    categorical = cols
-  else:
-    for col in df.columns:
-        if df[col].dtype == 'object':
-            categorical.append(col)
+    categorical = list()
+    if cols is not None:
+        categorical = cols
+    else:
+        for col in df.columns:
+            if df[col].dtype == 'object':
+                categorical.append(col)
 
-  for feature in categorical:
-      l = list(df[feature])
-      s = set(l)
-      l2 = list(s)
-      numbers = list()
-      for i in range(0,len(l2)):
-          numbers.append(i)
-      df[feature] = df[feature].replace(l2, numbers)
-  return df
+    for feature in categorical:
+        l = list(df[feature])
+        s = set(l)
+        l2 = list(s)
+        numbers = list()
+        for i in range(0,len(l2)):
+            numbers.append(i)
+        df[feature] = df[feature].replace(l2, numbers)
+    return df
 
 """
 encode_onehot()
@@ -67,27 +67,23 @@ def encode_categorical(df, cols=None):
   https://gist.github.com/ramhiser/982ce339d5f8c9a769a0
 Parameters:
   df: Dataframe to encode
-  cols: Columns to encode. If None, then encode all object columns 
+  cols: Columns to encode. If None, then encode all object columns
 Returns:
   1 Hot encoded dataframe
 """
 def encode_onehot(df, cols=None):
-  categorical = list()
-  if cols is not None:
-    categorical = cols
-  else:
-    for feature in df.columns:
-        if df[feature].dtype == 'object':
-            categorical.append(feature)
-
-  vec = DictVectorizer()
-  vec_data = pd.DataFrame(vec.fit_transform(df[cols].to_dict(outtype='records')).toarray())
-  vec_data.columns = vec.get_feature_names()
-  vec_data.index = df.index
-
-  df = df.drop(cols, axis=1)
-  df = df.join(vec_data)
-  return df
-
-
+    categorical = list()
+    if cols is not None:
+        categorical = cols
+    else:
+        for feature in df.columns:
+            if df[feature].dtype == 'object':
+                categorical.append(feature)
+    vec = DictVectorizer()
+    vec_data = pd.DataFrame(vec.fit_transform(df[cols].to_dict(outtype='records')).toarray())
+    vec_data.columns = vec.get_feature_names()
+    vec_data.index = df.index
 
+    df = df.drop(cols, axis=1)
+    df = df.join(vec_data)
+    return df