fix clustering issue and add testing scripts

mxhao2 · mxhao2 · commit 7b0203608444 · 2016-08-23T23:37:13.000-04:00
diff --git a/language/mlsql/mlsql/functions/dataflow.py b/language/mlsql/mlsql/functions/dataflow.py
@@ -78,7 +78,7 @@ def _model_phase(keywords, filename, header, sep, train, predictors, label, algo
         from .keywords.replace_functions import handle_replace
         df = handle_replace(df, [replace])
         pass
-        
+
     # Encode all categorical values
     df = encode_categorical(df)
 
diff --git a/language/mlsql/mlsql/functions/keywords/cluster_functions.py b/language/mlsql/mlsql/functions/keywords/cluster_functions.py
@@ -11,6 +11,8 @@ def handle_cluster(data, algorithm, preds, label = None, clusters = 3, split = F
     """
     model = handle_cluster_algorithm(algorithm)
     if model is not None:
+        if clusters is '':
+            clusters = '3'
         model.n_clusters = int(clusters)
 
         #convert list of columns to integers and covert columns to start at 0
diff --git a/language/mlsql/mlsql/test/get_data.py b/language/mlsql/mlsql/test/get_data.py
@@ -0,0 +1,37 @@
+import os
+import requests
+
+path  = 'data'
+
+NAMES = {
+    ''
+    
+}
+DATASETS = (
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/auto.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/boston.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/census.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/chronic.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/computer.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/iris.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/seeds.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/spam.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/train.csv',
+    'https://raw.githubusercontent.com/mxhao2/MLSQL_DataSets/master/wine.csv',
+
+
+
+)
+
+def download_data(path , urls = DATASETS):
+    if not os.path.exists(path):
+        os.mkdir(path)
+
+    for url in urls:
+        response = requests.get(url)
+        name = os.path.basename(url)
+        with open(os.path.join(path, name), 'wb') as f:
+            f.write(response.content)
+
+
+download_data('data')
diff --git a/language/mlsql/mlsql/test/mlsql_auto.py b/language/mlsql/mlsql/test/mlsql_auto.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/auto.csv" (separator = "\s+", header = 0) REPLACE ("?", mean) SPLIT (train = .8, test = .2, validation = .0) REGRESS (predictors = [2,3,4,5,6,7,8], label = 1, algorithm = simple)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_boston.py b/language/mlsql/mlsql/test/mlsql_boston.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/boston.csv" (separator = "\s+", header = 0) SPLIT (train = .8, test = .2, validation = .0) REGRESS (predictors = [1,2,3,4,5,6,7,8,9,10,11,12,13], label = 14, algorithm = elastic)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_census.py b/language/mlsql/mlsql/test/mlsql_census.py
@@ -0,0 +1,5 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/census.csv" (separator = ",", header = 0) REPLACE ("NaN", "mode") SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,2,3,4,5,6,7,8,9,10,11,12,13,14], label = 15, algorithm = logistic)'
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_chronic.py b/language/mlsql/mlsql/test/mlsql_chronic.py
@@ -0,0 +1,7 @@
+import mlsql
+from mlsql import execute
+
+print("Chronic Kidney Disease Logistic Regression")
+query = 'READ "data/chronic.csv" SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24], label = 25, algorithm = logistic)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_computer.py b/language/mlsql/mlsql/test/mlsql_computer.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/computer.csv" (separator = ",", header = 0) SPLIT (train = .8, test = .2, validation = .0) REGRESS (predictors = [1,2,3,4,5,6,7,8,9], label = 10, algorithm = ridge)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_iris.py b/language/mlsql/mlsql/test/mlsql_iris.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/iris.csv" SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,2,3,4], label = 5, algorithm = svm)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_seeds.py b/language/mlsql/mlsql/test/mlsql_seeds.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/seeds.csv" (separator = "\s+", header = 0) SPLIT (train = .8, test = .2, validation = .0) CLUSTER (predictors = [1,2,3,4,5,6,7], algorithm = kmeans)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_spam.py b/language/mlsql/mlsql/test/mlsql_spam.py
@@ -0,0 +1,6 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/spam.csv" SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56], label = 58, algorithm = bayes)'
+
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_titanic.py b/language/mlsql/mlsql/test/mlsql_titanic.py
@@ -0,0 +1,5 @@
+import mlsql
+from mlsql import execute
+
+query = 'READ "data/train.csv" (separator = ",", header = 0) REPLACE ("NaN", "mode") SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,3,4,5,6,7,8,9,10,11,12], label = 2, algorithm = forest)'
+execute(query)
diff --git a/language/mlsql/mlsql/test/mlsql_wine.py b/language/mlsql/mlsql/test/mlsql_wine.py
@@ -0,0 +1,8 @@
+import mlsql
+from mlsql import execute
+
+
+query = 'READ "data/wine.csv" (separator = ";", header = 0) SPLIT (train = .8, test = 0.2) CLASSIFY (predictors = [1,2,3,4,5,6,7,8,9,10,11], label = 12, algorithm = knn)'
+
+
+execute(query)