[Feat] trying train with mlflow tracking

a9b43b06 · Arleen · aefe3d3f · a9b43b06 · a9b43b06 · a9b43b06
Commit a9b43b06 authored 4 months ago by Arleen
--- a/main.py
+++ b/main.py
+from train import *
+from pyspark.sql import SparkSession
+
+if __name__=="__main__":
+    # Initialize Spark session
+    spark = SparkSession.builder.appName("ChurnPrediction").getOrCreate()
+    df = spark.read.csv("telco_customer_churn.csv", header=True, inferSchema=True)
+
+    train(df)
\ No newline at end of file
--- a/requirements.txt
+++ b/requirements.txt
--- a/train.py
+++ b/train.py
+import mlflow
+from sklearn.preprocessing import MinMaxScaler
+from sklearn.model_selection import train_test_split
+import tensorflow as tf 
+from tensorflow import keras 
+from imblearn.over_sampling import SMOTE
+import pickle
+
+def train(df):
+    # prepare data
+    X = df.drop('Churn')
+    y = df['Churn']
+
+    print(X.head)
+    print(y.head)
+
+    mn = MinMaxScaler()
+    X = mn.fit_transform(X)
+
+    # split
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, stratify= y, random_state= 42)
+
+    smote = SMOTE(sampling_strategy='minority')
+    X_sm, y_sm = smote.fit_resample(X_train, y_train)
+
+    # MLFlow tracking
+    mlflow.autolog()
+
+    # train with ANN
+    model = keras.models.Sequential([
+        keras.layers.Dense(19,input_shape=(19,),activation='relu'),
+        keras.layers.Dense(128,activation='relu'),
+        keras.layers.Dense(1,activation='sigmoid')
+    ])
+
+    model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])
+
+    model.fit(X_sm, y_sm, 
+                    batch_size=8, 
+                    epochs=10,
+                    verbose=1)
+    
+    pickle.dump(model, open('model.pkl', 'wb')) #Saving the model