Merge branch 'develop' into 'main'

fix: raw data See merge request !11

Merge branch 'develop' into 'main'
fix: raw data See merge request !11
da3113d9 · Azmi Zahrani · f3b1a837 · b413ff0d · f3b1a837 · f3b1a837
Commit da3113d9 authored 3 months ago by Azmi Zahrani
--- a/dataset/raw_data/._SUCCESS.crc
+++ b/dataset/raw_data/._SUCCESS.crc
--- a/dataset/raw_data/.part-00000-91559437-b672-4eb7-95ac-d2022024cf28-c000.csv.crc
+++ b/dataset/raw_data/.part-00000-91559437-b672-4eb7-95ac-d2022024cf28-c000.csv.crc
--- a/dataset/raw_data/_SUCCESS
+++ b/dataset/raw_data/_SUCCESS
--- a/dataset/raw_data/part-00000-91559437-b672-4eb7-95ac-d2022024cf28-c000.csv
+++ b/dataset/raw_data/part-00000-91559437-b672-4eb7-95ac-d2022024cf28-c000.csv
--- a/jobs/python/datacleanup.py
+++ b/jobs/python/datacleanup.py
@@ -31,16 +31,18 @@ schema = StructType([
    StructField("Churn", StringType(), True)
 ])

-raw_data_path = 'dataset/raw_data'  
-if os.path.isdir(raw_data_path):  
-    csv_files = [f for f in os.listdir(raw_data_path) if f.endswith('.csv')]  
-    if csv_files:  
-        first_csv_file = os.path.join(raw_data_path, csv_files[0])  
-        df = spark.read.csv(first_csv_file, header=True, schema=schema)  
-    else:  
+raw_data_path = 'dataset/raw_data'    
+fallback_csv_path = 'dataset/telco_customer_churn.csv'    
+
+if os.path.isdir(raw_data_path):    
+    csv_files = [f for f in os.listdir(raw_data_path) if f.endswith('.csv')]    
+    if csv_files:    
+        first_csv_file = os.path.join(raw_data_path, csv_files[0])    
+        df = spark.read.csv(first_csv_file, header=True, schema=schema)    
+    else:    
        raise FileNotFoundError("No CSV files found in the specified directory.")  
-else:  
-    df = spark.read.csv(raw_data_path, header=True, schema=schema)  
+else:
+    df = spark.read.csv(fallback_csv_path, header=True, schema=schema)  

 print("Data dimensions from raw data: ", df.count(), len(df.columns))