from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import ConfusionMatrixDisplay, classification_report
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

DATA_PATH = Path('netflix_titles.csv')
df = pd.read_csv(DATA_PATH)

print('Rows:', len(df))
print('Columns:', len(df.columns))
df.head()

# TODO: inspect columns, data types, missing values, and summary statistics.
# Suggested tools: df.info(), df.describe(), df.isna().sum(), df['type'].value_counts()

# TODO: create at least three charts.

features_df = df.copy()

# TODO: create engineered features.

# TODO: display your engineered columns.

# TODO: choose feature columns, split the data, build a preprocessing pipeline, train a model, and evaluate it.

Open-Ended Lab - Netflix Titles Catalog¶

Goals¶

Setup¶

Task 1 - Understand the dataset¶

Task 2 - Visual exploration¶

Task 3 - Feature engineering¶

Task 4 - Build a simple model¶

Task 5 - Open-ended interpretation¶