import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
filmes = pd.read_csv("regressao_linear_alura.csv")
amostra = filmes.sample(n=200)
x = amostra['Investimento (em milhoes)']
y = amostra['Bilheteria (pessoas)']
#visualizacao de dados
plt.scatter(x, y)
plt.show()
filmes_investimento = filmes['Investimento (em milhoes)']
filmes_bilheteria = filmes['Bilheteria (pessoas)']
#treino, teste, treino_marcacoes, teste_marcacoes = train_test_split(filmes_investimento, filmes_bilheteria)
treino, teste, treino_marcacoes, teste_marcacoes = train_test_split(filmes_investimento, filmes_bilheteria, test_size=0.1)
treino = np.array(treino).reshape(len(treino), 1)
teste = np.array(teste).reshape(len(teste), 1)
modelo = LinearRegression()
modelo.fit(treino,treino_marcacoes)
#r2 = modelo.score(teste, teste_marcacoes)
# r2_score(treino, treino_marcacoes)
#print("---r2-->", r2)
zootopia = [0,0,0,0,0,0,0,0,1,1,1,0,1,145.5170642,3.451632127]
#zootopia_bilheteria = modelo.predict([zootopia]) --> nao funciona
zootopia_bilheteria = modelo.predict(145.5170642)
print("---zootopia_bilheteria-->", zootopia_bilheteria)