A livraria pandas torna a ciência de dados baseada em python um passeio fácil. É uma livraria Python popular para leitura, mesclagem, classificação, limpeza de dados e muito mais. Embora o pandas seja fácil de usar e empregar em conjuntos de dados, ele tem muitas funções de manipulação de dados para aprender.
Você pode usar pandas, mas há uma boa chance de estar subutilizando-o para resolver problemas relacionados a dados. Cá está nossa lista de funções valiosas de manipulação de dados de pandas que todo investigador de dados deve saber.
Instale pandas em seu envolvente virtual
Antes de prosseguirmos, certifique-se de instalar os pandas em seu envolvente virtual usando pip:
pip install pandas
Em seguida instalá-lo, importe pandas no topo do seu script e vamos prosseguir.
1. pandas.DataFrame
Você usa pandas.DataFrame() para fabricar um DataFrame em pandas. Há duas maneiras de usar esta função.
Você pode formar um DataFrame em colunas passando um léxico para o pandas.DataFrame() função. Cá, cada chave é uma pilar, enquanto os valores são as linhas:
import pandas
DataFrame = pandas.DataFrame({"A" : [1, 3, 4], "B": [5, 9, 12]})
print(DataFrame)
O outro método é formar o DataFrame entre linhas. Mas cá, você separará os valores (itens de traço) das colunas. O número de dados em cada lista (dados de traço) também deve corresponder ao número de colunas.
import pandas
DataFrame = pandas.DataFrame([[1, 4, 5], [7, 19, 13]], columns= ["J", "K", "L"])
print(DataFrame)
2. Ler e gravar no Excel ou CSV em pandas
Você pode ler ou gravar em arquivos Excel ou CSV com pandas.
Lendo arquivos Excel ou CSV
Para ler um registo do Excel:
#Replace example.xlsx with the your Excel file path
DataFrame = DataFrame.read_excel("example.xlsx")
Veja uma vez que ler um registo CSV:
#Replace example.csv with the your CSV file path
DataFrame = DataFrame.read_csv("example.csv")
Escrevendo para Excel ou CSV
Ortografar para Excel ou CSV é uma operação de pandas muito conhecida. E é útil para salvar tabelas recém-computadas em folhas de dados separadas.
Para ortografar em uma planilha do Excel:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Se você quiser gravar em CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Você também pode calcular as tendências centrais de cada pilar em um DataFrame usando pandas.
Veja uma vez que obter o valor médio de cada pilar:
DataFrame.mean()
Para o valor da mediana ou voga, substitua valer() com mediana() ou modo().
4. DataFrame.transform
pandas’ DataFrame.transform() modifica os valores de um DataFrame. Ele aceita uma função uma vez que um argumento.
Por exemplo, o código aquém multiplica cada valor em um DataFrame por três usando a função lambda do Python:
DataFrame = DataFrame.transform(lambda y: y*3)
print(DataFrame)
5. DataFrame.isnull
Esta função retorna um valor booleano e sinaliza todas as linhas contendo valores nulos uma vez que Verdadeiro:
DataFrame.isnull()
O resultado do código supra pode ser difícil de ler para conjuntos de dados maiores. Portanto você pode usar o isnull().sum() função em vez disso. Isso retorna um resumo de todos os valores ausentes para cada pilar:
DataFrame.isnull().sum()
6. Dataframe.info
O info() função é uma operação principal de pandas. Em vez disso, ele retorna o resumo dos valores não ausentes para cada pilar:
DataFrame.info()
7. DataFrame.descrever
O descrever() A função fornece a estatística de resumo de um DataFrame:
DataFrame.describe()
8. DataFrame.substituir
Usando o DataFrame.replace() método em pandas, você pode substituir as linhas selecionadas por outros valores.
Por exemplo, para trocar linhas inválidas por Nan:
# Ensure that you pip install numpy for this to work
import numpy
import pandas
# Adding an inplace keyword and setting it to True makes the changes permanent:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print(DataFrame)
9. DataFrame.fillna
Esta função permite preencher linhas vazias com um valor específico. Você pode preencher todos Nan linhas em um conjunto de dados com o valor médio, por exemplo:
DataFrame.fillna(df.mean(), inplace = True)
print(DataFrame)
Você também pode ser específico da pilar:
DataFrame['column_name'].fillna(df[column_name].mean(), inplace = True)
print(DataFrame)
10. DataFrame.dropna
O dropna() O método remove todas as linhas que contêm valores nulos:
DataFrame.dropna(inplace = True)
print(DataFrame)
11. DataFrame.inserir
Você pode usar pandas ‘ inserir() função para juntar uma novidade pilar a um DataFrame. Ele aceita três palavras-chave, o nome da pilar, uma lista de seus dados e sua localização, que é um índice de pilar.
Veja uma vez que isso funciona:
DataFrame.insert(column = 'C', value = [3, 4, 6, 7], loc=0)
print(DataFrame)
O código supra insere a novidade pilar no índice de pilar zero (torna-se a primeira pilar).
12. DataFrame.loc
Você pode usar lugar para encontrar os elementos em um índice específico. Para visualizar todos os itens na terceira traço, por exemplo:
DataFrame.loc[2]
13. DataFrame.pop
Esta função permite remover uma pilar especificada de um DataFrame pandas.
Ele aceita um item palavra-chave, retorna a pilar exibida e a separa do restante do DataFrame:
DataFrame.pop(item= 'column_name')
print(DataFrame)
14. DataFrame.max, min
Obter os valores máximos e mínimos usando pandas é fácil:
DataFrame.min()
O código supra retorna o valor mínimo para cada pilar. Para obter o sumo, substitua min com sumo.
15. DataFrame.join
O Junte() A função de pandas permite mesclar DataFrames com nomes de colunas diferentes. Você pode usar a junção esquerda, direita, interna ou externa. Para unir um DataFrame à esquerda com dois outros:
#Left-join longer columns with shorter ones
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print(newDataFrame)
Para unir DataFrames com nomes de pilar semelhantes, você pode diferenciá-los incluindo um sufixo à esquerda ou à direita. Faça isso incluindo o lssufixo ou sufixo palavra-chave:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
print(newDataFrame)
16. DataFrame.combine
The combine() function comes in handy for merging two DataFrames containing similar column names based on set criteria. It accepts a function keyword.
For instance, to merge two DataFrames with similar column names based on the maximum values only:
newDataFrame = df.combine(df2, numpy.minimum)
print(newDataFrame)
Note: You can also define a custom selection function and insert numpy.minimum.
17. DataFrame.astype
The astype() function changes the data type of a particular column or DataFrame.
To change all values in a DataFrame to string, for instance:
DataFrame.astype(str)
18. DataFrame.sum
The sum() function in pandas returns the sum of the values in each column:
DataFrame.sum()
You can also find the cumulative sum of all items using cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandas’ drop() function deletes specific rows or columns in a DataFrame. You have to supply the column names or row index and an axis to use it.
To remove specific columns, for example:
df.drop(columns=['colum1', 'column2'], eixo=0)
Para descartar linhas nos índices 1, 3 e 4, por exemplo:
df.drop([1, 3, 4], axis=0)
20. DataFrame.corr
Quer encontrar a reciprocidade entre colunas inteiras ou flutuantes? pandas pode ajudá-lo a conseguir isso usando o corr() função:
DataFrame.corr()
O código supra retorna um novo DataFrame contendo a sequência de reciprocidade entre todas as colunas inteiras ou flutuantes.
21. DataFrame.add
O juntar() A função permite juntar um número específico a cada valor no DataFrame. Ele funciona iterando por meio de um DataFrame e operando em cada item.
Para juntar 20 a cada um dos valores em uma pilar específica contendo números inteiros ou flutuantes, por exemplo:
DataFrame['interger_column'].add(20)
22. DataFrame.sub
Assim uma vez que a função de soma, você também pode subtrair um número de cada valor em um DataFrame ou pilar específica:
DataFrame['interger_column'].sub(10)
23. DataFrame.mul
Esta é uma versão de multiplicação da função de soma de pandas:
DataFrame['interger_column'].mul(20)
24. DataFrame.div
Da mesma forma, você pode dividir cada ponto de dados em uma pilar ou DataFrame por um número específico:
DataFrame['interger_column'].div(20)
25. DataFrame.std
Usando o std() função, pandas também permite calcular o ramal padrão para cada pilar em um DataFrame. Ele funciona iterando em cada pilar em um conjunto de dados e calculando o ramal padrão para cada:
DataFrame.std()
26. DataFrame.sort_values
Você também pode qualificar os valores de forma crescente ou decrescente com base em uma pilar específica. Para qualificar um DataFrame em ordem decrescente, por exemplo:
newDataFrame = DataFrame.sort_values(by = "colmun_name", descending = True)
27. DataFrame.melt
O fundição() função em pandas inverte as colunas em um DataFrame para linhas individuais. É uma vez que expor a anatomia de um DataFrame. Assim, permite visualizar explicitamente o valor atribuído a cada pilar.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Esta função retorna o número totalidade de itens em cada pilar:
DataFrame.count()
29. DataFrame.query
pandas’ inquerir() permite invocar itens usando seu número de índice. Para obter os itens da terceira traço, por exemplo:
DataFrame.query('4') # Call the query on the fourth índice
30. DataFrame.where
O Onde() function é uma consulta pandas que aceita uma quesito para obter valores específicos em uma pilar. Por exemplo, para obter todas as idades inferiores a 30 de um Era pilar:
DataFrame.where(DataFrame['Age'] < 30)
O código supra gera um DataFrame contendo todas as idades inferiores a 30 anos, mas atribui Nan para linhas que não atendem à quesito. Em
Lide com dados uma vez que um profissional com pandas
pandas é um tesouro de funções e métodos para mourejar com conjuntos de dados de pequena a grande graduação com Python. A livraria também é útil para limpar, validar e preparar dados para estudo ou tirocínio de máquina.
Destinar um tempo para dominá-lo definitivamente facilita sua vida uma vez que investigador de dados e vale a pena o esforço. Portanto, sinta-se à vontade para pegar todas as funções que você pode manipular.
Leia a seguir
Sobre o responsável