Se você usa Python, mesmo para as tarefas mais simples, provavelmente está cônscio da prestígio de suas bibliotecas de terceiros. A livraria Pandas, com seu supimpa suporte para DataFrames, é uma dessas bibliotecas.
Você pode importar vários tipos de registo para Python DataFrames e produzir várias versões para armazenar diferentes conjuntos de dados. Depois de importar seus dados usando DataFrames, você pode mesclá-los para realizar uma estudo detalhada.
Abordando o obrigatório
Antes de debutar a mesclar, você precisa ter DataFrames para mesclar. Para fins de desenvolvimento, você pode produzir alguns dados fictícios para testar.
Crie os DataFrames em Python
Porquê primeiro passo, importe a livraria Pandas para o seu registo Python. Pandas é uma livraria de terceiros que lida com DataFrames em Python. Você pode usar o importar instrução para usar a livraria, uma vez que segue:
import pandas as pd
Você pode atribuir um alias ao nome da livraria para encurtar suas referências de código.
Você precisa produzir dicionários, que podem ser convertidos em DataFrames. Para melhores resultados, crie duas variáveis de léxico—dict1 e dict2—para armazenar informações específicas:
dict1 = {"user_id": ["001", "002", "003", "004", "005"],
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}
Lembre-se, você precisa ter um elemento generalidade em ambos os valores do léxico, para atuar uma vez que a chave primária para combinar seus DataFrames posteriormente.
Converta seus dicionários em dataframes
Para transformar seus valores de léxico em DataFrames, você pode usar o seguinte método:
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
Alguns IDEs permitem que você verifique os valores dentro do DataFrame referenciando a função DataFrame e pressionando Executar/Executar. Existem muitos IDEs compatíveis com Python, logo você pode escolher aquele que for mais fácil de aprender.
Quando estiver satisfeito com o texto de seus DataFrames, você pode passar para a lanço de mesclagem.
Combinando quadros com a função de mesclagem
A função de mesclagem é a primeira função do Python que você pode usar para combinar dois DataFrames. Esta função recebe os seguintes argumentos padrão:
pd.merge(DataFrame1, DataFrame2, how= type of merge)
Onde:
- pd é um alias para a livraria Pandas.
- mesclar é a função que mistura DataFrames.
- DataFrame1 e DataFrame2 são os dois DataFrames a serem mesclados.
- Porquê as define o tipo de mesclagem.
Alguns argumentos opcionais extras estão disponíveis, que você pode usar quando tiver uma estrutura de dados complexa.
Você pode usar valores diferentes para o parâmetro uma vez que para definir o tipo de mesclagem a ser realizada. Esses tipos de mesclagem serão familiares se você tiver usado SQL para unir tabelas de banco de dados.
Mesclar à esquerda
O tipo de mesclagem à esquerda mantém os valores do primeiro DataFrame intactos e extrai os valores correspondentes do segundo DataFrame.
Mesclar à direita
O tipo de mesclagem correto mantém os valores do segundo DataFrame intactos e extrai os valores correspondentes do primeiro DataFrame.
Mesclagem interna
O tipo de mesclagem interna retém os valores correspondentes de ambos os DataFrames e remove os valores não correspondentes.
Mesclagem Externa
O tipo de mesclagem externa retém todos os valores correspondentes e não correspondentes e consolida os DataFrames juntos.
Porquê usar a função Concat
o engranzar function é uma opção maleável em verificação com algumas das outras funções de mesclagem do Python. Com a função concat, você pode combinar DataFrames verticalmente e horizontalmente.
No entanto, a desvantagem de usar essa função é que ela descarta quaisquer valores não correspondentes por padrão. Porquê algumas outras funções relacionadas, esta função tem alguns argumentos, dos quais exclusivamente alguns são essenciais para uma concatenação bem-sucedida.
concat(dataframes, axis=0, join='outer'/’inner’)
Onde:
- engranzar é a função que une DataFrames.
- quadros de dados é uma sequência de DataFrames para engranzar.
- eixo representa a direção da concatenação, sendo 0 nivelado e 1 vertical.
- Junte especifica uma junção externa ou interna.
Usando os dois DataFrames supra, você pode testar a função concat da seguinte forma:
df_merged_concat = pd.concat([df1, df2])
print(df_merged_concat)
A exiguidade dos argumentos de eixo e junção no código supra combina os dois conjuntos de dados. A saída resultante tem todas as entradas, independentemente do status de correspondência.
Da mesma forma, você pode usar argumentos adicionais para controlar a direção e a saída da função concat.
Para controlar a saída com todas as entradas correspondentes:
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')print(df_merged_concat)
O resultado contém todos os valores correspondentes exclusivamente entre os dois DataFrames.
Mesclando DataFrames com Python
Os DataFrames são troço integrante do Python, considerando sua flexibilidade e funcionalidade. Devido aos seus usos multifacetados, você pode usá-los extensivamente para executar uma variedade de tarefas com a maior facilidade.
Se você ainda está aprendendo sobre Python DataFrames, tente importar alguns arquivos do Excel e combine-os com diferentes abordagens.