Pythonを一から勉強してデータ分析できるようになる

~ Pythonとデータ分析のお勉強の記録 ~

dfの重複データを削除する

[Take0] サンプルデータの作成

 

【書式】

 

【コード】

import pandas as pd
data=[
    [1,2,3],
    [4,5,6],
    [4,5,6],
    [7,8,9],
    [10,11,12]
]
dfA=pd.DataFrame(data)
 
# 結果表示
print(dfA)

 

【結果】

0 1 2
0 1 2 3
1 4 5 6
2 4 5 6
3 7 8 9
4 10 11 12

 

見辛いが、1行目の 0,1,2が列名になる。はず。

 

[Take1] 重複データをカウントする

 

【書式】

df.duplicated.value_counts()

 

【コード】

import pandas as pd
data=[
    [1,2,3],
    [4,5,6],
    [4,5,6],
    [7,8,9],
    [10,11,12]
]
dfA=pd.DataFrame(data)
 
# 結果表示
dfA.duplicated().value_counts()

 

【結果】

False 4
True 1
Name: count, dtype: int64

 

→ Trueが一つなので、重複するデータが1組あるということ。

 

[Take2] 重複データを削除する

 

【書式】

df.drop_duplicates()

 

【コード】

import pandas as pd
data=[
    [1,2,3],
    [4,5,6],
    [4,5,6],
    [7,8,9],
    [10,11,12]
]
dfA=pd.DataFrame(data)
 
# 重複業を削除
dfB=dfA.drop_duplicates()
 
# 結果表示
print(dfB)
dfB.duplicated().value_counts()

 

【結果】

0 1 2
0 1 2 3
1 4 5 6
3 7 8 9
4 10 11 12
False 4
Name: count, dtype: int64

 

2行目が削除された。