Pythonを一から勉強してデータ分析できるようになる

～　Pythonとデータ分析のお勉強の記録　～

dfの重複データを削除する

[Take0] サンプルデータの作成

　

【書式】

　

【コード】

import pandas as pd

data=[

[1,2,3],

[4,5,6],

[4,5,6],

[7,8,9],

[10,11,12]

]

dfA=pd.DataFrame(data)

　

# 結果表示

print(dfA)

　

【結果】

0 1 2

0 1 2 3

1 4 5 6

2 4 5 6

3 7 8 9

4 10 11 12

　

見辛いが、1行目の 0，1，2が列名になる。はず。

　

[Take1] 重複データをカウントする

　

【書式】

df.duplicated.value_counts()

　

【コード】

import pandas as pd

data=[

[1,2,3],

[4,5,6],

[4,5,6],

[7,8,9],

[10,11,12]

]

dfA=pd.DataFrame(data)

　

# 結果表示

dfA.duplicated().value_counts()

　

【結果】

False 4

True 1

Name: count, dtype: int64

　

→ Trueが一つなので、重複するデータが1組あるということ。

　

[Take2] 重複データを削除する

　

【書式】

df.drop_duplicates()

　

【コード】

import pandas as pd

data=[

[1,2,3],

[4,5,6],

[4,5,6],

[7,8,9],

[10,11,12]

]

dfA=pd.DataFrame(data)

　

# 重複業を削除

dfB=dfA.drop_duplicates()

　

# 結果表示

print(dfB)

dfB.duplicated().value_counts()

　

【結果】

0 1 2

0 1 2 3

1 4 5 6

3 7 8 9

4 10 11 12

False 4

Name: count, dtype: int64

　

2行目が削除された。