【Pandas】データフレームで重複しているデータを削除

Pandas_drop_duplicates

データフレームで重複しているデータを削除(ユニークな値だけを抽出)する方法を説明します。

データフレームの確認(変更前)

職員リスト(staff_df)を元にデータを操作していきます。職員番号・名前・所属の全てが重複している場合と、所属だけが重複している場合があるので、それぞれの削除方法を説明します。

Pansas_drop_duplicates

  1. pandasのインポート
  2. データフレーム (staff_df)へExcelファイルの読み込み
  3. データフレーム (staff_df)を表示

 

重複しているデータを削除する方法(全ての列)

drop_duplicatesメソッドで、職員番号・名前・所属の全てが重複しているデータを削除。

Pansas_drop_duplicates

  1. 変数(staff_df)に、重複しているデータ(山田太郎)を削除したデータを代入
  2. データフレーム (staff_df)を表示

 

重複しているデータを削除する方法(指定した列)

drop_duplicatesメソッドの引数に列名(所属)を指定して、重複しているデータを削除。削除されるのは重複した後ろのデータ(小川晴子)。

Pansas_drop_duplicates

  1. 変数(staff_df)に、重複しているデータ(所属)を削除したデータを代入
  2. データフレーム (staff_df)を表示

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です