pandas

2021 年 3 月 3 日 改訂

pandas は、データ操作を行う Python のライブラリです。私は Excel file からデータを抽出するのに利用しています。


インストール

pandas を Python3 にインストールするには、以下のコマンドを入力してください。

pip3 install pandas

こちらを参照しました。

xlrd, openpyxl をインストールしてください。

pip3 install xlrd
pip3 install openpyxl

xlrd は最新のバージョンでは動かなかったので、以下の処理によってバージョンを下げました。

pip3 uninstall xlrd
pip3 install xlrd==1.2.0

使う pip3 を間違えると、 xlrd などパッケージが正しくインストールされない場合があります。その場合は、実際に使っている python3 が保存されているディレクトリの pip3 を利用すると良いです。

[pre jinoue:~]$ which python3
/usr/local/bin/python3
[pre jinoue:~]$ cd /usr/local/bin/
[pre jinoue:bin]$ ls
2to3@ f2py3* pip3* python3-config@ pyvenv@...
[pre jinoue:bin]$ sudo ./pip3 install xlrd==1.2.0

 

Excel file の読み込みとソート

Excel file の読み込み


pandas_sort_excel.tar.gz

こちら(1, 2)を参考にしました。

アウトプット:
ソースコード:

#!/usr/bin/env python

import pandas as pd

df = pd.read_excel("sample_pandas_normal.xlsx")
print("df")
print(df)

# 第一引数 by をリストで指定すると、複数列を基準にソートできる
# リストの後ろから順番にソートされていくイメージ。
# 最後にリストの最初の列でソートされる。
# 引数 ascending をリストで指定すると、それぞれの列に対して
# 昇順・降順を選択できる
df_s = df.sort_values(["state", "age"], ascending=[False, False])
print("df_s")
print(df_s)

names = df_s["name"]
print("names")
for name in names:
print(name)


環境 DNA メタ 12S: Excel file からデータを抽出

sort_eDNAres.tar.gz
(2021/2/17)

 


その他

ライブラリ (xlrd, xlwt) を利用

こちらを参考にしました。

読み込み

read_excel_file.tar.gz

   

書き出し

write_excel_file.tar.gz


(2020 年 11 月)



リンク

pandas データフレームの作り方

非常に分かりやすいです。make_df_pd.py を作成しました。

pandas で Excel ファイル (xlsx, xls) の読み込み

pandas.read_excel() 関数の利用。

pandas.DataFrame, Series をソートする sort_values, sort_index

sort_values(), sort_index() メソッドの利用。