Python已成為數據處理領域的首選語言,其豐富的庫和簡潔的語法使數據清洗、分析和可視化變得輕而易舉。本文分享一份免費的Python數據處理代碼合集,涵蓋常見場景的解決方案,幫助初學者和專業人士快速上手。
一、數據讀取與預處理
使用pandas庫可以輕松讀取多種格式的數據。例如,從CSV文件讀取數據:`python
import pandas as pd
data = pd.readcsv('data.csv')`
數據清洗時,常用代碼處理缺失值:`python
data.fillna(0, inplace=True) # 用0填充缺失值
data.dropduplicates(inplace=True) # 刪除重復行`
二、數據轉換與計算
利用numpy和pandas進行數值計算和列操作:`python
import numpy as np
data['newcolumn'] = data['oldcolumn'] * 2 # 創建新列
data['log_value'] = np.log(data['value']) # 應用對數變換`
分組統計示例:`python
grouped = data.groupby('category')['sales'].sum() # 按類別匯總銷售額`
三、數據可視化
matplotlib和seaborn庫能快速生成圖表:`python
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(10,6))
sns.histplot(data['age'], kde=True)
plt.title('年齡分布圖')
plt.show()`
四、高級處理技巧
對于時間序列數據,可使用pandas的resample方法:`python
data['date'] = pd.todatetime(data['date'])
monthlydata = data.set_index('date').resample('M').mean() # 按月重采樣`
免費代碼合集下載說明:
本合集包含完整示例文件,涵蓋數據合并、過濾、異常值處理等場景。訪問GitHub倉庫(示例鏈接:github.com/dataprocessing/python-tools)可直接下載,所有代碼均開源且附帶注釋,適合學習和直接應用。
通過掌握這些核心代碼,您能顯著提升數據處理效率。建議結合實際項目練習,逐步探索更復雜的庫如Scikit-learn用于機器學習,或Dask處理大規模數據。