[机器学习基础]数据缺失值处理
数据处理
缺失值处理
应用isnull判断是否有缺失数据NaN; 应用fillna实现缺失值的填充; 应用dropna实现缺失值的删 除; 应用replace实现数据的替换
其中
#全局取消证书验证 #import ssl #ssl._create_default_https_context = ssl._create_unverified_context
one-hot编码
把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。
数据合并
应用pd.concat实现数据的合并; 应用pd.merge实现数据的合并 pd.concat([data1, data2], axis=1)按照行或列进行合并,axis=0为列索引,axis=1为行索引
分组与聚合
应用groupby和聚合函数实现数据的分组与聚合
案例1
现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个 多,或者我想知道中国每个省份星巴克的数量 的情况,那么应该怎么办?
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。