Loading...
本文基于Gurpreet Singh大佬在 Spark+AI SUMMIT 2020 的公开课编写0x00对于 Python 环境下开发的数据科学团队,D...
评估方法将数据拆分为训练数据和验证数据,可以减小过拟合的可能性。但这样就必须拆分出和训练集数据分布几乎一致的验证数据。留出法通过分层采样对数据集D划分出样...
层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别的相似度类创建一个有层次的嵌套的树。层次聚类怎么算层次聚类分为...
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度的...
原始版本直接使用pandas读取整个Excel文件,再从中取列名。这种场景对于小的Excel文件还适用,但数据量上升到10M+时,取个sheet name...
聚类与分类的区别分类: 类别是已知的,通过对已知分类的数据进行训练和学习,找到不同类的特征再对未分类的数据进行分类,属于监督学习。聚类: 事先不知道数据会...
numpynp.unique(A)对于一维数组或者列表,unique函数去除其中重复的元素,并按元素由大到小返回一个新的无元素重复的元组或者列表A = [...
汇总和计算描述统计panda对象拥有一组常用的数学和统计方法,他们大部分都属于简约统计,NA值会自动被排除,除非通过skipna=False禁用In [7...
SeriesSeries是一种类似一维数组的对象,由一组数据和一组与之相关的数据索引组成In [9]: obj = Series([4,7,-5,3]) ...
利用数组进行数据分析np.where是三元表达式x if condition else y的矢量化版In [169]: arr Out[169]: arr...
创建 ndarray常用方法array函数可接受一切序列类型对象In [2]: data1 = [6.1, 5, 4, 3, 1] In [3]: ar...