Beinsearch
11/21/2017 - 3:20 AM

大数据 文档

###Covtype 数据集合
[链接](http://bit.ly/1KiJRfg)
`描述:`
`- 美国 Colorado 植被覆盖类型`
`- 共有581012条记录,每条记录有55列,其中一列是土壤的类型。包含特征:高度、坡度、到水的距离、树荫下的面积、土壤的类型等等。包含分类和数值特征。`
`- 数据集的描述文件 covtype.info。`
HDFS的运行原理:
http://blog.csdn.net/weixuehao/article/details/16967485/

Spark ML包中的几种归一化方法总结:
http://m.blog.csdn.net/silveryhand/article/details/75329973

使用Python Pandas处理亿级数据
http://www.open-open.com/lib/view/open1424831028171.html