hewumars
3/4/2019 - 2:07 AM

经验总结

  • 高质量数据优于花哨的算法
  1. 准确性
  2. 完整性
  3. 一致性
  4. 分布均匀性
  • 数据清洗的工作流程
  1. 检查:可视化,不相关数据,重复,统计各类别数量,离群值(测试训练集找出测试错误的分析其原因,或剔除,或增加同类数据)
  2. 清洗
  3. 验证
  4. 报告