创业者最主要的需求,创业者的一般特征

2023-10-4 21:21| 发布者：网赚吧顾问| 查看：46| 评论：0

摘要：　　编辑导读：数据挖掘是指通过算法搜索隐藏在大量不完整、有噪声、模糊、随机数据中的信息的过程。本文作者重点介绍数据挖掘，希望对你有所帮助。　　　　　　　　　　　　豆豆和花花开了一家花店。豆豆告诉 ...

　　编辑导读：数据挖掘是指通过算法搜索隐藏在大量不完整、有噪声、模糊、随机数据中的信息的过程。本文作者重点介绍数据挖掘，希望对你有所帮助。　　

　　豆豆和花花开了一家花店。豆豆告诉花花，“情人节快到了。我们店里需要准备什么样的情人节花束？”每种花束需要准备多少？”花花回答道，“按照客户分类，大致可以分为8类，比如自信示爱、甜心、银河之恋等。前三类去年卖得很好，今年我们需要提供比去年多30%的花束。豆豆说：“鲜花的保质期极短，多出来的鲜花只能从30%降到10%，既能控制成本，又能积累口碑……” 　　

　　上述案例中，花花在制定采购计划时，首先对客户进行分类。在数据挖掘领域，可以使用无监督模型(如k-means)，分类模型(如KNN、决策树、逻辑回归等。)也可用于对用户进行分组。鲜花预测“今年的花束需要比上一年高出30%”。在数据挖掘领域，回归模型可以用来预测。　　

　　接下来，我将和你谈谈数据挖掘。　　

　　00-1010

01 机器学习与数据挖掘的区别与联系

首先我们总结一下机器学习和数据挖掘的定义：数据挖掘是指通过算法从大量不完整的、有噪声的、模糊的、随机的数据中寻找隐藏信息的过程。换句话说，数据挖掘试图从海量数据中找到有用的信息。　　

　　机器学习是一种从数据中自动分析并获取规则的算法，并利用规则来预测未知数据。也就是说，机器学习就是把现实生活中的问题抽象成数学模型，用数学方法求解数学模型，从而解决现实生活中的问题。　　

1.1 概念

1.2.1 联系数据挖掘受到许多学科的影响，包括数据库、机器学习、统计学、领域知识和模式识别。简而言之，对于数据挖掘，数据库提供数据存储技术，机器学习和统计学提供数据分析技术。　　

　　统计学往往忽略了实际效用，痴迷于理论之美。所以统计学提供的技术大部分需要在机器学习领域进一步研究，成为机器学习算法后才能进入数据挖掘领域。在这方面，统计学主要通过机器学习来影响数据挖掘，而机器学习和数据库是数据挖掘的两大支撑。简而言之，机器学习为数据挖掘提供解决实际问题的方法，数据挖掘中算法的成功应用，说明了机器学习对算法的研究具有实际运用价值。 　　

　　1.2.2 区别 　　

　　在数据分析方面，大部分数据挖掘技术来源于机器学习，但机器学习研究并不以海量数据为处理对象，所以数据挖掘需要对算法进行改造，使得算法性能和空间占用实用化。同时，数据挖掘有其独特的内容——关联分析。　　

　　至于数据挖掘和模式识别，在概念上是有区别的。数据挖掘重在发现知识，模式识别重在理解事物。　　

　　简而言之，机器学习注重相关机器学习算法的理论研究和算法提升，更偏向理论和学术；数据挖掘注重运用算法或者其他某种模式解决实际问题，更偏向实践和运用。　　

1.2 联系与区别

机器学习的方法是基于数据生成的“模型”的算法，也称为“学习算法”。机器学习方法包括监督学习、非监督学习、半监督学习和强化学习。　　

02 机器学习的分类

监督学习是指对数据和标签的某些特征之间的关系进行建模的过程。它的主要目标是从已标记的训练数据中学习模型，从而预测未知或未来的数据。以用户是否会再次买花为例，可以使用监督学习算法在标注的数据上(无论标注是否正确)训练模型。　　

然后用该模型来预测新用户是否属于粘性用户。

标签为离散值的监督学习任务称为「分类任务」，例如上述的用户是否会复购鲜花示例。常用的分类模型包括KNN、决策树、逻辑回归等。

标签为连续值的监督学习任务称为「回归任务」，例如根据历史数据预测未来的销售额。常用的回归模型为线性回归、非线性回归和岭回归等。

注意：机器学习领域的预测变量通常称为特征，而响应变量通常称为目标变量或标签。

2.2 无监督学习

无监督学习指对不带任何标签的数据特征进行建模，通常被看成是一种“让数据自己介绍自己”的过程。也就是说，用无监督学习，可以在没有目标变量或奖励函数的指导下，探索数据结构来提取有意义的信息。这类模型包括「聚类任务」和「降维任务」。其中，聚类算法可以将数据分成不同的组别，而降维算法追求用更简洁的方式表现数据。

2.3 半监督学习

半监督学习方法介于有监督学习和无监督学习之间，通常在数据不完整时使用。

2.4 强化学习

强化学习不同于监督学习，它将学习看作是试探评价过程，以“试错”的方式进行学习，并与环境交互已获得奖惩指导行为，以其作为评价。也就是说，强调如何基于环境而行动，以取得最大化的预期利益。此时，系统靠自身的状态和动作进行学习，从而改进行动方案以适应环境。

03 数据挖掘建模过程

从数据本身来考虑，数据挖掘建模过程通常需要有理解商业、理解数据、准备数据、建模型、评估模型和部署模型6个步骤。

3.1 理解商业

理解商业算是数据挖掘中最重要的一部分，在这个阶段我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。简单地说，就是针对不同的业务场景，需要明白挖掘的目标是什么，需要达到什么样的效果。用大白话讲，就是你到底想干啥。

仍以鲜花店为例，为了提高销售额，店员可以帮助客户快速找到他感兴趣的花束，同时在保证用户体验的情况下，为其附加一个可接受的小饰品，比如花瓶、零食、香水等。

3.2 理解数据

数据是挖掘过程的“原材料”，在数据理解过程中我们需要了解都有哪些数据，这些数据的特征是什么，可以通过对数据进行描述分析得到数据的特点。其中，了解有哪些数据尤为重要，其决定了后期工作进展的顺利程度。比如和花店有关的数据：

1）鲜花数据：鲜花名称、鲜花品类、采购时间、采购数量、采购金额等。

2）经营数据：经营时间、预定时间、预定品类、预定人数等。

3）其他数据：是否为节假日、用户口碑、竞争对手动向、天气情况等。

3.3 准备数据

在数据准备阶段我们需要对数据作出清洗、重建、合并等操作。选出要进行分析的数据，并对不符合模型输入要求的数据进行规范化操作。主要是为建模准备数据，可以从数据预处理、特征提取、特征选择等几方面出发，整理如下：1）缺失值：由于个人隐私或设备故障导致某些观测值在某些纬度上的漏缺，通常称为缺失值。缺失值存在可能会导致模型结果的错误，所以针对缺失值可以考虑删除、众数或均值填充等解决。

2）异常值：由于远离正常样本的观测点，它们的存在同样会对模型的准确型造成影响。可以通过象限图或3sigma（正态分布）进行判断，如果是，可以考虑删除或单独处理。

3）量纲不一致：模型容易受到不同量纲的影响，因此需要通过标准化方法（通常采用归一化、Normalization之类的方法）将数据进行转换。

4）维度灾难：当数据集中包含上百乃至上千万的变量时，往往会提高模型的复杂度，从而影响模型的运行效率，所以需要采用方差分析、相关分析、主成分分析等手段实现降维。