• 保存到桌面加入收藏设为首页
淘宝小号查询

如何进行数据分析?

时间:2020-11-16 19:09:41   作者:文章CMS   来源:   阅读:105   评论:0
内容摘要:  我们在做数据分析时都是为了解决工作或生活中遇到的问题,所以我们在做数据分析是的第一步就要明确我们需要解决什么样的问题。  我们这里有一份朝阳医院2018年药物的销售数据,根据这份销售数据,我们来尝试解决上面的三个问题: &em......

  我们在做数据分析时都是为了解决工作或生活中遇到的问题,所以我们在做数据分析是的第一步就要明确我们需要解决什么样的问题。

  我们这里有一份朝阳医院2018年药物的销售数据,根据这份销售数据,我们来尝试解决上面的三个问题:

  我们需要先导入Excel数据文件,这里运用的是Pandas里的pd.ExcelFile的方法将excel格式转化过来。

  我们检验完数据,发现这个数据总共有7列,共6578条数据,如果一条条计算的话,任务量就太巨大了,所以利用python进行数据分析。

  是为了方便我们进行数据分析,有时需要将列名更换成我们方便理解的名称,购药时间是医院方面的说法,我们把它换为销售时间,所以这里我们对这列进行重命名。

  因为数据量比较大,如果数据中有空值,将会对我们的数据分析结果有影响,那么我们就将有空值的那行进行删除,主要就是去除掉一些无效数据。

  由于我们在之前读取数据的时候将所有数据转换成字符串格式。而 销售数量, 应收金额 ,‘实收金额’这三列为数字部分(整数或者浮点数)。所以这里要进行数据转化,使数据变得规整。

  在‘销售时间’列中的日期后面带有星期,这对我们是不利于观察数据变化的对于数据分析结果也没有作用。所以我们要对数据进行排序

  对于这组数据来讲,本身不需要星期这一项,所以这个阶段直接清理掉。首先定义一个函数,这个函数的目的就是取空格以前的部分。我们就定义函数来将星期去除。

  接着是整理时间的格式问题,我们将 销售时间 这一列的数据转换成时间格式,方便我们后边的数据统计。

  销售数据中日期的格式为format,而对于不合格的日期格式,将其值转化为空值,这里要用Pandas里的to_datetime的方法对时间格式进行整理。

  通过数据我们可以看到销售数量中有负数,这一行中的最小值为-10,这显然不符合常理,我们要将异常值处理掉。

  首先需要两个数据,就是总的消费次数和月数,总的消费次数,就是同一天同一个人(社保号)为一次消费,剔除掉重复的数据。我们这里用到的是pandas里的drop_duplicates方法。

  总结:这章的重点在于数据清洗在数据分析过程中有很多数据是杂乱无序的,我们需要对其进行规整,重点就是排序,去除缺失值和异常值。可以更方便我们观察数据和处理。数据可视化这部分没有在这篇文章里介绍,会在以后做介绍。

  每当我拿到一关时都觉得好难,这一开始其实是自己把自己难住了。当真正做一件事时,先不要考虑难或不难这个问题,而是做好规划,把大问题分成一个个的小目标,一点一点的去完成它,当最后完成了所以的小目标后大问题也最终完成。


标签:如何分析数据  
相关评论