用Excel进行数据分析 黄金期货的走势图怎么看涨跌情况分析报告表格
文章也许会长点,但是离我们的期望也会近一点,我希望我们一起努力~
我自己想成为一名机器学习工程师,但是我也知道任何东西不可能一蹴而就,所有的学习都是围绕实际场景开展,所以小伙伴们最好是直接找到一份工作开始是最好学习的,在工作中最容易得到成长。
我的目标方向:初级数据分析师——中级数据分析师——机器学习工程师
千里之行始于足下,我们先从最基本的做起,成为一名初级数据分析师再说以后的话
一、明确整体思路培养分析思路,避免无从下手,下面给出一张数据分析整体思路图
上面这图根据实际的需求,进行选择不同的路线(在于分析层)
针对建模分析——模型测试——迭代优化,比较偏重数据模型的建设,如果想走机器学习方向的同学就需要学习这个,难度较高,当然薪资也高
对于描述分析——洞察结论,偏商业分析比较多,不需要有很强的技术(说实话,我感觉数据分析对技术要求确实是很低),比较适合新手入门,难度较低
这次是讲比较简单的,等时间久点,就跟大家讲讲模型的事情(大伙可以预习下)
二、数据分析旅程1、目标确定
简单点就是你想得什么,提出问题,围绕问题中心点来进行你的每一步
本次我们是想分析当日所有股票的行情,分析出茅台股票在这近期的变化情况
2、数据获取
获取数据的方式多种多样,我介绍我常用的两种
第一种:使用工具获取,详情请看我专栏的第一篇文章,适合小白的朋友获取数据,这一种的获取问题可以直接问他们的客服
第二种:利用Python去抓取数据,需求一丢丢就一丢丢编程能力(看过编程的都应该能懂)
今天就介绍第二种,毕竟第一种不是教过了吗不是
环境:Anaconda3-5.1.0-Windows
python3.6.3
依赖包:Tushare
Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,Tushare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。传送门
利用Tushare抓取代码(是不是很简单!!!!)
抓取的Excel文件如下
3、数据清洗
提示:在我们进行数据清洗之前,一定要养成一个好习惯,对原始数据进行备份
日常中数据清洗占了我们大概六成的时间,清洗的方式有很多种,常见的就一下几种
更深层次的清洗——>传送门
1)选择子集
针对每一个列,选择我们需要的数据,不需要的可以隐藏。
恢复隐藏
2)列名重命名
双击列标签直接进行重命名
3)删除重复值
点击数据——删除重复项,出现一个方框,选择你想要清楚的某列重复的行数据
我们只选择判断代码是否重复。删了了64行重复的数据
4)缺失值处理
选择数据里任意一个单元格,点击ctrl+A,全选选中存在数据的单元格,点击开始——查找和选择——定位条件——勾选空值——确定
因为我这个是直接用包导出来,理论上是没有空数据存在
假设:存在空值,Excel会返回空值所在的空格,你可以对空值进行处理
缺失值处理的4种方法,根据情况灵活使用:
通过人工手动补全
删除缺失的数据
用平均值代替缺失值
用统计模型计算出的值去代替缺失值
技巧:在一个空格上输入数据后,按Ctrl+Eneter快捷键,其他空格也会直接填写一样的数据。在不连续的单元格中同时输入同一个数据或公式时很好用。
5)一致化处理
这一部分在于用网络爬虫的时候比较常见,因为我们经常会爬到串到一起的数据
因为我这里数据是不存在这种问题,所以参考了别人的
重点:对该列数据复制到数据的最右边,否则处理后的数据会覆盖后边的数据!!!切记
6)数据排序
排序有两种:升序、降序、自定义排序
操作:选中你想根据哪一列进行排序的列标签——开始——排序和筛选
扩展区域表示整一行的数据都会对应变动,当前选定区域仅仅变更选中的列
7)异常值处理
针对偏移较大的数据,我们需要斟酌处理,这一部分在建造模型的经常会遇到
在这个股票分析中,就存在开盘价、最高价、最低价为0的数据,这时候根据实际情况去决定
通过连续对三个列进行排序,然后直接删除或者隐藏
8)其他
在实际情况中,我们往往需要搭配各种函数去实际操作,大部分是数学函数,下面获取数据的几种
FIND(查询的数据,单元格) 返回所在的位置,第一个字符串坐标是1
LEFT/RIGHT(单元格,从左/右开始的第X个位置)
MID(单元格,起始位置,目标长度)
VLOOKUP(源数据,在哪一个区域里面找,返回这个区域里面第几列对应的值,是否是精确查找)
4、数据整理为了更好体现这一块,我打算只是针对一个股票进行分析,获取茅台近期的股票详情
1)构建模型——数据透视表
拖动字段到下方区域,在字段的下滑按钮,可以根据需要选择
2)数据可视化
选中你需要的列数据——插入——勾选图表,是不是很清晰,马上可以看到其中的关系(领导要的就是这个啊朋友们)
5、描述分析——洞察结论——报告撰写主观上你从这一堆清洗后的数据中得出什么有效的信息,我们需要回到初始我们提出的问题,我们的目地就是解决提出的问题。所有的技术都要围绕业务场景才有意义
这时候就要体现你独到的专业眼光了(俗称吹水),这部分我就不过多描述,因为实际情况是针对不同维度多个场景去描写。
通过对2018-07-02至2018-07-19的数据分析,结合图标,可以看出茅台的股价呈缓慢上升的趋势,有些许波动,可以继续持有或者买入(茅台可是会继续升的,但是近期三大GDP马车都不太给力,股市大部分都不太给力,所以需要自己斟酌斟酌,近期建议不要入比较好)
好啦,本次我们使用Excel进行数据分析的课程结束啦,希望都能在自己喜欢的事情上前进
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。