当前位置: > 财经>正文

用Excel进行数据分析 黄金期货的走势图怎么看涨跌情况分析报告表格

2023-07-23 23:40:19 互联网 未知 财经

用Excel进行数据分析

前言

文章也许会长点,但是离我们的期望也会近一点,我希望我们一起努力~

我自己想成为一名机器学习工程师,但是我也知道任何东西不可能一蹴而就,所有的学习都是围绕实际场景开展,所以小伙伴们最好是直接找到一份工作开始是最好学习的,在工作中最容易得到成长。

我的目标方向:初级数据分析师——中级数据分析师——机器学习工程师

千里之行始于足下,我们先从最基本的做起,成为一名初级数据分析师再说以后的话

一、明确整体思路

培养分析思路,避免无从下手,下面给出一张数据分析整体思路图

上面这图根据实际的需求,进行选择不同的路线(在于分析层)

针对建模分析——模型测试——迭代优化,比较偏重数据模型的建设,如果想走机器学习方向的同学就需要学习这个,难度较高,当然薪资也高

对于描述分析——洞察结论,偏商业分析比较多,不需要有很强的技术(说实话,我感觉数据分析对技术要求确实是很低),比较适合新手入门,难度较低

这次是讲比较简单的,等时间久点,就跟大家讲讲模型的事情(大伙可以预习下)

二、数据分析旅程

1、目标确定

简单点就是你想得什么,提出问题,围绕问题中心点来进行你的每一步

本次我们是想分析当日所有股票的行情,分析出茅台股票在这近期的变化情况

2、数据获取

获取数据的方式多种多样,我介绍我常用的两种

第一种:使用工具获取,详情请看我专栏的第一篇文章,适合小白的朋友获取数据,这一种的获取问题可以直接问他们的客服

第二种:利用Python去抓取数据,需求一丢丢就一丢丢编程能力(看过编程的都应该能懂)

今天就介绍第二种,毕竟第一种不是教过了吗不是

环境:Anaconda3-5.1.0-Windows

python3.6.3

依赖包:Tushare

Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,Tushare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。传送门

利用Tushare抓取代码(是不是很简单!!!!)

抓取的Excel文件如下

3、数据清洗

提示:在我们进行数据清洗之前,一定要养成一个好习惯,对原始数据进行备份

日常中数据清洗占了我们大概六成的时间,清洗的方式有很多种,常见的就一下几种

更深层次的清洗——>传送门

1)选择子集

针对每一个列,选择我们需要的数据,不需要的可以隐藏。

恢复隐藏

2)列名重命名

双击列标签直接进行重命名

3)删除重复值

点击数据——删除重复项,出现一个方框,选择你想要清楚的某列重复的行数据

我们只选择判断代码是否重复。删了了64行重复的数据

4)缺失值处理

选择数据里任意一个单元格,点击ctrl+A,全选选中存在数据的单元格,点击开始——查找和选择——定位条件——勾选空值——确定

因为我这个是直接用包导出来,理论上是没有空数据存在

假设:存在空值,Excel会返回空值所在的空格,你可以对空值进行处理

缺失值处理的4种方法,根据情况灵活使用:

通过人工手动补全

删除缺失的数据

用平均值代替缺失值

用统计模型计算出的值去代替缺失值

技巧:在一个空格上输入数据后,按Ctrl+Eneter快捷键,其他空格也会直接填写一样的数据。在不连续的单元格中同时输入同一个数据或公式时很好用。

5)一致化处理

这一部分在于用网络爬虫的时候比较常见,因为我们经常会爬到串到一起的数据

因为我这里数据是不存在这种问题,所以参考了别人的

重点:对该列数据复制到数据的最右边,否则处理后的数据会覆盖后边的数据!!!切记

6)数据排序

排序有两种:升序、降序、自定义排序

操作:选中你想根据哪一列进行排序的列标签——开始——排序和筛选

扩展区域表示整一行的数据都会对应变动,当前选定区域仅仅变更选中的列

7)异常值处理

针对偏移较大的数据,我们需要斟酌处理,这一部分在建造模型的经常会遇到

在这个股票分析中,就存在开盘价、最高价、最低价为0的数据,这时候根据实际情况去决定

通过连续对三个列进行排序,然后直接删除或者隐藏

8)其他

在实际情况中,我们往往需要搭配各种函数去实际操作,大部分是数学函数,下面获取数据的几种

FIND(查询的数据,单元格) 返回所在的位置,第一个字符串坐标是1

LEFT/RIGHT(单元格,从左/右开始的第X个位置)

MID(单元格,起始位置,目标长度)

VLOOKUP(源数据,在哪一个区域里面找,返回这个区域里面第几列对应的值,是否是精确查找)

4、数据整理

为了更好体现这一块,我打算只是针对一个股票进行分析,获取茅台近期的股票详情

1)构建模型——数据透视表

拖动字段到下方区域,在字段的下滑按钮,可以根据需要选择

2)数据可视化

选中你需要的列数据——插入——勾选图表,是不是很清晰,马上可以看到其中的关系(领导要的就是这个啊朋友们)

5、描述分析——洞察结论——报告撰写

主观上你从这一堆清洗后的数据中得出什么有效的信息,我们需要回到初始我们提出的问题,我们的目地就是解决提出的问题。所有的技术都要围绕业务场景才有意义

这时候就要体现你独到的专业眼光了(俗称吹水),这部分我就不过多描述,因为实际情况是针对不同维度多个场景去描写。

通过对2018-07-02至2018-07-19的数据分析,结合图标,可以看出茅台的股价呈缓慢上升的趋势,有些许波动,可以继续持有或者买入(茅台可是会继续升的,但是近期三大GDP马车都不太给力,股市大部分都不太给力,所以需要自己斟酌斟酌,近期建议不要入比较好)

好啦,本次我们使用Excel进行数据分析的课程结束啦,希望都能在自己喜欢的事情上前进

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。