在我们的日常生活中,数据分析主要有三大作用,现状分析、原因分析和预测分析。
日常工作中Excel是非常实用的数据分析工具,但是随着大数据时代的到来,数据量动不动就超过百万条,仅仅靠Excel已经满足不了数据分析与处理的需求了。
最容易上手的数据库-Access数据库,是MicrosoftOffice办公软件中一个极为重要的组成部分,不仅能存储数据,还能对数据进行处理分析。Access 2010用到的主要对象是表和查询。数据表是数据库中存储数据的唯一单位,数据库将各种信息分门别类地存放在各种数据表中;查询是根据指定条件将表中的数据筛选出来,并以表的形式返回筛选结果。
SQL是结构化查询语言,弥补Access查询菜单的不足,也用于数据挖掘
先来介绍下SQL基本语法,主要有SELECT、DELETE、INSERT INTO、CREATE TABLE、DROP TABLE。
SQL查询语法,SELECT语句:
SELECT字段1,字段2,字段3……
FROM表
WHERE条件 (多个条件用and)
注意参数为字符型时用单引号,语句结束处添加句号。
两招导入数据:
1、直接导入法,将txt文件直接导入进Access数据库中,Access数据库中的表与数据源没关系了,数据更改不会影响源文件;2、也可以建立链接法,这样对原文本文件的任何更改都将自动反映到链接表中,好处是数据会随着数据源的变化而自动更新。
《谁说菜鸟不会数据分析工具篇》数据合并与计算
数据合并可以横向合并和纵向合并
横向合并:
从多个表中,根据共有的关键字段来合并。菜单操作法,使用数据库工具选项卡->关系组中关按钮系。要注意的是2个表按关键字段合并有3中方式,一是只包含两个表中联接字段相等的行(内连接),二是包括表1中所有记录和表2中联接字段相等的那些记录(左连接),三是包括表2中所有记录和表1中联接字段相等的那些记录(右连接)。
SQL查询方法,数据库右下角SQL按钮可将命令转换成SQL语句。举个例子
SELECT B.用户ID, B.产品 A.性别
FROM 用户明细AS A,订购明细AS B
WHERE A.用户ID = B.用户ID;
纵向合并:简单理解就是比如每天一个表,将多天的表合并在一起。用追击查询功能实现,手动的将表一个一个的加在一起,表多的时候就要用到SQL。更简单是方法是用UNION或UNION ALL。UNION ALL就是将各表的记录合并到一起,并且对这些记录不做任何更改,而UNION会删除各表存在的重复记录,并自动排序。
在Access数据库中进行数据计算。简单计算方法利用查询设计来完成。同样的,用SQL直接写出运算表达式即可。运用Access数据库中自带的函数也能有效的完成数据计算。
3 《谁说菜鸟不会数据分析工具篇》分组、重复数据处理和统计
数据分组:IIF函数法:
IIF(表达式,表达式成立时返回的值,表达式不成立时返回的值)
CHOOSE函数法:
CHOOSE(参数,结果1,结果2,……,结果N)
SWITCH函数法:
SWITCH(条件1,结果1,条件2,结果2,……,条件N,结果N)
PARTITION函数法:
PARTITION(数值参数,开始值,结束值,组距)
日期/时间分组,使用FORMAT函数:
FORMAT(日期/时间,日期/时间格式参数)
重复数据处理
重复项查询SQL方法;
SELECT First(用户ID),Count(用户ID) AS NumberOfDups
FROM 订购明细
GROUP BY 用户ID
HAVING Count(用户名)>1;
将上面函数最后一句 > 改成 = ,就变成不重复项查询。
数据统计
简单统计:
Count() 统计指定列中值的个数
Sum() 计算数值型数据的总和
Avg() 计算数值型数据的平均值
Max() 筛选出数据的最大值
Min() 筛选出数据的最小值
Stdev() 计算数值型数据的标准差
Var() 计算数值型数据的方差
另外还有分组统计和交叉表统计方法