龙空技术网

超级菜鸟怎么学习数据分析

小文聊AI 259

前言:

此时朋友们对“矩估计不是无偏估计”都比较着重,看官们都想要知道一些“矩估计不是无偏估计”的相关知识。那么小编在网络上搜集了一些有关“矩估计不是无偏估计””的相关文章,希望姐妹们能喜欢,兄弟们一起来学习一下吧!

我认为这里的“超级菜鸟”应该指的是从来没有接触过任何有关计算机,数学,统计学等领域的内容的小伙伴,可以自身的背景是纯文科生一枚,如果你真的是一个这样的超级菜鸟并且对于转行到数据分析有着强烈的热情,那么我觉得你学习数据分析将有很长的路要走。信心,毅力和选择一条明确的学习路线对于你来说是很重要的。

提升自信和保持毅力的方法我就不多说了,这种感性方面的东西主要靠大家的主观意念。下面我就来重点和大家说一说学习数据分析的学习路线应该怎样去走。

弄清概念,明确学习目的

在我看来,小白选手入门数据分析时,一定要先去了解数据分析具体的定义是什么,所谓数据分析,是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。

我们来一点一点去理解,定义里面讲到了“统计分析方法”,说白了就是拿来一组数据,我们根据需求,做出相应的数据整理和分类,等做的次数多了,我们就可以针对目前所整理的数据近似拟合出一个数学模型,对未来未知的数据进行预测,这就是统计学做的工作。

那么“开发数据的功能,发挥数据的作用”就是指把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。

因此,可以看出数据分析的学习和统计学是分不开的,由于日常生活中数据量的庞大,数据分析的学习还会依靠很多软件来完成,比如Python和R语言,这里就要求大家会使用这些软件,就是掌握一定的编程技能,有了前面两个的基础,就可以去看一些简单基础的数据分析算法,来初步了解数据分析。

综上,所需要学习的内容有:统计学知识,编程技能以及一些基本的数据分析方法。

统计学知识储备

首先初学者要去了解一下统计学的概念,统计是对数据的整理与分类的过程,因此学好数据分析需要掌握统计学的知识。我认为统计学这一部分的知识内容首先要学好基本的统计学理论基础知识,其次要和现实生活联系紧密才会对学习数据分析有所帮助,因为最终数据分析的工作接触最多的就是生活中真实的数据,在学习理论知识这一方面我推荐茆诗松的《概率论与数理统计》这一本书,学习这本书的初学者只需要高中数学的基础就可以,因为大家在高中的时候也接触过一些概统的内容,应该是简单求解概率值、数学期望等等。这本书里面写的很详细也很基础,排版也很合理,每一个定义多看几遍大家是可以看懂的。

这本书想必大家都听说过,在概统领域这本书的知名度很高,学习理论知识这一本书就足够了,里面还配有习题和详细的解答,有些习题难度比较大,不建议大家去做,大家把里面的例题弄明白就可以,下面给大家梳理一下这本书里面的一些知识点,这里面的知识点在数据分析的学习中比较常用,大家要多关注一下:

第一章

随机事件的定义、运算律,以及对应概率的运算。

第二章

随机变量及其分布,了解连续型随机变量和离散型随机变量的定义,掌握几个重要的分布:离散型分布:二项分布,泊松分布。连续型分布:正态分布,指数分布等。

第三章

多维随机变量及其分布,掌握随机变量的数字特征:数学期望、方差、标准差、相关系数等,会求多维随机变量的分布函数和概率密度函数。

第四章

学会几个重要的大数定律:伯努利大数定律,切比雪夫大数定律,辛钦大数定律,马尔可夫大数定律,掌握分布的特征函数和中心极限定理的内容。

第五章

了解样本,总体,样本容量的概念,由这些延伸到统计量的定义,掌握抽样分布定理的内容和三大抽样分布:卡方分布,t分布,F分布。

第六章

参数估计的类型:矩估计,极大似然估计,无偏估计,一致最小方差无偏估计,区间估计等。会计算某一个参数的某一估计类型。

第七章

假设检验的方法:t检验,F检验,一个或多个正太总体的检验,独立性检验。

第八章

方差分析的方法,线性与非线性回归,逻辑斯蒂回顾分析。

上面表格列出来的知识点是学习数据分析必备的理论基础部分,那么对于实践部分来说,大部分是利用Excel函数来计算平均值,方差,标准差等等,还有画一些直方图,折线图,饼状图等,熟练Excel的朋友会比较容易上手,不熟悉的朋友也不要紧,Excel的函数语句比较简单,可以边查资料边学习。

编程技能

学习数据分析需要掌握的编程语言有Python和R语言,这两门语言在处理数据方面都是十分好用的,下面我来为大家一一分析一下:

小白上手Python的学习方法:

Python是一种编程软件,是处理数据分析问题比较好的一门编程语言。初学者我为大家推荐下面这两本书,里面每一个板块的内容都写得很详细。

对于小白来说,首先就是Python环境的搭建,这里我们可以直接在Python的官网上找到相关的安装包,无论是Windows,Macbook还是Linux用户,官网上都有比较清楚的安装流程,在安装的过程中也会有相应的提示,大家按照提示来进行安装就好。

接着就是要正式学习Python了,先带大家来了解一下Python的知识体系:

Python的基础知识

基本数据结构:比如列表、元组、字典、集合、字符串、栈、队列、堆、树、图等等

Pythond 的进阶知识

对象的比较复制、参数的传递、迭代器、生成器、操作符重载、上下文管理器Python和其他语言的混合使用等等。

Python核心应用

数据分析与处理(数据分析师,产品,运营):包括NumPy、SciPy科学计算,Matplotlib绘图,Pandas数据索引与处理

人工智能:信息流个性化推荐、广告精准投放、计算机视觉、自然语言处理、智能搜索引擎、量化交易策略

服务器端开发:Django框架、Flask轻量级框架、用户登录验证、缓存、端到端监控等。

表格里面前两部分的内容需要看书上的例子,上面推荐到两本书源代码都很详细,可以自己在电脑上敲代码来进行巩固练习。关于第三部分重点来说一下数据分析的学习部分,后两个部分对于学有余力的朋友们来说可以了解一下。

对于使用Python学习数据分析,我认为可以分为以下几大块:

数据获取:

这里采用公开的数据源(比如百度,谷歌搜索等等)、网络爬虫和一些竞赛网站比如数学建模竞赛。

数据存储与提取:

包括数据的创建、增、删、改,数据查询、提取,数据排序与索引,数据的分类与组合。

数据清洗与预分析:

包括处理缺失数据、处理重复数据、处理数据不一致等情况。

数据分析:

包括描述性分析:描述结果是什么样的,需要统计学基础和科学计算的基础、探索性分析以及可视化:包括可视化分析与输出结论、预测性分析:预测未来数据,基于基本的算法模型实现预测。

数据报告:

包括明确任务目标、确定报告的逻辑以及选择合适的呈现形式。

- 以上这些内容的学习我可以给大家推荐两本书:

这两本书关于Python数据分析的内容讲解得十分全面,并且里面有很多经典实战的例子供大家参考,在实例中学习会帮助大家加深理解,加深印象。

新手入门R语言的学习策略:

R语言是我学习概统时经常会用到的一门语言,它是一门专业的统计编程语言,具它有着强大的数据分析功能和精准绘图功能,且开源免费并且有着丰富的扩展包和活跃的社区。R语言这些优质的特性,使得它始终在数据统计分析领域的SAS、STATA、SPSS、Matlab等同类软件中占据领先地位。与Python一样是学习数据分析必不可少的工具。

R语言我给初学者推荐的一本书是张敬信编写的《R语言编程—基于 tidyverse》tidyverse是一个连贯的数据包操作系统,用于数据操作,探索和可视化。

下面我来给大家说一说这本书的特点:

1、最新的技术

采用最新的R语言技术,甚至R包都用最新版本,因此大家会学到最新最前沿的R语言相关知识。

2、试图讲透编程语法

很多国内 R 语言编程书只是罗列堆砌编程语法,国外有不少优秀的 R 语言编程书,但翻译版往往就只是“直译 ”,只把表面意思用生硬的汉语表达出来,很难让初学者学透它们。这本书中的解决办法就是真正融入编程思维:编程思想引导,编程语法到底是怎么回事,应该用于何处、怎么使用。

3、精心准备实例

编程语法讲透彻还不够,必须配以合适的实例来演示,所以也请读者一定要将编程语法讲解与配套实例结合起来阅读,比起实例代码调试通过,更重要的是借助实例代码理解透彻该编程语法所包含的编程思维。

4、程序代码优雅、简洁高效

本书程序代码都是基于最新的tidyverse,自然就很优雅,简洁高效是因为能用向量化编程就不用逐元素,能用泛函式编程,就不用for循环。可以说,读者如果用这本书入门R语言,就会自动跳过写低级啰嗦代码的阶段,直接进入简洁明了较为高级的R语言代码阶段。

下面可以给大家看一个数据读写的实例讲解:

可以看出里面关于利用R语言读取Excel表格数据的操作讲解十分详细,代码格式规范,并且没有太多的伪代码,可以让读者直接根据书中的代码在自己的电脑上操作,方便快捷效率高。

数据分析课程推荐—贪心科技数据分析课

上面两大部分内容如果大家掌握的差不多了之后,就可以去尝试学习一些数据分析的课程了,初学者一定不要把学习的顺序弄反,一定要先学概统和编程,再去入门数据分析的课程,如果直接入门数据分析的课程,里面有好多概统和编程的专业术语大家是听不明白的,会造成混乱,按顺序一点点来,慢一点没有关系,学会了才是最重要的。

我给大家推荐数据分析的网课是贪心科技团队打造的数据分析课,这门课程的讲解十分细化也十分基础,很适合初学者去学习,并且课程还设置了笔记功能,可以一边学习一边做笔记,课后复习巩固,消化吸收。

下面给大家看一下课程主要内容:

这里由于篇幅的原因就不一一展示了,可以看到有十周的课程内容,每一周的安排都比较详细,每一节课程讲的内容也比较清楚,让初学者在没点开视频之前一目了然地明白要去学什么,老师在讲课的时候也会举一些自己的亲身经历,会说他当时遇到这个问题会去怎么理解、怎么解决,会给人一种亲切感。不是一股脑地把知识点全讲完,每讲一个地方他都会停顿一会,去尽量给大家解释清楚。

这门课程里有一些入门的数据分析方法,掌握了上文统计学基础和编程基础的朋友们这时可以尝试学一些数据分析的基本方法了,学的时候大家会发现确实用到了很多Python的知识,而且好多都是一笔带过,不会讲得那么细因此前面在基础打好很重要。

下面给大家举两个具体课程的例子:

上图讲解的是Python关于描述性分析,可视化分析,预测性分析以及对于数据库的操作。可以看到老师一边将在一边敲代码,这样的讲课方式不多见,这个老师是很负责任的。我们在学习的过程中也可以自己跟着老师敲一遍代码,如果一次不理解可以暂停多写几遍,这样一来会加深我们对于知识点的印象。

全文小结

本文针对于“超级菜鸟”想学习数据分析指出了一条学习路线,其实我认为数据分析的学习就是数学+编程的组合,然后可以看一些基本的数据分析方法。这二者是相辅相成的,每一个环节都要做到精益求精,弄懂弄透。既然是入门学习大家开始时可以慢一些,不要囫囵吞枣,从一个切入点入手,知识点之间都是有联系的,把一个知识点学透了,学习其他的内容自然就会轻松起来。

标签: #矩估计不是无偏估计 #矩估计必然是无偏估计