在数据分析工作中的地位与R语言、SAS、SPSS 比较如何?
2018-01-07 来源:互联网
能够用来做统计分析的软件和程序很多,目前应用比较广泛的包括:SPSS, SAS、R语言,Matlab,S-PLUS,S-Miner等。下面我们来看一下各应用的特点:
SPSS: 最简单的,都是菜单操作,不过不利于二次程序开发。
SAS: 需要购买,该软件录入语言要非常精确,不能出错,难操作。
R语言:免费软件,可以菜单操作,不过一般要编程的,二次程序开发。
Matlab:基本是程序操作,和R语言差不多,不过功能比较强大。
S-PLUS: 需要购买,基本也是菜单操作,和SPSS差不多。
r语言和spss哪个好学_R与SPSS、SAS相比较
R与SPSS、SAS相比较,拥有非常突出的优势:
1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。
2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。
3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。
Python 在数据分析工作中的地位与 R 语言、SAS、SPSS 比较如何?
spss对用户的要求是只要会点击菜单就可以了,有编程窗口但是一般没人用,用户多是收到过一些统计训练的,但不需要高深的分析能力,市场调研用的比较多,统计专业大二一般要求掌握。
sas内装许多写好的procedure 而且都是经过Fda认证的,有保障的东西,所以死贵好处是权威,坏处是不够灵活,算法更新慢,语法奇怪。不是那种传统意义上做编程的语言,所以循环啊什么的涉及算法的会不那么方便,也不是matlab这种数学语言,所以数学运算很麻烦,除非你买iml库,但就是因为权威,所以药厂要用,还有银行的风控也会用,sas还有个好处是大数据处理,内装的proc sql还不错,但说实话大多数人更喜欢直接用mysql。
接下来是R 开源,所以更新很快,新的理论很快就可以用上,数据处理尤其方便 ,data frame list啥的。R的出现解决了许多非IT人需要面对大量编程的困扰,如果我们排序 难道要从bubble算法开始吗?所以一开始被人们说R是matlab的精简版 ,但是都用过之后才知道R更轻便好学, 而且开源啊,免费。 没那么多跟linux 还是windows的兼容问题, R调用C可以极大提高loop的速度,monte carlo的时候简直就是天使!总之,如果你是要做有自己想法的,也就是需要自己编程的,强推R 。所以别说金融不用 现在金融的最前端 R也是很流行的。
python最后说,不得不说pandas的数据处理便捷程度还是比不上R 但是习惯了就算了,python的好处在于可以做很多事情,不仅仅是统计,所以应用面会更广 。其他我不知道,数学建模上和matlab非常相似的语法win32 module里和office兼容很棒,既可以做stand-alone又可以做大型开发等。
另外,说到金融的应用,很多(比R更多)quant的部门都会用python,而写C++的人毕竟IT居多,那种数学系写出来的算法他们做不来,而数学系的C++又没那么好 所以python就有了用武之地。
总之R和Sas是专业性更强的统计软件,统计专业学生必备。
spss是更大众化的统计软件,完成一些诸如问卷分析,简单回归之类的小问题 ,python不是统计软件 ,而是一种可以用来做各种事情的语言 ,stata介于spss和sas之间, 编程的难度特大。
另外,只有R和python是开源,开源不仅仅是免费, 更重要的, 它是由许多人在维护开发的 。所以对新的要求新的理论可以很快付出实践 ,但风险就是可能有错(不过错误也会很快改正)。 所以你如果要绝对正确 ,用付费的,至少错了还可以打官司 (顺便提一下revoluTIon R 是R的付费有担保版本)。如果你喜欢更flexible的, 用开源 。
(顺便提一下octave,不过我还是不喜欢matlab系列的语法)如果你用很简单的统计甚至不懂统计 ,用spss。
如果你只是统计 ,或者只是自己一个人干活 ,用R, 如果你是一个公司要做一个大家一起用的平台并且工作内容涉及到统计以外, 用python。
其实R也可以连sql c c++ 关键是精通一门 ,然后你会发现其他都是浮云。