Day3 DS review - import datasets, programming with dplyr
好
我们要来import data 了
这个是utils,自带的,啥也不用装
. 系列
基本上看看read.csv 和 read.csv2 的區別,我也说不上咋区别了,但是吧,就是有区别
readr 一生推?
传说中的fread
好像带hypfen的都比较不错, 但是要load readxl
辣鸡的gdata
gdata 听说很垃圾
XLconnect 搞Excel - 把RG的那个list 用r整理出能用的list 可能会用上XLconnect
ggplot breaks 的用法很特殊,特此一记
replace 还有missing value 记得有一个课讲missing value 讲得特别好,但是我忘了是啥课,好像是和sentiment analysis有关的,可能是tidy verse toolbox
no output=passed
但是要用filter
dropping full duplicates 好简单哈哈哈哈就是个distinct,但是data.table里好像有更复杂的解
找重复 也有万金油
万金油呵呵
dropping partial duplicates 其实是有万金油的
semi-join就是除怪,把怪踢出去
anti-join 是找怪,把怪单领出来
这个是和factor 有关的,data cleaning这门课说得很清楚。但是知识很杂,基本上每一章都可以另成一本书了
感觉到最后做project的时候会很管用,就是查level有没有啥奇奇怪怪不符合逻辑的归类
感觉stringr应该重新开一个文章。。。
整个str家族都很牛逼,还能detect 哈哈哈
这个filter的用法也很神奇,啥也不写,就assume了logically TRUE
感觉如果不说_all的话,可能就只改第一个见到的
这个有点傻的知识点,只是想remind myself 一下
课programming with dpyr, 我觉得这个课教一些tidyverse dplyr 比较高阶的常识
真的,像什么across,还有前面带点的那些东西,要慢慢适应,不要怕
.keep = "used" 只会让那些用到过的columns 出现
.keep 的default 是全部
across 其实就是同时apply to multiple columns
感觉sub 是stringr里的,整个string manipulation 其实和NPL还有sentiment analysis是相关的。sentiment analysis 就是数褒义词和贬义词。
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
- 来自作者
- 相关推荐