Day3 DS review - import datasets, programming with dplyr

·

2023 年 4 月 11 日

·

学得太多了有点overwhelming

好

我们要来import data 了

这个是utils，自带的，啥也不用装

. 系列

基本上看看read.csv 和 read.csv2 的區別，我也说不上咋区别了，但是吧，就是有区别

readr 一生推？

传说中的fread

好像带hypfen的都比较不错，但是要load readxl

辣鸡的gdata

gdata 听说很垃圾

XLconnect 搞Excel - 把RG的那个list 用r整理出能用的list 可能会用上XLconnect

ggplot breaks 的用法很特殊，特此一记

replace 还有missing value 记得有一个课讲missing value 讲得特别好，但是我忘了是啥课，好像是和sentiment analysis有关的，可能是tidy verse toolbox

no output=passed

但是要用filter

dropping full duplicates 好简单哈哈哈哈就是个distinct，但是data.table里好像有更复杂的解

找重复也有万金油

万金油呵呵

dropping partial duplicates 其实是有万金油的

semi-join就是除怪，把怪踢出去

anti-join 是找怪，把怪单领出来

这个是和factor 有关的，data cleaning这门课说得很清楚。但是知识很杂，基本上每一章都可以另成一本书了

感觉到最后做project的时候会很管用，就是查level有没有啥奇奇怪怪不符合逻辑的归类

感觉stringr应该重新开一个文章。。。

整个str家族都很牛逼，还能detect 哈哈哈

这个filter的用法也很神奇，啥也不写，就assume了logically TRUE

感觉如果不说_all的话，可能就只改第一个见到的

这个有点傻的知识点，只是想remind myself 一下

课programming with dpyr，我觉得这个课教一些tidyverse dplyr 比较高阶的常识

真的，像什么across，还有前面带点的那些东西，要慢慢适应，不要怕

.keep = "used" 只会让那些用到过的columns 出现

.keep 的default 是全部

across 其实就是同时apply to multiple columns

感觉sub 是stringr里的，整个string manipulation 其实和NPL还有sentiment analysis是相关的。sentiment analysis 就是数褒义词和贬义词。

CC BY-NC-ND 2.0 授权

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

尿尿我是卑微的尿尿，总有一天，我会让你们每个该吃屎的人都吃屎

来自作者
相关推荐

Programming test mistakes summary

插画师角度的NFT市场研究 (1)

红红火火恍恍惚惚的ggplot 高阶版