🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀数据处理与分析_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
1. 前言
【数据处理与分析】专栏主要专注于数据处理和数据分析。
专栏中的【数据科学导论】部分是对整个大数据科学所有技术(包括数据处理、数据分析)的一个概论,适用于想要快速入门大数据的友友们🥰🥰~~~
【数据科学导论】整体学习脉络:
- 数据科学导论——研究数据科学
- 数据科学——研究大数据处理
- 大数据处理过程——采集、表示与存储、预处理、建模分析、可视化、决策
- 大数据处理过程指导数据科学导论内容
前面,我们学习了一下部分:
数据清洗(噪声、填充、删除)
- 数据集成(冗余:无序数据冗余+有序数据冗余。无序数据冗余:皮尔逊相关系数、卡方检验;明氏距离、汉明距离;简单匹配相似度、jaccard相似度、余弦相似度。有序数据冗余:斯皮尔曼系数、NDCG。)
- 数据规约(PCA、特征子集选取)
- 数据变换(量纲处理:Z变换、最大最小值变、小数变换;离散处理:聚类、分箱、熵变换)
特征提取
- 设计特征:TF、IDF;
- 选取特征:全局最优搜索、随机搜索、启发式搜索;
- 特征评价:过滤式、封装式、嵌入式
数据探索性分析
- 数据分布:极差、方差、变异系数、异众比率等等
- 参数估计:矩估计、最小二乘估计(LSE)、极大似然估计(MLE)、最大后验概率估计(MAP)
- 假设检验
- 抽样方法:简单随机抽样、系统抽样、分层抽样、整群抽样
接下来,我们直接来加入可视化和文本分析部分。可视化就是数据可视化,文本分析就是文本进行处理🥥。由于本系列是入门课程,因此仅仅是对各部分有一个简单的介绍。
2. 数据可视化
数据可视化的作用:
- 协助思考
- 帮助记忆
- 增强认知能力
- 使用感知代替认知
数据可视化的方法和技术:
- 图可视化
- 节点链接图:直观简单但是对密集图不适用。
- 相邻矩阵:可视化效果不直观但是适合复杂密集图的展示。
- 统计图表可视化
- 地理数据可视化
- 点数据可视化:简单直观,符合逻辑直觉;但是不适用于密集图展示。
- 线数据可视化:简单直观,但是不适用于密集图展示。
- 区域数据可视化
- 文本可视化
- 文本可视化将文本中蕴含的语义特征(词频、逻辑结构、主题聚类、动态演化规律等)直观 的展示出来
- 时空数据可视化
- 一维二维三维标量场数据可视化
数据可视化工具:
- Echarts
- R语言
- Processing
- Google Refine
3. 文本分析
3.1 总纲
3.2 数据获取【网页抓取】
提升性能:异步抓取,DNS预解析
链接调度:累积式抓取,增量式抓取【搜索引擎的日常抓取】
重复检测:I-Match算法
爬虫:robots.txt(友好访问|存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的 漫游器内容是否能被获取)
恶意爬虫危害:
- 增加网站带宽负担
- 核心文本被爬取
- 注册用户被扫描(一个个验证手机号看是否注册)
- 点击欺诈(不知道真实的访问量)
3.3 数据处理【中文分词】
中文基于单字,中文书面表达方式以汉字作为最小单位的,但词与词之间没有显性的界限标志
词法分析包含:
- 分词
- 词性标注(名词,动词,形容词等)
- 命名实体识别
- 词义消歧
分词的意义:正确的机器自动分词是正确的中文信息处理的基础
分词主要难题:
- 如何识别未登录词
- 如何利用语言学知识
- 词语边界歧义处理【分词歧义】
- 实时性应用中的效率问题
4. 总结
本文到这里就结束啦~~
目前已完成:大数据入门、数据表示与存储、数据预处理、建模分析
期待您的关注~~🥰🥰
猫猫陪你永远在路上💪💪
如果觉得对你有帮助,辛苦友友点个赞哦~