数据
什么是数据?
数据是一系列对象及他们的属性的集合
- 属性指对象的特征
- 一个属性的集合描述一个对象
结构化数据和非结构化数据
结构化数据:
结构定义完整,具有数据模型,可以使用二维表表示
(传统的关系数据模型、行数据,存储于数据库)
非结构化数据:
没有很好的定义结构,不可以用数据模型或二维表表示
(类似XML、HTML之类,自描述,数据结构和内容混杂在一起)
半结构化数据:
部分定义良好,没有数据模型
(各种文档、图片、视频/音频等)
数据属性
属性分为数值型和符号型
属性和属性意义的关系
- 相同的属性可能有不同的意义
- 高度属性可以用英寸也可以用米衡量
- 不同的属性可能有相同的意义
- 外键到id
数据集的类型
- 记录
- 数据矩阵
- 文本
- 图
- 万维网
- 序列
- 时间数据
- 时序数据
数据库
什么是数据库
数据库是数据的集合,通常用来描述数据之前的组织关系
- 数据库的大小和复杂度都是任意的
数据库是数据存储的抽象 - 它隐藏了数据的存储和维护细节
- 物理层:数据如何存储
- 逻辑层:数据对象的意义及对象之间的逻辑关系
- 视图层:将数据展现给使用者
数据模型
- ER模型
- 主要用于数据库设计
- 基于对象数据模型
- 面向对象
- 面向关系
- 半结构化数据模型
- XML
- 其它
- 网络模型
- 层次模型
SQL - 数据库查询数据的语言
数据库设计
- 逻辑设计 : 寻找数据的基础模型,反映业务逻辑
- 物理设计 : 设计数据库的物理结构,选择RDBMS,设计数据库的存储方式
存储管理
- 链接物理存储与应用之间的接口
- 高效存储
- 与文件管理接口接触
事务管理
- 事务是一个逻辑功能下一系列操作的集合
- 确保及时系统失效,数据仍能保持在一个正确的状态
存储过程
- 解析SQL并建立事务
- 优化
- 执行请求
大数据
大数据的含义
大数据是一种资源,大数据是一门技术,大数据是一个产业,大数据是一种思维
大数据4V特性
- Volume 体量
- 非结构化数据的超大规模增长,占总数据量的80%~90%
- PB是大数据层次的临界点
- Variety 多样性
- 异构和多样性
- 形式不同(文本、图像、视频等)
- 能够在不同的数据类型中进行交叉分析
- Value 价值密度
- 大量不相关信息
- 价值密度低
- Velocity 速度
- 实时分析而非批量式分析
- 实时处理的要求,是大数据和传统数据仓库技术的关键差别之一
大数据金融
大数据金融是指依托于海量、非结构化的数据,通过互联网、云计算等信息化方式对其数据进行专业化的挖掘和分析,并与传统金融服务相结合,创新性开展相关资金融通工作的统称。
数据挖掘
什么是数据挖掘
数据挖掘有很多定义
- 从海量数据中提取隐藏的、先前未知的、具有潜在价值的数据
- 通过自动或半自动化的方法,发掘和分析海量数据中有意义的部分
数据查询和数据挖掘的区别
- 查询方式的区别
- 数据查询通过SQL,查询预先定义好的数据
- 数据挖掘并没有查询语言或数据定义
- 可操作性
- 数据查询的数据可操作,数据挖掘的数据不可操作
- 输出
- 数据查询的结果是精确的,输出的是数据库的子集
- 数据挖掘的结果是模糊的,并不是数据库的子集
- 举例
- Find all credit applicants with last name of Smith.
- Find all credit applicants who are with poor credit risks. (classification)
- Identify customers with similar buying habits. (Clustering)
- Find all items which are frequently purchased with milk. (association rules)
数据挖掘算法
- Classification
- C4.5.
- CART.
- K Nearest Neighbours (kNN)
- Naive Bayes Hand
- Statistical Learning
5. SVM
6. EM
7. Apriori
8. FP-Tree - Link Mining
9. PageRank
10. HITS - Clustering
11. K-Means
12. BIRCH
13. AdaBoost - Sequential Patterns
14. GSP
15. PrefixSpan - Integrated Mining
16. CBA - Rough Sets
17. Finding reduct - Graph Mining
18. gSpan
数据预处理
不合格的数据会导致错误的挖掘结果
- 获取到的数据往往是脏数据
- 不完整的数据
- 不同时期获取的数据
- 人为或软硬件故障导致
- 错误的数据(噪声)
- 数据收集中的故障
- 人为或计算机错误
- 数据传输中的错误
- 不一致的数据
- 不同数据源
- 违规操作数据
- 重复的数据
- 不完整的数据
个性化推荐算法
个性化推荐为什么要实时
- 个性化因素的变化
- 用户需求的不同和不断变化
个性化搜索
- 用户档案
- 分析表面的行为,生成用户档案,进而生成未来点击的页面
- 个性化算法
- 在搜索结果融入个性化的排名
怎样收集用户数据
- 从商品的角度收集
- 用户的评论、打分、投诉等
- 从用户的角度收集
- 用户的主观的关于多个商品的相关信息
收集数据的粒度处理
- 原始数据的收集粒度
- 地址:国家、省、市、街道
数据应用例子
- 记录用户的购物流程
- 搜索记录
- 商品浏览记录
- 购买记录
- 通过其它用户的购买行为进行推荐
- 其他人都看了什么、买了什么
- 通过活动来吸引用户说出喜好和需求
一些有价值的数据举例
- 基于用户特征信息的用户细分;
- 基于用户的个性化页面设置;
- 基于用户行为数据的商品推荐;
- 基于用户的个性化搜索;
- 基于用户兴趣的定向营销;
- 用户有购买倾向却未购买原因分析;
- 文本挖掘技术和聚类模型分析的商品自动分类;
- 用户访问兴趣聚类;
- 用户等级自动分类;
- 商品用途和用户需求匹配分析;
- 新产品推广预测分析;
- 用户购买行为预测;
- 用户购买力判断
基于内容的个性化推荐
- 特点
- 推荐用户过去倾向于选择的东西
- 核心是用户档案
- 数据通过通过关键词表示
- 多维向量空间广泛使用
- 不足
- 关键词所能表述的内容有限
- 相同特征所描述的物品难以区分
- 过多的数据(购买物品宽泛)也会导致问题
- 冷启动问题(新用户没有历史数据,新物品也没有标签)
协同过滤的方法
- 特点
- 通过先前其它用户的标注为新的用户推荐
- 重点在于发现用户和用户群之间的匹配关系
- 用户越多结果越准确
- 不足
- 不同用户的衡量尺度难以统一
- 相似的用户(群组)较难发现
- 冷启动问题(新的用户没有偏好,新的物品也没有评价)
- 具体算法
- k-nearest neighbor,
- association rules based prediction, and
- matrix factorization
- 协同过滤的类型
- 用户与用户相关联
- 相似的用户对相同的商品往往都会好评
- 商品与商品关联
- 相似的商品,都可能获得相同用户的好评
- 参考网址
- 用户与用户相关联
关联规则过滤
通过挖掘物品之间的关联,为用户做出推荐
混合推荐算法
将基于内容和协同过滤的方法相结合,通过基于内容的方法完善协同过滤所需要的数据。
推荐算法的过程
- 测量商品在商品组中的分数
- 测量用户在用户组中的分数
- 获得推荐分数
- 通过推荐分数预测用户是否会购买商品
推荐系统中的关键问题
- 冷启动问题
- 缺少用户购买、浏览记录等数据
- 无法进行用户对商品喜好的预测
- 单次推荐结果的多样化
- 在单次推荐中避免商品的单一
- 应全面考虑用户喜好(可能购买商品)的多样性
- 多次推荐结果的时序多样化
- 每次推荐的结果都一样会导致用户失去对推荐系统的信心
- 用户对某个商品的需求是有时间周期的
- 商品有使用寿命
- 不同情境下的推荐
- 不同情境下用户对同一个问题所持观点和考虑角度可能不一样
- 实现比较困难:用户情境的获得
- 可变性和复杂性:购买行为的动机、预算、使用环境等等
- 所推荐Top-K商品的选择
- 推荐系统只能返回有限个推荐结果给用户
- 考虑多样化问题
- 考虑推荐商品的排序
- 推荐结果的显示
- 有限(用户感兴趣的)属性的选取:性能、外观图片、价格。
- 推荐结果出现的位置和时机
- 避免大错误推荐
- 用户的个性化信息的收集和profile的构建
- 评价
- 标签
- 重复浏览记录
- 购买记录
- 浏览记录
- 搜索记录
- 购买力
- 个人基本数据:年龄、性别、国籍、教育程度等
- 用户喜好的时序迁移
- 用户社区信息的利用
- 用户在互联网上显式地或隐式地形成不同的社区,某个公司、喜欢某个明星、购买无敌兔等
- 兴趣社区内的用户有相似的喜好,对喜好的商品有类似的观点
- 提供更准确的信息过滤
- 推荐的响应时间
- 用户无法忍受长时间的等待
- 不耐其烦的推荐也不可取
- Email主动推荐
- 吸引和重新激活不活跃用户
- 主动提供新资讯
- 用户信息缺失、需求模糊情况下的推荐
- 用户对网站不熟悉
- 用户对商品不熟悉
- 用户需求模糊,如只知道买手机,更多的功能不了解;
- 推荐结果的解释
- 让用户有购买和比较的理由
- 增强用户购买的欲望
- 从用户反馈可以更准确地找出推荐成功或失败的原因
总结
- 推荐系统是一个针对商品领域、商家和用户的个性化系统
- 没有“万金油”推荐方法
- 需要和电子商务网站本身紧密结合
- 个性化推荐、个性化搜索和数据挖掘在电子商务网站中的整合
- 推荐是被动地接受商家的商品信息
- 搜索是主动地寻找其需求的行为
- 数据的挖掘可以更好地给这两者提供更多更准确的信息
- 推荐系统的复杂性
- 是一个螺旋式上升的过程
语义网络
与传统网络的区别
- 资源含义和链接意义不同
- 是否需要人工操作
资源描述框架
- 资源描述框架用于描述和互换资源
- 提供机器学习的功能
资源描述框架的schema
- 提供对资源更高级别的描述
- 限制
- 没有数据类型的标准
- 没有关系描述的标准
- 没有比较数据的标准