0%

机器学习03：西瓜书第四章决策树

发表于 2022-12-22 分类于机器学习
本文字数： 3.2k 阅读时长 ≈ 8 分钟

决策树

主要 follw 教程：https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W#

机器学习三要素

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）
算法：求解损失函数，确定最优模型

算法原理

从逻辑角度，就是一堆 if else 语句的组合
从几何角度，根据某种准则划分特征空间
最终目的：将样本越分越“纯”

策略

决策树建树算法有三种ID3、C4.5、CART，每个算法主要考虑的事情主要有三个问题：

如何选择最优划分属性？
条件判断的属性值是什么？
什么时候停止分裂，达到我们需要的决策？

阅读全文 »

机器学习02：西瓜书第三章线性模型

发表于 2022-12-20 更新于 2022-12-22 分类于机器学习
本文字数： 8.9k 阅读时长 ≈ 22 分钟

线性回归

主要 follw 教程：https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W#

机器学习三要素

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）
算法：求解损失函数，确定最优模型

一元线性回归

以一元线性回归为例：求解发际线高度x和计算机水平y的关系。

模型：根据经验（或观察数据形态），呈线性关系，所以假设空间 $f(x)=wx+b$，而不是曲线关系。
- 一元线性回归表达式:$ y = wx + b $
策略：所有点距离拟合的直线垂直距离最小，即均方误差小，最小二乘法。或者使用极大似然估计，假设$y=wx+b+\epsilon$，对$\epsilon$误差建模，能得出同样策略。
- 损失函数为均方误差(最小二乘法):
- $\begin{aligned} E_{(w, b)} & =\sum_{i=1}^{m}\left(y_{i}-f\left(x_{i}\right)\right)^{2} \\ & =\sum_{i=1}^{m}\left(y_{i}-\left(w x_{i}+b\right)\right)^{2} \\ & =\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} \end{aligned}$
算法：可以证明 $E_{(w, b)}$是凸函数（可以求2阶偏导数，证明Hessian矩阵半正定），所以能求出闭式解。（但机器学习算法通常没有闭式解，就要用梯度下降法、牛顿法近似求解）
- 令一阶偏导等于0，可以求出闭式解(此处省略推导):
- $w=\frac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}} \\ b=\bar{y}-w \bar{x}$

代码实现

阅读全文 »

机器学习01：西瓜书概览

发表于 2022-12-14 分类于机器学习
本文字数： 3.3k 阅读时长 ≈ 8 分钟

Task01 西瓜书概览

主要 follw 教程：https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W#

只记录一些印象深刻的基本概念，以及自己认为重要的点

阅读全文 »

SQL组队学习02：基础查询与排序

发表于 2022-07-15 分类于数据库
本文字数： 10k 阅读时长 ≈ 26 分钟

Task02：基础查询与排序

阅读全文 »

SQL组队学习01：环境搭建，初识数据库

发表于 2022-07-12 分类于数据库
本文字数： 7.6k 阅读时长 ≈ 19 分钟

Task01：环境搭建，初识数据库

SQL 环境搭建

主要 follw 教程：https://github.com/datawhalechina/wonderful-sql

阅读全文 »

RecHub推荐项目学习2：精排模型 DeepFM、DIN

发表于 2022-06-19 更新于 2022-06-22 分类于推荐系统
本文字数： 19k 阅读时长 ≈ 48 分钟

Task02

Task02：精排模型 DeepFM DIN

参考资料：FunRec文档，RecHub源码

推荐模型发展的时间线

这张图来自[1]，放出这张图的原因是便于从时间线上感受这些模型的发展。本期学习的 DIN 还算是比较独立的存在，它在前面模型 DNN 思想的基础上加入了注意力机制。而 DeepFM ，从时间线上可以看到 DeepFM 模型是在 FM、FNN、PNN、Wide&Deep 之后推出的，其实也是对这些模型的改进，为了更好地理解 DeepFM，至少得先了解它们。

阅读全文 »

RecHub推荐项目学习1：Torch-RecHub框架

发表于 2022-06-14 更新于 2022-06-22 分类于推荐系统
本文字数： 7.8k 阅读时长 ≈ 20 分钟

Task01

Task01：熟悉Torch-RecHub框架设计与使用方法

参考资料：0613晚直播讲解，直播ppt，RecHub源码

Torch-RecHub 简介

一句话概括：一个轻量级的pytorch推荐模型框架（详见ppt）。

比较认可的一点是：“模型训练与模型定义解耦，无basemodel概念，易拓展”，因为之前接触过 RUC 的开源框架 Recbole ，emm只能说对新手不是很友好（但不否认是一个伟大的开源项目），不友好主要就体现在各种 basemodel 的封装继承导致比较难修改。

阅读全文 »

论文笔记：《Price DOES Matter! Modeling Price and Interest Preferences in Session-based Recommendation》

发表于 2022-05-22 更新于 2022-06-22 分类于论文笔记
本文字数： 9.2k 阅读时长 ≈ 23 分钟

原paper：[2205.04181] Price DOES Matter! Modeling Price and Interest Preferences in Session-based Recommendation (arxiv.org)

作者本人解读：https://mp.weixin.qq.com/s/kSayir_jVwZbhEPm0qtYPA

中译：基于用户价格偏好及兴趣偏好的会话推荐

总结：

异质超图=异质图+超图：异质图——融合异质特征，超图——捕捉高阶依赖

双通道聚合：intra + inter ，聚合同类和异类信息，获得价格和兴趣偏好的初级表示

协同指导学习：捕捉价格偏好和兴趣偏好之间的复杂联系，获得语义增强的价格和兴趣偏好的表示

阅读全文 »

推荐系统基础9：多路召回实践

发表于 2022-04-28 更新于 2022-06-22 分类于推荐系统
本文字数： 4.5k 阅读时长 ≈ 11 分钟

任务9：多路召回实践

基于任务3、任务5、任务6、任务7、任务8，总共5个召回模型，进行多路召回。
可以考虑对每个召回模型的物品打分进行相加，也可以加权求和。
分别计算每个模型 & 多路召回模型的Top10、Top20、Top50的命中率。

代码地址： https://github.com/Guadzilla/Basics-of-Recsys

阅读全文 »

推荐系统基础8：向量召回基础

发表于 2022-04-27 更新于 2022-06-22 分类于推荐系统
本文字数： 4.5k 阅读时长 ≈ 11 分钟

任务8：向量召回基础

基于任务7的基础上，使用编码后的用户向量，计算用户相似度。
参考User-CF的过程，通过用户相似度得到电影推荐

代码地址： https://github.com/Guadzilla/Basics-of-Recsys

阅读全文 »