潜在会员客户挖掘实战

真实数据。真实业务。真实决策。

不是几百条数据的demo。用的是SQLintern近4年的百万级真实用户行为数据。

100万+
用户行为数据
200+
标签维度
3万+
解题记录

一个真实的分析项目要考虑什么

Demo 大部分人的项目
-- 统计每个用户提交了几次
SELECT user_id, COUNT(*)
FROM submissions
GROUP BY user_id;

-- 然后丢给模型训练
-- 完事
真实 这项目要解决的问题
-- 1. 这平台没有会员字段,怎么推断谁是会员?
--    用"首次刷Pro题的时间"作为转化节点
SELECT user_id,
       MIN(submission_time) AS first_pro_time
FROM submissions s
JOIN articles a ON s.article_id = a.id
WHERE a.is_pro = TRUE
GROUP BY user_id;

-- 2. 未转化用户不能用NOW(),会数据穿越!
--    必须用统一截止时间
SET @analysis_date = '2024-04-01';

-- 3. 同一题刷10次,算10题还是1题?
--    要去重,不然刷题数虚高
SELECT user_id,
       COUNT(DISTINCT article_id) AS unique_problems,
       SUM(CASE WHEN difficulty='hard' THEN 1 ELSE 0END) AS hard_cnt
FROM submissions
WHERE submission_time < @analysis_date
GROUP BY user_id;

-- 4. 浏览、提交、点赞、评论...多表怎么合?
--    200+特征要一层层抽
WITH submit_features AS (
    SELECT user_id, ... FROM submissions ...
),
visit_features AS (
    SELECT user_id, ... FROM page_visits ...
),
like_features AS (
    SELECT user_id, ... FROM likes ...
)
SELECT *
FROM submit_features
LEFT JOIN visit_features USING (user_id)
LEFT JOIN like_features USING (user_id);

-- 5. 正负样本1:10,怎么训练?
-- 6. 特征重要性怎么解读?
-- 7. 怎么验证没有数据泄露?

这项目有什么不一样

1.

不是为分析而分析

很多项目做完就搁那儿了。这个一开始就问:要支持什么决策?分析完能做什么?

2.

统计陷阱真的会遇到

Simpson悖论、幸存者偏差、数据泄露——课本上的概念,真实数据里真的会出现。

3.

结果真能用

不是给你一个准确率就完了。输出的是:哪些用户最值得触达?优惠券怎么发?

4.

面试能讲

真实业务场景 + 大数据量 + 完整方法论。面试官问"做过什么项目",这个能讲出内容。

你会学到什么

SQL

大数据量下的特征提取技巧

Python

数据清洗和特征工程实操

机器学习

不平衡数据的建模实战

统计思维

悖论、数据泄露这些坑怎么避开

业务策略

怎么把模型结果变成可执行的动作

可视化

分析报告怎么写得让人看得懂

8天怎么安排

Day 1-2

先搞清楚业务和数据

这平台怎么赚钱?用户从哪来?百万条数据怎么清洗?用户分几层?

Day 3-4

会员是怎么转化的

没有会员字段,怎么推断?用户转化前干了什么?怎么把行为变成特征?

Day 5-6

建模和调优

正负样本1:10怎么处理?阈值怎么调?怎么判断过拟合?

Day 7

怎么落地

哪些用户最可能转化?怎么打分?优惠券怎么发?ROI怎么估算?

Day 8

收尾和答辩

代码review。报告怎么写?模拟面试,把项目讲清楚。

谁适合做这个

想转数据分析,简历缺个能讲的项目
SQL/Python基础有了,想做个完整项目串起来
面试老被问"做过什么项目",想有个答案
不想只当取数工具人,想学怎么做决策

有兴趣就聊聊吧

扫码加微信,备注「会员挖掘项目」

微信二维码

一对一名额有限,先聊聊看方向合不合