联系方式
- Email : yaoq824@gmail.com
- phone: 13545153172
个人信息
- 秦瑶/女/1991
- 硕士(2011-2014),本科(2007-2011)/统计学专业/中南财经政法大学(211院校)(GPA:3.78/4)
- 个人主页:https://alvinqy.github.io/
- 期望职位:数据分析 数据挖掘
个人技能
- Database: Mysql,Oracle,Hadoop,Hbase,Spark,ETL
- 统计学专业,精通数据采集,数据挖掘及数据可视化全流程 熟练掌握聚类、分类、关联分析等算法
- 熟悉KNN、K-Means、LR、RF等机器学习模型,了解CF、Apriori等算法
- 英语:CET-4(571) ,CET-6(556),BEC中级(Grade:B)
- 会使用SQL/Python/Excel等进行数据分析,有过完整的建模实践经验
- 其他:Tableau,Axure,Visio,SPSS
工作经历
- 百世店加科技(杭州)有限公司 2017.6-2019.8 数据分析 base:杭州
- 太平养老保险股份有限公司浙江分公司 2014.8-2017.2 数据清洗 base:杭州
项目经历
商品详情页推荐模型(2018.11-2019.5)
该项目以电商平台的30亿条真实用户-商品行为记录为基础,通过大数据和算法构建面向移动电子商务的商品推荐模型。通过创建一个Django项目远程操作云平台上的数据,使用Hive SQL进行数据分析及数据集的切分,采用MapReduce和Hive SQL程序来提取和处理特征,使用PAI脚本实现整个推荐模型的自动化过程(构造训练集、验证集与测试集、特征提取、模型训练与验证、提交线上预测结果等)。解决问题的主要思路:把推荐问题抽象成为二分类模型,采用GBDT(梯度提升回归树)、RF(随机森林)和LR(逻辑回归)来处理,分别训练了若干子模型获取到各模型的评分值,然后用Rank指数排名进行融合,最后取评分值高的User-Item对做Top-N推荐。上线推荐功能后,AB类商户的客单价提升20%,推荐商品的加购率较平均加购率高10%,加购商品的下单转化率比普通商品的转化率高24%。
基于B端用户的交易数据的商户分类模型(2018.8-2018.11)
原有的商户分级方案仅考虑了用户创造的GMV和动销SKU数、客单价,未考虑到商品品类 和收入,由于部分品类对平台的毛利贡献较差;
选取了每个用户按月的arpu值,重点类目的arpu值,订单数,最近交易距离当前天数等指标,设定分为3类,获取了相应数据后,进行数据探索,运用Z-score方法进行数据规范化;
所选样本数据,20%作为测试集,80%作为训练集,运用监督学习中的KNN,SVM,随机森林,决策树四个分类模型进行拟合,通过GridSearchCV工具,找到每个分类器的最优参数和最优分数,最终选取了最优分数最高的模型SVM,用此模型进行预测,发现AB类商户的占比接近20%,符合二八原理。
搭建和预测基于zipline的量化回测平台(2017.12-2018.8)
针对上证A股(新三版除外)历史走势及实时数据进行定时采集
提取财务/基本面/宏观数据等作为特征此项目基于大量的用户-交易记录,通过分析用户对A股操作的行为规律,构建用户的股票偏好模型,并预测用户在未来一个月时间该股的购买情况。此项目使用多级的Logistic Regression过滤掉一些无法甄别的离群样本和弱贡献率样本,然后采用基于Boosting的GBDT算法训练若干的评分预测模型算法,运用LR算法进行线性融合,得到评分值较高的用户-A股对。此项目很好地缓解了主流推荐算法无法甄别的离群样本、弱贡献率样本和范化能力较弱等问题。
获奖经历
- 全国研究生数学建模大赛二等奖/优秀研究生标兵(Top3%)(2012-2013)
- 中南财经政法大学第七届“博文杯”大学生百项实证创新基金项目校一等奖(Top4%)(2010-2011)
- 第二、三届华中数模赛一等奖(Top5%团队)/全国大学生英语竞赛三等奖(2009-2010)