联系方式

个人信息

  • 秦瑶/女/1991
  • 硕士(2011-2014),本科(2007-2011)/统计学专业/中南财经政法大学(211院校)(GPA:3.78/4)
  • 个人主页:https://alvinqy.github.io/
  • 期望职位:数据分析 数据挖掘

个人技能

  • Database: Mysql,Oracle,Hadoop,Hbase,Spark,ETL
  • 统计学专业,精通数据采集,数据挖掘及数据可视化全流程 熟练掌握聚类、分类、关联分析等算法
  • 熟悉KNN、K-Means、LR、RF等机器学习模型,了解CF、Apriori等算法
  • 英语:CET-4(571) ,CET-6(556),BEC中级(Grade:B)
  • 会使用SQL/Python/Excel等进行数据分析,有过完整的建模实践经验
  • 其他:Tableau,Axure,Visio,SPSS

工作经历

  • 百世店加科技(杭州)有限公司 2017.6-2019.8 数据分析 base:杭州
  • 太平养老保险股份有限公司浙江分公司 2014.8-2017.2 数据清洗 base:杭州

项目经历

  • 商品详情页推荐模型(2018.11-2019.5)

    该项目以电商平台的30亿条真实用户-商品行为记录为基础,通过大数据和算法构建面向移动电子商务的商品推荐模型。通过创建一个Django项目远程操作云平台上的数据,使用Hive SQL进行数据分析及数据集的切分,采用MapReduce和Hive SQL程序来提取和处理特征,使用PAI脚本实现整个推荐模型的自动化过程(构造训练集、验证集与测试集、特征提取、模型训练与验证、提交线上预测结果等)。解决问题的主要思路:把推荐问题抽象成为二分类模型,采用GBDT(梯度提升回归树)、RF(随机森林)和LR(逻辑回归)来处理,分别训练了若干子模型获取到各模型的评分值,然后用Rank指数排名进行融合,最后取评分值高的User-Item对做Top-N推荐。上线推荐功能后,AB类商户的客单价提升20%,推荐商品的加购率较平均加购率高10%,加购商品的下单转化率比普通商品的转化率高24%。

  • 基于B端用户的交易数据的商户分类模型(2018.8-2018.11)

    原有的商户分级方案仅考虑了用户创造的GMV和动销SKU数、客单价,未考虑到商品品类 和收入,由于部分品类对平台的毛利贡献较差;

    选取了每个用户按月的arpu值,重点类目的arpu值,订单数,最近交易距离当前天数等指标,设定分为3类,获取了相应数据后,进行数据探索,运用Z-score方法进行数据规范化;

    所选样本数据,20%作为测试集,80%作为训练集,运用监督学习中的KNN,SVM,随机森林,决策树四个分类模型进行拟合,通过GridSearchCV工具,找到每个分类器的最优参数和最优分数,最终选取了最优分数最高的模型SVM,用此模型进行预测,发现AB类商户的占比接近20%,符合二八原理。

  • 搭建和预测基于zipline的量化回测平台(2017.12-2018.8)

    针对上证A股(新三版除外)历史走势及实时数据进行定时采集
    提取财务/基本面/宏观数据等作为特征

    此项目基于大量的用户-交易记录,通过分析用户对A股操作的行为规律,构建用户的股票偏好模型,并预测用户在未来一个月时间该股的购买情况。此项目使用多级的Logistic Regression过滤掉一些无法甄别的离群样本和弱贡献率样本,然后采用基于Boosting的GBDT算法训练若干的评分预测模型算法,运用LR算法进行线性融合,得到评分值较高的用户-A股对。此项目很好地缓解了主流推荐算法无法甄别的离群样本、弱贡献率样本和范化能力较弱等问题。

获奖经历

  • 全国研究生数学建模大赛二等奖/优秀研究生标兵(Top3%)(2012-2013)
  • 中南财经政法大学第七届“博文杯”大学生百项实证创新基金项目校一等奖(Top4%)(2010-2011)
  • 第二、三届华中数模赛一等奖(Top5%团队)/全国大学生英语竞赛三等奖(2009-2010)