解读 Siri 背后的数据科学世界
今天是棕榈大道
第82 篇讲座实录
本期关键词:数据科学
—【主讲人介绍】—
▼
肖栩岩
栩岩毕业于哥伦比亚大学数据科学专业,现就职于贝莱德(纽约),从事基于数据分析的金融咨询,熟悉数据科学在互联网、金融、咨询等领域的应用,关注机器学习以及人工智能的最前沿发展。栩岩还擅长将说学逗唱四门功课融入到留学咨询当中,笑称自己是一名不入流的相声演员。他还是个资深体育爱好者,篮球、游泳、滑雪、滑冰,均有涉猎。
数据科学到底学什么
归纳问题
因为大部分数据分析的情况是服务于客户、服务与产品。客户或者产品经理过来咨询的时候一般不会特别具体描述一个问题,通常情况是会给一个比较 general 的意见,比如他会问你:我们上一个季度的 revenue 下降了,你帮我分析一下是什么原因?
面对这种情况的时候,你需要深入了解实际问题,并有把抽象的问题归纳成能用数据来解决问题的能力。你可能需要考虑到哪些是 revenue 的 drivers,如商品的价格,上一季度的经济形势,再或者有竞争公司上线蚕食掉了公司的市场份额导致收入降低等。
运用各种技术去寻找合适的数据来源
有些时候还需要买数据,比如通过分析某些公司停车场流量的监控等这样的图像数据间接分析该公司的销售额,而像此类的图像数据并不那么容易获取,就需要通过一些从事专业数据买卖的公司来获取。
因为数据是以各种形态储存下来,因此需要花大量时间进行处理,包括删除或填补一些缺失值,绘图或观察数据的分布是否符合初始模型的假设,是否有异常值等,通过数据整理来排除一些不必要的假设。
开始建模
处理完数据之后就可以开始建模,一般会认为数据的质量决定了整个分析的质量,所以会花费约 60% 的时间去准备、探索数据,尤其是当数据是客户提供的时候,就需要花费一些时间去与客户沟通从而使数据材料更加精确。
数据分析工作
做一些模型的训练检验调整(20%),尝试不用模型(回归模型、分类模型等),设定不同参数选取不同变量,通过一些既定标准来检验选取最适合的模型、变量和参数设置。
在这里向大家着重强调一下“过拟合”这个问题。所谓过拟合就是在调整模型的时候对于现有的训练数据拟合得太好,那么其结果可能只对现有(已存放在模型中的)数据效果好,但如果换一个类似但是不太一样的数据就可能会产生一些扰动,因此需要通过一些调整使模型更加 general。
做报告
根据客户、项目或者公司内部的一些需求撰写报告或将模型结果制作成为平台方便后期使用(10%)。
什么样的人适合学数据科学
Hacking skills
python、R、SQL、Scala、JavaScript、C/C++、Java、SAS、MATLAB,这些都是用得较多的编程语言,你还需要具备数据结构、算法的理论基础。
Substantive Expertise
除此之外还需要一些统计模型的分析,知道如何进行参数的计算,如何检验一些比较复杂的回归模型。还有机器学习的模型:包括基础理论、适用条件、检验方法等,像刚才举例过的推荐系统就是属于机器学习这一方面。另外,在数学统计方面主要需要一些理论基础(如概率论、数理统计、实验设计)。
软实力
剩下还需要具备一定的软实力,需要用到你的专业知识将现实问题归纳为数据问题,通过选取相关数据合理模型将模型转化为逻辑,同时具备一定表达能力,用合适的语言说服听众,用合适的图表展现信息。
大学数据科学专业项目介绍
流派与介绍
在美国,数据科学硕士项目主要有两个流派:data science 和business analytics。两者都通常被认为是和数据分析比较相关的项目。申请基本相似,虽然有可能有不同的偏重点,但实际考察的都是我之前所提过的各项软硬实力。
学校及专业列举
申请注意事项
对于申请者的背景,学校通常偏好理工科的背景,并且希望具有相关的科研和实习经历,尤其是在之前介绍过的 data science 流派,需要有把 general 的问题转化为实际的数据问题的能力,所以需要申请者具有一定的工作经验。
同时,因为在很多情况下(如报告等),需要较高的语言表达能力,所以他们会更偏好托福成绩高(尤其听力、口语、写作成绩)的申请者。
数据科学核心课程
核心课程除了之前涉及到的概率论、数学统计算法、机器学习、数据可视化等,还有以下类型的课程:
专长类课程
比如说数据库,Distributed Systems。还有一些比较 general 的课程,如 Data Mining,Big Data Analytic。
专精类课程
如自然语言处理(针对文本这方面的数据,如翻译、问答系统),情感分析和 AI(与 data science 有交叉),有时候也会学习一些 Deep Learning。这个更多时候偏向于技术层面。
很多自然语言处理 AI/Machine Learning 等都需要用到 Deep Learning 的方法,再比如说 Computer Vision(计算机视觉),它大部分应用于如图像识别、无人驾驶汽车等技术中。
数据科学的就业发展
职业发展
│技术类:
一些相关的如技术类的职位像 Data Engineer,主要工作是搭建一些数据分析系统,如何储存数据,如何快速取得数据做一些必要的 transformation,把一些文本的数据转化为数字,需要编程方面有较多的技巧。除此之外还需要学习一些事实分析数据的系统,实现以最快的速度处理最大量的数据。
│研究类:
还有一些比较偏研究类,如数据学家、统计学家、研究数据学家,这些主要在西岸的一些互联网公司存在较多,像谷歌、Facebook 等,这些公司都有相关的职位,他们可能会更多关心你数理方面的背景。
│商业类:
如果你的申请偏 business 这一方面可能就不需要对理论领域有很深的理解,但如果真的想做 Research Scientist 研究这方面,那就需要对模型有非常深入的了解,数理技术要非常好。
│业务类:
还有一部分是比较偏业务类的,可能叫 Data Analyst,Risk Manager,Business Analyst 等等,这些职位他们就比较偏好于去了解更多专业方面的知识,商学院的项目在申请时会有比较大的优势。这些职位也会比较看重相关的工作经历,在很多情况下,如何去和客户沟通然后把他们的问题转化为数据问题就是由这些人来负责,还有在 delivery 的时候也是由这些人去 deliver 的。如果你的优势在沟通上,那么这些职位可能就更加适合你。
公司方面
目前做 data 方面的公司越来越多。比较有意思的一点是,实际上很多公司自己也没有百分百的自信数据分析究竟能带来多少收益,但迫于目前数据发展的趋势,现在美国各式各样的公司都在做数据,而国内目前集中于互联网以及咨询领域。
│科技公司:
科技公司中如 FLAG ( Facebook,LinkedIn,Amazon/Apple,Google) 这些新兴的巨头公司外,还有如 Twitter,Microsoft,Tesla,AirBnB,BAT,京东,小米,360 等都在做数据相关的工作。
│金融公司:
现在金融公司也在慢慢引入数据科学相关的技术(例如CapitalOne,GS,BlackRock,Point 72,Two Sigma),他们也在用一些 data science 的模型来工作。如 Capital One 会用一些 data science 来分析客户的信用情况决定给客户发多少信用额度,而 BlackRock 就会做一些监管反洗钱相关的数据分析,像 Point72,Two Sigma 会利用一些后台数据来分析一些公司的股价做一些投资的决策。
│咨询公司:
除此之外一些咨询公司,如 Palantir 跟 FBI 有一些合作,通过数据分析来预防犯罪,包括还有 Mckinsey,IBM,Deloitte,SAP也在发展自己的数据分析部门来帮客户解决各种各样的问题。
│数据公司:
还有一些数据公司,如 Cloudera,Horton,Databricks 等主要帮客户提供一些云端的计算解决方案,搭建一些服务器系统提供给需要数据统计设备的客户。
│其他公司:
其他如 Verizon,Comcast 媒体通讯公司、Nike,Target,Unilever 零售类公司、Pfizer 医药类等都在发展自己的数据科学。因此在美国数据科学的相关就业暂时不需要担心,就业形势相当乐观,可以根据自己的兴趣和情况来进行客观的选择。
Q&A
Q:文科背景申请?
A:如果是文科背景申请,可以走商学院的申请,因为商学院会更多偏向于软实力,在这个层面上更好发挥商业的特长。
Q:博士好申请吗?
A:现在数据科学的博士课程开设较少,就我所知像哥大 NAU 今年秋天将会开设第一届的 data science 博士项目。从我这个角度讲,如果大家真的很想做一些 data science 的项目工作的话,读一个博士是非常有帮助的。
在东西岸的一些科技公司中,需要有工作经验或者博士学位,很多时候做 data science 的项目跟 research 非常像,所以他们会偏好有 research 经历的人。如果大家想申请博士的话,我会比较建议申请 CS 、统计或者物理的博士。
Q:实习的规划?
A:如果同学们主要在国内找实习的话,可以关注一些互联网或者咨询公司,这两类公司数据相关的职位可能会比较多一点。
大家可以不用直接一步到位就是 data scientist 的职位,可以先从 data analyst 或者 business analyst 这样的职位做起,国内很多公司像阿里、腾讯、百度、京东、滴滴会提供相关职务的实习。咨询公司可能更多做一些 excel 这些,不过没有关系,大家可以先从基层做起。
- END -
本文由棕榈大道志愿者根据讲座录音整理而成,更多讲座文字实录将持续推出。
如果有更多关于数据科学的相关问题,请扫描下方二维码进行咨询。
往期实录:
了解棕榈服务详情请戳下方图片
相关阅读
-
hi 我是大橙子今天又给大家求来了一些复试热点资讯,还没准备经济学复试热点的同学抓紧时间背了!热点一:注册制改革——金融考试热点热点事件:2月17日...
-
学生可以通过做兼职、自媒体写作、现场直播等方式赚钱。此外,学生还可以利用自己的语言能力做外语翻译、做网站编辑、成为游戏职业玩家等。另外,学生还可以利用信息差赚钱...
-
Genome Biol:发现人类血液含有无细胞的微生物DNA
临床医生用于诊断癌症的大多数生物标志物是人类的。但是,越来越多的证据表明微生物组和恶性肿瘤之间存在联系,这为研究微生物DNA的存在作为一种识别和可能预测疾病的方式提供了机会。...
-
强“双基” 提能力 转作风 | 天然气公司工程管理中心创新开展“每日一学”学习专
从第三季度初,工程分管副总王国厂、工程管理中心经理韩海南多次下一线调研基层管理人员、基层一线人员的管理水平和技能水平,以及对国家、行业法规的了解程度,通过摸排...
-
湖南大学333教育综合今年还考教育热点吗?变成统考了我们怎么学?
教育热点是教育学考研初试必须关注的重要信息。要知道教育学考研并非以往考研口中的“背诵就行”,它并不是死考书本上的内容。...
-
高三学子,你们好!如今开学已有一个月,是否已经适应了高三繁忙的生活?或许有些许疲惫,或许每天都在重复同样的事情,是否觉得有些乏味?其实,高三生活...
-
各位老师,我儿子在国内一家不知名的国际高中读A-level课程,现在高二。他英语底子很好,数理化是强项,所以从入学起就感觉课程太简单。已经拿了很高的托福成绩和SAT2三门满分...
-
澎湃,澎湃新闻,澎湃新闻网,新闻与思想,澎湃是植根于中国上海的时政思想类互联网平台,以最活跃的原创新闻与最冷静的思想分析为两翼,是互联网技术创新与新闻价值传承的结合体...
-
知识运营,就是知识成为生产各要素中主导要素的经济增长方式,就是用知识带动资本、资产、产品的运营方式与经营方式,就是用知识产业带动其它产业。...
-
你是否曾经想象过拥有不死之身的生物存在吗?让我们一起揭开其中的奥秘,探寻夺目的六角恐龙蝾螈。六角恐龙蝾螈是地球上一种几乎无法被击败的生物。即使它...
-
麻省理工发布全球10大突破性技术,中国科技突飞猛进,占据4席
近日,《麻省理工科技评论》发布了一年一度的“十大突破性技术”,其中我们中国占据4席,那么都有谁呢?《麻省理工科技评论》是该校出版的一个科技商业媒...
发表评论
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。