報告人:劉永
報告題目:數(shù)據(jù)科學(xué)在政府、企業(yè)和個人決策中的應(yīng)用實(shí)例
——從過去八年的工作和面試經(jīng)歷談起
報告地點(diǎn):計(jì)算機(jī)科學(xué)與軟件學(xué)院102報告廳
報告時間:2016年3月7日(星期一)下午4:00
劉永簡介:
劉 永 物理學(xué)博士
電話: 650 656 5040
Email: hstrsoil@gmail.com
學(xué)習(xí)與工作經(jīng)歷:
1995 年 9 月 - 1998 年 7 月: 南開數(shù)學(xué)研究所學(xué)習(xí),獲博士學(xué)位
2008 年 7 月 - 2009 年 9 月: My Space Inc. 數(shù)據(jù)挖掘組,工程師
2009 年 10 月 - 2012 年 3 月:e Bay Inc. 互聯(lián)網(wǎng)市場分析組,統(tǒng)計(jì)分析師
2012 年 3 月-2014 年 6 月: HP 全球市場分析組,資深數(shù)據(jù)科學(xué)家
2014 年 6 月-2015 年 5 月: Equifax 數(shù)據(jù)科學(xué)組, 統(tǒng)計(jì)專家
2015 年 5 月- 今 : Verizon 大數(shù)據(jù)分析算法組,機(jī)器學(xué)習(xí)主任科學(xué)家
My Space 數(shù)據(jù)挖掘組
(1)提出并實(shí)驗(yàn)證明應(yīng)用自然語言處理中的 N-Gram 技術(shù)于垃圾郵件發(fā)送者識別的可行性,在此基礎(chǔ)上,完成了垃圾郵件發(fā)送者實(shí)時識別的產(chǎn)品化。
(2)提出并試驗(yàn)了應(yīng)用 Google 的核心技術(shù) Page Rank 對用戶的重要性程度進(jìn)行排序的可操作性。
(3)應(yīng)用 Collaborative Filtering 技術(shù),完成了基于 Map Reduce 分布式計(jì)算平臺的推薦引擎的產(chǎn)品化。
(4)提出并試驗(yàn)了一套循環(huán)遞進(jìn)的方法從噪聲極大的文字信息中提取用戶興趣有關(guān)的關(guān)鍵詞,以及實(shí)時提取網(wǎng)絡(luò)論壇中的熱門主題。
e Bay 互聯(lián)網(wǎng)市場分析組
(1)根據(jù)用戶活動的歷史記錄,建立了一系列的“傾向于買”定向廣告預(yù)測模型。
(2)建立了用戶水平上的廣告增益效應(yīng)的預(yù)測模型 - 產(chǎn)品專利(User level incremental revenue and conversion prediction for internet marketing display advertising, United States US 13/425,831 Issued March 21, 2012)
(3)在搜索排序算法基礎(chǔ)上建立了展示廣告的實(shí)時定向模型,用于 e Bay 在歐洲和美國展示廣告的實(shí)時
定向,使點(diǎn)擊率和轉(zhuǎn)化率得以倍增 - 產(chǎn)品專利(Item ranking modeling for internet marketing display advertising, United States US 13/425,938 Issued March 21, 2012)
(4)用 C++實(shí)現(xiàn)了 Gradient Boosting 機(jī)器學(xué)習(xí)算法
HP 全球市場分析組
(1)根據(jù)用戶在線活動歷史,建立了一系列的關(guān)于個人用戶的和企業(yè)用戶的預(yù)測模型。
(2)對市場和媒介混合模型(Marketing / Media Mix Modeling)作了充分研究,在 Journal of Marketing Analytics 發(fā)表學(xué)術(shù)論文一篇 - Media mix modeling – A Monte Carlo simulation study。Palgrave Macmillan / Journal of Marketing Analytics - J Market Anal 2: 173-186; doi:10.1057/jma.2014.3。 November 21, 2014。同時有專利申請 (Representing a Metric for Marketing Channels, United States HP Patent Ref. 700217596WO01, Filed June 1, 2014)
Equifax 數(shù)據(jù)科學(xué)組
(1)關(guān)于個人用戶的信用風(fēng)險模型研究
(2)關(guān)于拖欠發(fā)生時間的預(yù)測模型構(gòu)建
(3)基于現(xiàn)有數(shù)據(jù)和可能得到的新數(shù)據(jù),提出一系列的產(chǎn)品構(gòu)想,挖掘數(shù)據(jù)價值
Verizon 大數(shù)據(jù)分析算法組
(1)關(guān)于各大商家用戶的模式識別模型
(2)時序分析
(3)一些大數(shù)據(jù)相關(guān)的獨(dú)特算法如 Geo Hash, Hyper Log Log 等的實(shí)現(xiàn)和驗(yàn)證