創業詞典網 創業知識學習分享
醫療行業是數據密集型產業,數據積累亙古存在。
然而,在數據的應用水平上,醫療行業遠遠落后于互聯網、金融和電信等信息化程度更好的行業。
峰瑞資本生物醫療技術團隊從數據產生、數據處理、數據消費的角度分析了醫療數據產業鏈。
分析顯示,醫院、診所等專業醫療機構和保險機構仍然是醫療數據產生的最重要來源,來自手機 App 和可穿戴設備的數據開始提升數據的完整性、連續性和準確性;數據處理是個系統工程,包括清洗、整理、分析等標準環節,對數據結構化提出了更高要求;截至目前,為醫療數據買單的是 B 端的醫療機構、藥企和保險公司,讓 C 端的病人和醫生為數據付費目前還不現實。
美國的醫療體制相對市場化,對醫療體系的投入巨大,使其在技術、服務和流程等支柱產業,都可以成為中國醫療產業發展的遠景參照物。
近幾年,醫療數據產業在美國發展迅速。
峰瑞資本生物醫療技術團隊挑選了4 家有代表性的美國醫療大數據公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。
如果您在醫療健康領域有創業想法,可以與本文作者、峰瑞資本醫療組早期項目負責人王蕾( lei@freesvc)和譚驗(yantan@freesvc)聯系。
加入峰瑞資本前,王蕾曾任職于美國最大的醫藥咨詢和市場調研公司 IMS Health,負責為國際和中國本土醫藥企業提供戰略和戰術咨詢。
譚驗曾是 Tamr 早期員工,大數據整合平臺公司 Tamr 由 2014 年圖靈獎獲得者、美國數據庫專家 Michael Stonebraker 創辦。
大數據產業的出現和醫療數據投資策略分析文 / 譚驗(yantan@freesvc)王蕾(lei@freesvc)/ 01 /IBM 用 3V 定義大數據IBM 最早提出了大數據的 3V 定義。
3V 是 Volume,Variety,Velocity。
Volume 比較好理解,因為大數據本身的 “大” 代表了數據數量的巨大。
數據量越來越大的原因很多,其中一個是現在機器和網絡每天都在生成大量的數據。
據統計,我們現在每兩天產生的數據量約等于自人類文明開始到 2013 年的數據量的總和。
第二個特征是 Variety,多樣化。
多樣化主要指不同的數據來源和種類。
傳統意義上的數據主要來自類似 excel 的表格和數據庫。
現在人類能夠分析各種形式和類型的數據,比如電子郵件、圖片、視頻、音頻、監控儀器,等等。
第三個特征是 Velocity,即數據生成的速度。
比如,互聯網上數據的生成是以秒甚至毫秒來計算的。
再比如,基因測序儀、網絡監控的錄像,都在隨時隨地產生大量數據。
以上 3 個 V 是公認的大數據定義。
在 2013 年波士頓的大數據峰會上,Express Scripts 的首席數據科學家 Inderpal Bhandar 提出了 Veracity 的概念。
Veracity 主要是指數據是否有偏差、數據噪聲有多大,以及是否有異常值。
當業界大量積累各種來源的數據時,數據是否準確變成一個非常重大的問題,否則最后就是 “Garbage in,Garbage out”。
峰瑞觀點(freesvc)從以上對大數據的描述可以發現,大數據對數據存儲、數據傳輸和數據處理這 3 方面的能力提出了挑戰。
企業在數據產生和處理端也逐漸出現了一些變化。
企業開始存儲海量數據,數據傳輸并分布式地存儲到數據中心,數據在云端進行處理和分析,通過網絡端進行數據的呈現并指導商業決策。
/ 02 /大數據的產業鏈分析得益于計算能力的快速增長、數據傳輸能力的增長和成本的下降,以及數據儲存成本的下降,大數據獲得了極大的發展。
▌上游數據的產生大數據產業的最上游是數據的產生,這包括了數據的定義和數據的搜集。
數據的定義顧名思義就是定義哪些是數據。
例如在搜索廣告出現之前,用戶點擊鏈接本身并不產生任何價值,也就不被定義為數據。
數據定義產生之后,就開始快速、準確、有效地收集數據。
▌中游數據的處理大數據產業的中游是數據處理,其中包括了數據的準備,例如數據清洗和整合,以及數據分析,例如數據建模、可視化呈現,等等。
▌下游數據的消費大數據產業的最下游是數據消費,例如利用數據指導商業決策,指導商業決策之后產生的結果本身又成為了新的數據,因此數據的消費和數據的產生形成了一個閉環。
在整個大數據產業的所有環節中都存在數據存儲和數據管理,這兩個技術貫穿了整個大數據的周期。
/ 03 /數據驅動型企業結構的分析在一個通過數據驅動的商業環境中,企業組織或者技術組織結構一般分為以下 3 個邏輯板塊。
從底層到上層分別是 Data engineering(數據工程),Data sciences(數據科學)和 Decision sciences(決策科學)。
▌下層數據平臺:通用性平臺為主,完整解決方案,開源解決方案最底層是工程性的工作,主要指對于數據底層的工程性技術解決方案,例如對原始數據進行清洗、驗證和糾正,數據儲存和調取。
在這一層有很多的開源解決方案和系統集成服務商。
這一步的目的是收集和整理大量數據,把它變成便于數據科學家使用的方式。
大部分企業或者工程師把 80% 的時間花在了這一步 。
美國財富雜志前幾天公布的數據顯示,美國企業每年在大數據服務上的花費是 40 億美金左右,其中 40% 花在了數據整合和清洗上。
可以說,整個數據工程在時間和花費上都占據了很重要的位置。
▌中層算法和數據呈現:通用性算法接口,行業專業知識,開源解決方案處于中間層的是數據科學,這可能是大家最常聽到的一個領域。
現在很熱的人工智能、深度學習,都屬于這一層。
這一層的作用是通過數據建立起對某個問題的模型。
比如說,通過歷史數據建立起天氣預報模型,或者通過大量病理數據建立起疾病的預測或者診斷模型。
開源社區的發展讓很多非常復雜的算法模型變得非常容易使用,極大地促進了數據科學的發展。
數據科學家可以很快地驗證預測模型,并使用到實際的商業項目中。
目前的解決方案主要是開源方案,一些商業 API 以及企業內部的私有數據計算框架等等。
▌上層商業決策:深入的行業專業知識,商業洞察,內部決策和外部咨詢第三層是決策科學,它是數據的最頂層,也是實際產生商業價值的。
比如我們預測明天要下雨,這個預測的價值在于,得到這個信息的商家第二天可以把傘放到更明顯的地方,以增加購買量。
這樣就產生了商業價值。
這只是一個簡單的例子,實際情況要復雜很多。
比如,很多游戲中,機器可以根據玩家玩游戲的時間、模式,來預測用戶是否對游戲感興趣,一旦發現玩家對游戲的興趣正在減弱,就會自動進行一些獎勵措施,比如獎勵裝備、獎勵點數來留住玩家,都是商業決策的范疇。
▲ 大數據的產生和利用,天生就和商業決策聯系緊密。
/ 04 /大數據企業的商業模式:在咨詢和軟件服務中徘徊大數據的價值往往通過商業價值來體現,而不同公司的商業邏輯往往有很大的區別。
因此,大數據公司往往在咨詢模式和軟件模式之間徘徊。
這兩種商業模式不難理解,咨詢有很強的可定制性,能夠準確有效地解決公司的商業需求,但是需要大量和長期的人力支持,花費高,不容易規?;?/p>
軟件服務則具有邊際成本低、人力支持少、容易規?;奶攸c,但是它缺乏可定制性。
很多時候企業并不能直接解決問題,所以面臨難以銷售的問題。
/ 05 /企業數據化的演化歷程:傳統信息化,在線化,云化,數據化企業數據化的演化歷程:傳統信息化,在線化,云化,數據化。
各個行業的數據化發展程度,因其行業特點而不同。
相較于傳統零售、農業和制造業,醫療行業在數據積累上有領先優勢,但是在數據的應用水平上,醫療行業遠遠落后于互聯網、金融和電信等信息化程度更好的行業。
峰瑞觀點(freesvc)通過分析各個行業數據化的程度看到:互聯網化程度越高的企業數據化水平越高數據變現越容易的企業數據化程度越高個性化需求越高的企業數據化程度越明顯數據儲備量越大的企業數據化趨勢越快行業的數據化受到商業變現能力和模式的驅動依賴于底層基礎設施的發展依賴于行業數據的積累/ 06 /醫療數據產業鏈接下來我們從數據產生、數據處理、數據消費的角度來分析醫療數據產業鏈。
目前,醫療數據的產生最大的來源是醫院、診所等專業醫療機構以及保險機構。
這些數據包含了病理、臨床、診療和理賠數據。
隨著移動醫療和智能硬件行業的發展,越來越多的數據開始來自手機 App 記錄以及可穿戴設備,這些數據主要包含了人體的生命體征和行為數據,等等。
這些數據有助于提升數據的完整性、連續性和準確性,并開始得到重視。
峰瑞資本投資的 Haalthy 已經在收集肺癌用戶院外數據方面取得進展。
醫療數據的處理不僅包含清洗、整理和分析等標準環節,它還有其特殊性。
例如,臨床數據往往來自于電子病歷等以自然語言描述的文本文件,且不同醫療機構或者醫生對臨床癥狀的描述往往存在一些細微差別,這對數據結構化提出了較高的需求。
醫療數據的消費端比較明確,在 C 端主要是病人和醫生,B 端包括了醫療機構、藥企和保險公司等。
從目前的情況來看,通過 C 端來收費和變現比較困難,主要的商業模式還是圍繞著 B 端開發。
/ 07 /美國 Top 醫療大數據公司產品分析近幾年,醫療數據產業在美國發展迅速。
這歸功于電子病歷在過去 10 年的逐步普及,以及包括醫院、藥廠和保險等機構對數據分析價值的高度認可。
除了傳統的數據巨頭 IMS Health,一些新型數據公司和數據分析公司紛紛涌現。
我們挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)來分析。
它們分別代表了當前醫療數據領域發展的大方向:基于腫瘤臨床數據的事實;腫瘤人工智能輔助決策;腫瘤全景數據;醫療公眾資源數據。
我們把重點放到腫瘤數據上。
這個領域的診療過程復雜、不確定性高、治愈率低,市場價值巨大,因而,數據在這個領域的作用和價值也得以突顯和被重視。
其它疾病領域數據的方法論其實非常相似。
▌以 Flatiron 為例創立于 2012 年的 Flatiron 是一家基于腫瘤病患的醫療數據分析公司。
它接連獲得頂級投資機構和藥廠的融資,抗癌藥巨頭 Roche/Genetech 的參與充分說明機構方認可癌癥臨床數據對藥品研發和市場指導的作用。
Flatiron 平臺由行業領先的腫瘤學家、醫生和工程師共同打造,在這個平臺上醫生可以記錄、整理、追蹤和分析自己病人的情況。
▲ FLATIRON 的網站首頁上寫著:腫瘤治療技術的新標準。
基于平臺上收集到的信息, Flatiron 打造了幾款主要產品。
FLATIRON- ONCOEMR 是一個癌癥病人電子病歷,它的主要使用方是醫院和醫生,藥廠也會購買它后臺的數據,然后自己做數據分析,或者通過第三方協議的形式由 IMS Health 幫助與其他數據進行整合。
其它醫療數據分析和人工智能公司也是 FLATIRON- ONCOEMR 后臺數據的使用者。
FLATIRON-ONCOANALYTICS 主要基于數據做整理,并形成高質量的分析和總結。
比如,某種類型的病人的增長、正在治療的病人的增長、存活率的跟進,這類產品能對醫院與醫生管理診療工作和病人提供商業和運營上的見解,受到醫療機構的歡迎。
FLATIRON-ONCOBILLING 在醫保、商保發達的美國用途廣泛。
在醫院和醫生端,FLATIRON-ONCOBILLING 清晰地了解治療的付費情況、病人的保險組合,對各項治療、各類病人的成本和收入,采用更合理有效的治療流程和手段,以更好的控費;保險公司對這類產品的關注度更是毋庸置疑,大量數據能為控費和更好的理賠設計提供支持。
和 Flatiron 一樣,也有一些平臺基于電子病歷的數據積累,建立起過往沒有的診療過程的數據挖掘。
盡管它們是基于樣本醫院的病歷, 但是已經足夠大到提供統計學上有意義的 “怎樣做” 和 “為什么” 的見解。
▌IBM Watson Oncology最大的私家癌癥中心 MSKCC 與 IBM 合作,將臨床專業知識、分子和染色體數據、以及大量癌癥案例數據整合到一項循證解決方案中, 分析大量數據并從中提取重要信息,以制定出關鍵決策。
腫瘤學專家培訓 Watson,將患者的醫學信息與大量的治療方針、已發表的研究結果和其他洞察力信息相對比,為醫師提供個性化的、基于置信度的建議。
Watson 的自然語言處理能力允許系統利用非結構化數據,例如雜志文章、醫師的筆記、以及來自 National Comprehensive Cancer Network (NCCN) 的指導方針和最佳實踐信息。
▌IMS Health Oncology Analyzer憑借龐大的用藥和醫生數據基礎,結合豐富的醫藥咨詢經驗,醫療數據界的巨頭 IMS Health 多年來一直在打造醫藥醫療全景數據圖。
沒有任何一個數據源頭能提供足夠全面的信息,IMS 除了擁有巨大的數據量,在數據拼接和整合上也有豐富的經驗,隨著電子病歷數據的引入和增長,IMS 致力于把藥廠銷量、銷售到醫療機構的量、醫療機構用藥治療情況以及病人保險付費情況全部串聯到一起。
并購了 Quintile 以后,IMS 還能整合臨床實驗的數據。
其咨詢業務基于 IMS 自身匯攏的數據產生的見解,能夠對數據業務帶來良好正反饋。
合并后近 200 億美金的估值體現了市場對醫療數據價值的認可。
IMS 在世界范圍內不斷復制其美國模式,逐步形成自己的壟斷地位。
Palantir 的模式在中國比較難于復制, 先不贅述。
峰瑞觀點(freesvc)了解了以上幾家美國著名醫療數據公司后, 我們回顧下之前的報告(我們曾經對比過中美醫療數據市場階段的差距),并結合中國現有醫療數據項目的重點, 我們總結出中國醫療數據創業項目的 4 大方向:1. 基于腫瘤臨床數據的事實。
大量創業項目從這個方向切入;2. 腫瘤人工智能輔助決策。
現在相對較難,因為是建立在 1 的基礎上;3. 腫瘤全景數據。
和 1 類似,創業項目能獲取到的其他數據比較少;4. 醫療公眾資源數據。
中國的數據基礎弱,這個方向可能需要國家和上層推動。
下一篇:如何走出創業過程中“悲傷的低谷” 下一篇 【方向鍵 ( → )下一篇】
上一篇:徐小平:創業者一定要做網紅,有內容才是真網紅 上一篇 【方向鍵 ( ← )上一篇】
快搜