2020-06-19 23:01:57 sunmedia 1042
? ? 現(xiàn)代金融市場日益發(fā)展且不斷完善,,金融投資的規(guī)模持續(xù)增長,;同時,人工智能技術(shù)的發(fā)展和更迭更是不容忽視,。如何抓住此一現(xiàn)象的契機,,將人工智能合理、有效地運用在金融投資領(lǐng)域,已成為全球關(guān)注熱點,。在這美好的周日,,最適合學習的日子,小天特別和大家分享金融事業(yè)部團隊的研發(fā)成果和實際的案例,,一起了解,,當金融遇上AI,會是什么樣子,。
????金融行業(yè)中,,既有很多在線免費的數(shù)據(jù),也有付費整理后規(guī)范化的數(shù)據(jù),,信息化發(fā)展相較其他行業(yè)完善,。然而,將人工智能技術(shù)有效應(yīng)用在金融市場的難點仍然存在:如何快速利用這些數(shù)據(jù),,提取有價值的信息,,并精準的運用到投資決策中?
????這個過程需要強大的計算力的支持,,天數(shù)潤科為此開發(fā)了SkyDiscovery大數(shù)據(jù)機器學習平臺,,以滿足金融行業(yè)對于大數(shù)據(jù)技術(shù)和人工智能應(yīng)用的需求。
????目前,,公司在此平臺上已開發(fā)了一系列的交易策略,,其中Quantmental中長期投資組合和超短線增強策略已投入實盤。Quantmental中長期投資組合,,結(jié)合了基本面價值投資分析方法與數(shù)據(jù)挖掘分析手段:首先,,以財務(wù)信息為基礎(chǔ),挖掘業(yè)績穩(wěn)定,,成長確定性較高,,行業(yè)內(nèi)競爭力較強的個股。其次,,結(jié)合客觀技術(shù)分析與數(shù)據(jù)分析方法,,在初步篩選的股票池中,動態(tài)把握個股適合的投資時機,,實現(xiàn)組合的智能管理,。
????以下為策略開發(fā)的詳細流程:
????01 數(shù)據(jù)存儲與讀取
????SkyDiscovery提供了多個數(shù)據(jù)庫組件支持全方位的金融數(shù)據(jù)的管理,包括高性能的OLAP數(shù)據(jù)庫SkyInsight,、時序數(shù)據(jù)庫SkyTSDB,,同時集成了GPU數(shù)據(jù)庫MapD。
????我們的金融數(shù)據(jù)包括:
????1.行情數(shù)據(jù),,有l(wèi)evel2行情,,支持歷史和實時存儲,;
????2.日線級別的財報數(shù)據(jù);
????3.政策性的文本數(shù)據(jù),;
????我們使用SkyInsight管理所有離線數(shù)據(jù),,以SkyTSDB存儲實時的時序數(shù)據(jù)。數(shù)據(jù)服務(wù)的架構(gòu)如下圖所示:
????此金融數(shù)據(jù)平臺能夠提供穩(wěn)定高效的數(shù)據(jù)訪問服務(wù),、標準易用的數(shù)據(jù)統(tǒng)一接口,,并兼顧數(shù)據(jù)安全和橫向擴展需求。
????SkyInsight支持表分區(qū),,時間和股票種類兩個維度對數(shù)據(jù)自動分區(qū),;采用計算存儲分離架構(gòu),,支持與Kubernetes集成,,極易根據(jù)計算和存儲的不同需求伸縮;MPP架構(gòu),,億級別數(shù)據(jù)秒級響應(yīng),;支持標準SQL。
????SkyTSDB對接實時接入的tick數(shù)據(jù),,基于時序特征優(yōu)化讀寫,,能夠高效滿足金融時序模型對數(shù)據(jù)的需求。
????SkyETL支撐數(shù)據(jù)接入平臺和內(nèi)部服務(wù)間的數(shù)據(jù)流轉(zhuǎn),,支持離線數(shù)據(jù)的批處理和流數(shù)據(jù)的實時處理,。
????不同時間周期的金融數(shù)據(jù),頻率高,、覆蓋廣,、體量大。截至目前,,策略處理的數(shù)據(jù)量已超2T,,這一數(shù)字仍在每日增長。實現(xiàn)快速穩(wěn)定的存,、取,、更新操作,是金融建模的基石,。
????02 特征處理
????股票的特征提取,,我們以盈利性(利潤表)分析為例。
????首先,,提取利潤表中的指標數(shù)據(jù),,進行比值分析,梳理出能夠反映收入,、成本,,利潤主體關(guān)系的income_info以及衍生指標income_ratios,。
????在此,通過平臺可視化展示,,我們能更加直觀的理解各個指標,。
????如圖,展示了利潤表的主要構(gòu)成情況(以000002.SZ萬科為例),。圖一將營業(yè)總收入劃分為一級成本,,二級成本以及營業(yè)利潤。圖二進一步分析了營業(yè)利潤,,其他損益(金融活動)與凈利潤之間的關(guān)系,。圖三將股東利潤劃分為,其他綜合損益,,歸屬于少數(shù)股東綜合收益以及歸屬于母公司普通股東綜合收益,。通過這一些列餅形圖可以直觀的觀察出該公司的收入,成本以及利潤等詳細情況,。
????上圖展示了五年來房地產(chǎn)行業(yè)的個股(挑選8只股票)的gross profit margin與netincome
margin相對的發(fā)展狀況,,其中圓圈大小對應(yīng)個股的earning per share??梢灾庇^的感受個股各個指標之間的動態(tài)變化關(guān)系,。
????我們以利潤表為例,簡單介紹了投資策略如何提取特征工程,。當然實際策略實施中需要考量更多的指標,,同時還有資產(chǎn)負債表,現(xiàn)金流量表以及其他附屬信息的分析,。但是提取特征的主體思路卻是保持一致的,,即既要從時間序列維度出發(fā),挖掘業(yè)績長期穩(wěn)定或者增長的股票特征,,同時也要從橫截面角度思考,,在行業(yè)內(nèi)尋找有明顯競爭優(yōu)勢的個股特征。當我們篩選出成長性高,,行業(yè)內(nèi)競爭力強的個股后,,最終也要結(jié)合價格因素考慮,綜合評價該股是否在合理估值之內(nèi),,且價格趨勢是否得到較好的確認,,是否是恰當?shù)娜雸鰰r機等,都需要細致嚴謹?shù)牧炕P蛠砗饬俊?
????03 模型訓練
????針對不同問題,,需要選擇合適的機器學習方法,。目前平臺支持常用機器學習以及深度學習分類、回歸模型的構(gòu)建,、部署,、預測,、分布式執(zhí)行。金融數(shù)據(jù)中,,預測下個月股價與多因子的關(guān)系,,我們可以采用監(jiān)督學習中的支持向量機、決策樹,、隨機森林,、梯度樹提升以及神經(jīng)網(wǎng)絡(luò)和深度學習。
????04 智能交易系統(tǒng)
????訓練好的模型部署到平臺,,接入行情接口,,可以實現(xiàn)有AI模型決策幫助的智能交易系統(tǒng)。風控平臺包括驗資驗券,、敞口管理,、股票池管理、資金管理,、撤補策略,、災(zāi)備策略等措施,。
????05 總結(jié)
????本文簡單介紹了在SkyDiscovery大數(shù)據(jù)機器學習平臺上開發(fā)智能交易模型的整個流程,,分布式數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)快速的讀取。SkyCompute高性能計算引擎,,能針對金融行業(yè)的龐大數(shù)據(jù)量和實時數(shù)據(jù),,提供超高性能的運算和分析能力,大幅降低企業(yè)的計算資源成本,。同時,,SkyDiscovery
也支持用戶端的BI報表、交互式探索等可視化展示應(yīng)用,。???