經(jīng)驗(yàn)要求:8年以上生物信息學(xué)開發(fā)經(jīng)驗(yàn),5年以上云平臺(tái)架構(gòu)經(jīng)驗(yàn)
核心優(yōu)勢(shì)亮點(diǎn)
1.高性能計(jì)算與云平臺(tái)架構(gòu)
- 主導(dǎo)搭建國(guó)家基因庫(kù)Hadoop/Spark大數(shù)據(jù)平臺(tái)、天津天河超算集群等,支持PB級(jí)數(shù)據(jù)計(jì)算
- 精通AWS/華為云等云平臺(tái)生信環(huán)境部署,實(shí)現(xiàn)動(dòng)態(tài)資源調(diào)度與成本優(yōu)化
2.算法工程化與極致優(yōu)化
- 具備極致的程序運(yùn)行優(yōu)化思想,并有相關(guān)的案例。
3.獨(dú)立云平臺(tái)開發(fā)能力
- 從0到1構(gòu)建生信自動(dòng)化分析平臺(tái)。
崗位職責(zé)
4.云原生生信平臺(tái)架構(gòu)
- 設(shè)計(jì)基于Kubernetes的分布式計(jì)算框架,支持AWS/Azure/GCP多云環(huán)境自動(dòng)擴(kuò)縮容
- 優(yōu)化Spark/Hadoop集群資源利用率,開發(fā)Serverless計(jì)算管道應(yīng)對(duì)突發(fā)任務(wù)
5.高性能算法開發(fā)
- 主導(dǎo)基因組比對(duì)、變異檢測(cè)等核心算法研發(fā),要求TB級(jí)數(shù)據(jù)處理時(shí)效性達(dá)小時(shí)級(jí)
- 實(shí)現(xiàn)Python/C++混合編程優(yōu)化,關(guān)鍵模塊響應(yīng)延遲控制在毫秒級(jí)(需提供性能壓測(cè)報(bào)告)
6.工程化體系建設(shè)
- 建立CI/CD自動(dòng)化測(cè)試體系,要求萬級(jí)QPS壓力下系統(tǒng)可用性≥99.99%
- 制定代碼性能審查標(biāo)準(zhǔn),將Big-O復(fù)雜度分析納入開發(fā)規(guī)范
7.技術(shù)攻堅(jiān)與團(tuán)隊(duì)賦能
- 解決EB級(jí)數(shù)據(jù)存儲(chǔ)/計(jì)算瓶頸,主導(dǎo)GPU加速、近似算法等前沿技術(shù)預(yù)研
- 培養(yǎng)3-5人技術(shù)團(tuán)隊(duì),輸出高性能計(jì)算最佳實(shí)踐手冊(cè)
硬性要求
8.技術(shù)棧深度
- 語言:Python(Cython/Numba優(yōu)化)
- 大數(shù)據(jù):Hadoop/Spark/Flink,HBase/Redis
9.性能指標(biāo)背書
- 至少1個(gè)TB級(jí)數(shù)據(jù)優(yōu)化案例(如計(jì)算耗時(shí)壓縮50%+,單位成本下降40%+)
- GitHub需展示性能攻堅(jiān)代碼(如開源工具加速模塊)
10.領(lǐng)域知識(shí)
- 精通代謝組學(xué),蛋白等多組學(xué)生信分析。