第一天
机器学习及蛋白组学简介
1.机器学习基本概念介绍
2.常用机器学习模型介绍
3.混淆矩阵
4.ROC曲线
5.主成分分析(PCA)
6.蛋白组学基本概念
R语言简介及实操
1.R语言概述
2.R软件及R包安装
3.R语言语法及数据类型
4.条件语句
5.循环
6.函数
7.常用的机器学习相关R包介绍
第二天
机器学习在蛋白组学数据分析中的应用案例分享
1.利用机器学习鉴定疾病相关蛋白标志物
2.利用机器学习基于蛋白组学数据预测表型
3.利用机器学习基于蛋白组学数据进行分类
4.利用机器学习基于蛋白组学数据构建预后模型
蛋白组学相关数据库介绍
1.Uniport
2.HPA
3.TCPA
4.CPTAC
第三天:零代码工具利用机器学习分析蛋白组学数据
利用PLOS Computational Biology(IF:5分)发表零代码工具,轻松完成差异表达分析,常见统计分析,常见可视化,内置7种机器学习方法,轻松调用。
1.数据导入(两套数据,二分类,多分类)
2.数据可视化(散点图,热图,柱形图,相关性热图,火山图,层次聚类图)
3.缺失值填充
4.数据归一化
5.离群值检测/清理
6.常见统计方法应用(t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析)
7.机器学习方法应用(RF, lasso, SVM等)
第四天
利用机器学习基于蛋白组学数据预测表型,基于蛋白组学数据复现cell中机器学习分析结果
实操内容
1.蛋白组学数据处理,差异表达分析
2.火山图,多分组热图,多组箱型图展示差异表达分析结果
3.构建Random Forest模型
4.重要蛋白筛选
5.绘制ROC曲线
6.独立测试集检测模型表现
利用机器学习鉴定疾病相关蛋白标志物,基于Olink数据,复现影响因子17分文章中,蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果
实操内容
1.读取蛋白表达数据
2.差异蛋白挑选,火山图绘制,箱型图绘制
3.时序蛋白表达数据聚类分析
4.构建随机森林模型
5.挑选重要特征
6.独立测试集进行验证
Nature与Science重磅!AI与生物医药迎来百年来最重磅进展!https://mp.weixin.qq.com/s/Vw3Jm4vVKP14_UH2jqwsxA
第五天
利用机器学习基于质谱的蛋白质组学数据,构建肝病相关分类和预后模型,复现Nature Medicine文章中的机器学习,生存分析,预后模型相关的结果。
实操内容
1.鉴定与不同肝病显著相关的蛋白
2.比较22种不同的机器学习分类器,挑选最优算法构建不同肝病的分类模型
3.独立队列验证模型准确性
4.构建预后模型
5.绘制生存曲线和时间依赖的ROC曲线