当前位置: 首页 > news >正文

广东企业网站建设公司网站关键词如何部署

广东企业网站建设公司,网站关键词如何部署,移动网站 用户体验,深圳网站建设 利科技检索到目标数据集后#xff0c;开始数据挖掘#xff0c;本文以阿尔兹海默症数据集GSE1297为例 目录 处理一个探针对应多个基因 1.删除该行 2.保留分割符号前面的第一个基因 处理多个探针对应一个基因 详细代码案例一删除法 详细代码案例二 多个基因名时保留第一个基因名… 检索到目标数据集后开始数据挖掘本文以阿尔兹海默症数据集GSE1297为例 目录 处理一个探针对应多个基因 1.删除该行 2.保留分割符号前面的第一个基因 处理多个探针对应一个基因 详细代码案例一删除法 详细代码案例二 多个基因名时保留第一个基因名 小结 更新版本的代码全文 上节我们下载了基因芯片平台文件并注释我们发现存在一个芯片探针ID匹配到多个基因的情况本节来介绍处理方案。 处理一个探针对应多个基因 我们通过简单检索发现两种方法1.删除操作 2.保留分割符号前面的第一个基因 1.删除该行 #处理一个探针对应多个基因 #方案一:【删除该行】explan_final - data.frame(explan_final[-grep(///,explan_final$Gene.Symbol),]) #去一对多grep是包含的意思-就是不包含2.保留分割符号前面的第一个基因 #方案二:【保留第一个基因名】 ids platform_file_set #探针列名和基因名两列 library(tidyverse) test_function - apply(ids,1,function(x){paste(x[1],str_split(x[2],///,simplifyT),sep ...)}) x tibble(unlist(test_function))colnames(x) - ttt ids - separate(x,ttt,c(ID,Gene.Symbol),sep \\...) dim(ids) #探针列名和基因名两列 显然第一个发现非常简单在使用merge函数匹配时会剔除更多的基因。第二个方法会保留更多基因。 处理多个探针对应一个基因 表达矩阵中还有一个问题如下图所示很多探针指向同一个基因。 #把重复的Symbol 取每个基因所有探针的平均值或最大值作为基因的表达量 matrix - aggregate(.~Gene.Symbol, matrix, mean)  ##把重复的Symbol取平均值 matrix - aggregate(.~Gene.Symbol, matrix, max)  ##把重复的Symbol取最大值 详细代码案例一删除法 # 安装并加载GEOquery包 library(GEOquery)# 指定GEO数据集的ID gse_id - GSE1297# 使用getGEO函数获取数据集的基础信息 gse_info - getGEO(gse_id, destdir ., AnnotGPL F ,getGPL F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵 expression_data - exprs(gse_info[[1]])#查看平台文件列名 colnames(annotation)#打印项目文件列表 dir() # 读取芯片平台文件txt platform_file - read.delim(GPL96-57554.txt, header TRUE, sep \t, comment.char #)#查看平台文件列名 colnames(platform_file)# 假设芯片平台文件中有两列一列是探针ID一列是基因名 #probe_names - platform_file$ID #gene_symbols - platform_file$Gene.Symbol platform_file_setplatform_file[,c(1,11)]#将Matrix格式表达矩阵转换为data.frame格式 exprSet - data.frame(expression_data)#给表达矩阵新增加一列ID exprSet$ID - rownames(exprSet) # 得到表达矩阵行名为ID需要转换新增一列#矩阵表达文件和平台文件有相同列‘ID’使用merge函数合并 express - merge(x exprSet, y platform_file_set, by.x ID)#删除探针ID列 express$ID NULLdim(express) exprSet express #查看多少个基因重复了 table(duplicated(exprSet$Gene.Symbol))#处理重复基因,计算行平均值方案1 #rowMeans apply(exprSet[,c(1:12)],1,function(x) mean(as.numeric(x), na.rm T))####计算行平均值#处理重复基因,计算行平均值方案2 #matrix - aggregate(.~Gene.Symbol, matrix, mean) ##把重复的Symbol取平均值 #row.names(matrix) - matrix$Gene.Symbol #把行名命名为SYMBOL#处理重复基因,计算行平均值方案3 library(limma) #avereps 函数 exp_unique-avereps(exp_symbol[,-c(32,ncol(exp_symbol))],IDexp_symbol$Gene.Symbol)##把重复的Symbol取平均值#排序 exprSet exprSet[order(rowMeans, decreasing T),] dim(exprSet)#去掉重复基因 exprSet_2 exprSet[!duplicated(exprSet[, dim(exprSet)[2]]),] dim(exprSet_2)#去掉缺失值 exprSet_na na.omit(exprSet_2) explan_final exprSet_na[exprSet_na$Gene.Symbol ! ,] dim(explan_final)#处理一个探针对应多个基因[删除法] explan_final - data.frame(explan_final[-grep(///,explan_final$Gene.Symbol),]) #去一对多grep是包含的意思-就是不包含 dim(explan_final)rownames(explan_final) - explan_final$Gene.Symbol dim(explan_final) explan_final - explan_final[,c(1:31)] # 此时explan_final为所需文件,行为基因列为样本 dim(explan_final) [1] 12548    31 详细代码案例二 多个基因名时保留第一个基因名 # 安装并加载GEOquery包 library(GEOquery)# 指定GEO数据集的ID gse_id - GSE1297# 使用getGEO函数获取数据集的基础信息 gse_info - getGEO(gse_id, destdir ., AnnotGPL F ,getGPL F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵 expression_data - exprs(gse_info[[1]])# 提取注释信息 annotation - featureData(gse_info[[1]])#查看平台文件列名 colnames(annotation)#打印项目文件列表 dir() # 读取芯片平台文件txt platform_file - read.delim(GPL96-57554.txt, header TRUE, sep \t, comment.char #)#查看平台文件列名 colnames(platform_file)# 假设芯片平台文件中有两列一列是探针ID一列是基因名 #probe_names - platform_file$ID #gene_symbols - platform_file$Gene.Symbol platform_file_setplatform_file[,c(1,11)]#一个探针对应多个基因名保留第一个基因名 ids platform_file_set library(tidyverse) test_function - apply(ids,1,function(x){paste(x[1],str_split(x[2],///,simplifyT),sep ...)}) x tibble(unlist(test_function))colnames(x) - ttt ids - separate(x,ttt,c(ID,Gene.Symbol),sep \\...) dim(ids)#将Matrix格式表达矩阵转换为data.frame格式 exprSet - data.frame(expression_data) dim(exprSet)#给表达矩阵新增加一列ID exprSet$ID - rownames(exprSet) # 得到表达矩阵行名为ID需要转换新增一列 dim(exprSet) #矩阵表达文件和平台文件有相同列‘ID’使用merge函数合并 express - merge(x exprSet, y ids, by.x ID)#删除探针ID列 express$ID NULLdim(express) matrix express dim(matrix) #查看多少个基因重复了 table(duplicated(matrix$Gene.Symbol))#把重复的Symbol取平均值 matrix - aggregate(.~Gene.Symbol, matrix, mean) ##把重复的Symbol取平均值 row.names(matrix) - matrix$Gene.Symbol #把行名命名为SYMBOLdim(matrix)matrix_na na.omit(matrix) #去掉缺失值 dim(matrix_na) matrix_final matrix_na[matrix_na$Gene.Symbol ! ,] dim(matrix_final)matrix_final - subset(matrix_final, select -1) #删除Symbol列一般是第一列 dim(matrix_final)dim(matrix_final) [1] 14826    31 小结 原始数据记录有22283条多个探针对应一个基因采用取平均值处理一个探针对应多个基因分别进行直接删除操作和保留第一个基因操作 两种方法最终获得的数据记录分别为1254814826。 更新版本的代码全文 # 安装并加载GEOquery包 library(GEOquery)# 指定GEO数据集的ID gse_id - GSE1297# 使用getGEO函数获取数据集的基础信息 gse_info - getGEO(gse_id, destdir ., AnnotGPL F ,getGPL F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵 expression_data - exprs(gse_info[[1]])# 提取注释信息 annotation - featureData(gse_info[[1]])#查看平台文件列名 colnames(annotation)#打印项目文件列表 dir() # 读取芯片平台文件txt platform_file - read.delim(GPL96-57554.txt, header TRUE, sep \t, comment.char #)#查看平台文件列名 colnames(platform_file)# 假设芯片平台文件中有两列一列是探针ID一列是基因名 #probe_names - platform_file$ID #gene_symbols - platform_file$Gene.Symbol platform_file_setplatform_file[,c(1,11)]#一个探针对应多个基因名保留第一个基因名 ids platform_file_set library(tidyverse) test_function - apply(ids,1,function(x){paste(x[1],str_split(x[2],///,simplifyT),sep ...)}) x tibble(unlist(test_function))colnames(x) - ttt ids - separate(x,ttt,c(ID,Gene.Symbol),sep \\...) dim(ids)#将Matrix格式表达矩阵转换为data.frame格式 exprSet - data.frame(expression_data) dim(exprSet)#给表达矩阵新增加一列ID exprSet$ID - rownames(exprSet) # 得到表达矩阵行名为ID需要转换新增一列 dim(exprSet) #矩阵表达文件和平台文件有相同列‘ID’使用merge函数合并 express - merge(x exprSet, y ids, by.x ID)#删除探针ID列 express$ID NULLdim(express) matrix express dim(matrix) #查看多少个基因重复了 table(duplicated(matrix$Gene.Symbol))#把重复的Symbol取平均值 matrix - aggregate(.~Gene.Symbol, matrix, mean) ##把重复的Symbol取平均值 row.names(matrix) - matrix$Gene.Symbol #把行名命名为SYMBOLdim(matrix)matrix_na na.omit(matrix) #去掉缺失值 dim(matrix_na)matrix_final matrix_na[matrix_na$Gene.Symbol ! ,] dim(matrix_final)matrix_final - subset(matrix_final, select -1) #删除Symbol列一般是第一列 dim(matrix_final) # 经过注释、探针名基因名处理、删除基因名为空值、删除缺失值 得到最终 matrix_final # # 已经完成了部分的预处理工作了在使用数据前还有一系列的质控要做请看下节数据清洗。
http://wiki.neutronadmin.com/news/361810/

相关文章:

  • 如何做优秀的视频网站广州app开发价格表
  • 网站如何做301转向凡客优品官方网站
  • 淄博企业网站建设哪家专业竞价推广平台
  • 红铃铛网站建设菜鸟怎样做自己的网站
  • 公司网页设计图杭州网站建设优化推广
  • 郑州网站制作哪家好网站动态页面怎么做
  • 网站优化加盟重庆市建设网站
  • 顺的品牌网站设计价位互联网行业现状分析
  • 有了域名和空间怎么建网站装修房子的步骤流程
  • 本地专业app开发公司在哪里南宁网站seo推广公司
  • 格瑞特网站建设浙江省门户网站
  • 怎么给网站动态做伪静态厦门网络推广公司
  • 好的网站建设专业公司网站维护运营怎么做
  • 彩票网站做一级代理犯法吗wordpress代码详解
  • 浙江省网站集约化建设区块链微信小程序开发教程
  • 专利协会网站建设方案工作室网站免费建设
  • 做网站多少费用免费网站下载软件免费
  • 深圳做二类医学学分的网站密云住房和城乡建设部网站首页
  • 做手机网站多少钱qq网页版登录网址
  • 邯郸做网站的博客wordpress 游客评论
  • 电商网站建设赏析各大网站地区是怎样和做的
  • 国内知名的网站建设公司有哪些如何入侵网站后台密码
  • 宜昌网站seo找人做网赌网站需要多少钱
  • 企业网站快速排名开一个网络公司需要多少钱
  • 质感网站系统下载 锐狐wordpress sharethis
  • 做视频参考什么网站荷塘网站建设
  • 长沙网站的建设WordPress查询管理员记录
  • 老薛主机安装wordpress天津seo公司排名
  • 宿迁网站优化排名网页设计公司163企业邮箱
  • 建设学习网站电商营销型网站建设