首页 > 其他分享> > CNS级别文章标题画一个词云

CNS级别文章标题画一个词云

2021-10-09 20:32:07 作者：互联网

作业4-1：https://mp.weixin.qq.com/s/GHaulIJt5ebvu_x3_x6ptQ
相关代码仍然参考：Word-cloud

TCGA-2018 文章

2018的TCGA的泛癌项目论文全部发表在Cell及其子刊上，文本文件如下：
在这里插入图片描述
词云代码：

library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")

##文本挖掘
#加载文本
#导入文本文件
text<-readLines(file.choose())
filePath<-"D:/生信学习/作业4-1/2020nature.txt"
text<-readLines(filePath)
#将数据加载为语料库
#docs<-Corpus(VectorSource(text)) #VectorSource()函数创建字符向量语料库
docs<-VCorpus(VectorSource(text))
#检查文档内容
inspect(docs)

#文字转换
#使用tm_map()函数执行转换以替换文本中的特殊字符等
toSpace<-content_transformer(function(x,pattern)gsub(pattern,"",x))#gsub函数:R语言字符串替换函数
docs<-tm_map(docs,toSpace,"/")
docs<-tm_map(docs,toSpace,"@")
docs<-tm_map(docs,toSpace,"\\|")

#清理文本
docs<-tm_map(docs,content_transformer(tolower)) #将文本转换成小写
docs<-tm_map(docs,removeNumbers) #移除数字
#docs<-tm_map(docs,removeWords,stopwords("pdf")) #移除停用词
docs<-tm_map(docs,removeWords,c("and","the"))#移除该文本停用词
docs<-tm_map(docs,removePunctuation) #移除标点符号
docs<-tm_map(docs,stripWhitespace) #消除额外空白空间
#docs<-tm_map(docs,stemDocument) #词干提取

##构建term-document矩阵
dtm<-TermDocumentMatrix(docs) #TermDocumentMatrix函数来自text mining包
m<-as.matrix(dtm)
v<-sort(rowSums(m),decreasing=TRUE)
d<-data.frame(word=names(v),freq=v)
head(d,10)

##生成词云
set.seed(1234)
wordcloud(words=d$word,freq=d$freq,min.freq=1,max.words=200,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8,"Dark2"))

结果如图：
在这里插入图片描述

TCGA-2020 文章

2020的Nature及其子刊的22篇全基因组的泛癌分析(Pan-Cancer Analysis of Whole Genomes) ，文本文件为：
在这里插入图片描述
代码和上面大致一样，结果如下：

标签：CNS,TCGA,library,标题,词云,2018,文本文件,泛癌
来源： https://blog.csdn.net/m0_51042606/article/details/120675680