当前位置: 首页 > news >正文

搭建什么网站赚钱北京网站怎么建设

搭建什么网站赚钱,北京网站怎么建设,seo黑帽教学网,北京社交网站建设自然语言之情感分析(中文) 数据来源#xff1a;香港金融新闻平台处理工具#xff1a;python3.5处理结果#xff1a;分析语言的积极/消极意义领域#xff1a;金融/炒股请随意观看表演 数据准备数据清洗情感分析报错处理成果展示遗留问题No1.数据准备 准备工作主要是对字典进…自然语言之情感分析(中文) 数据来源香港金融新闻平台处理工具python3.5处理结果分析语言的积极/消极意义领域金融/炒股请随意观看表演 数据准备数据清洗情感分析报错处理成果展示遗留问题 No1.数据准备 准备工作主要是对字典进行处理将其按照类型分类写入python文件中方便其余脚本调用。并且将词典写入到emotion_word.txt中使用 jieba词库 重载 将字典写入.py文件好处 方便调用from emotion_word import *按照类型分类调用后直接使用most_degree即可避免打开txt文件的大量代码可以使用python高级结构的方法附一张emotion_word.py的截图 写入方法 将txt字典中的每行的词语读出来再写入列表再print(List)。当数据少的时候可以但是当数据达到几百以上显然不可行。 若txt字典中的词语都是按行分布的: word_list [] def main():with open(emotion_word.txt,r,encodingutf-8) as f:global word_listfor line in f.readlines():word_list.append(line.strip(\n))with open(tem.txt,a,encodingutf-8) as f:writted word_list str(word_list)\nf.write(writted)if __name____main__:main()写入后再全选复制粘贴到对应.py文件就可以了 附截图 No2.数据清洗 拿到的数据是这样的附截图 主要就是繁体去简体去掉html标签和各种奇葩符号 繁体和简体的转化用到了国人的一个库请戳这里下载 :) 使用方法很简单: from langconv import * #转换繁体到简体 def cht_to_chs(line):line Converter(zh-hans).convert(line)line.encode(utf-8)return line#转换简体到繁体 def chs_to_cht(line):line Converter(zh-hant).convert(line)line.encode(utf-8)return line 代码会在之后用类一起封装 No3.情感分析 分析title(新闻标题)和content(新闻主体)的成绩(只看正负)和方差。对于成绩我们更重视新闻标题因为关键词明确数量少影响因素少对于方差我们更看重新闻主体词语多从方差可以看出来这段新闻语气程度(肯定/不确定...)。当然当titile成绩为0或者主体方差为0我们会看主体的成绩和title的方差。 当前词的正负性(褒义/贬义)检索前一个词是否是程度词/反义词后一个词/标点是否能加深程度字典特征 字典里面的否定词:不好,而不是不,好。所以否定词是和别的词连在一起的。但也有少数不是。字典包含标点符号字典有一些缺陷并且不是针对金融领域的专门字典class EmotionAnalysis:def __init__(self,newsNone):self.news newsself.list []def __repr__(self):return News:self.news#新闻去标签,繁-简def delete_label(self):rule r(.*?)| |\t|\n|○|■|☉self.news re.sub(rule,,self.news)self.news cht_to_chs(self.news)#得到成绩和方差def get_score(self):self.list list(jieba.cut(self.news))index_list zip(range(len(self.list)),self.list)score 0mean_list []#tem_list []for (index,word) in index_list:#tem_list.append(word)tem_score 0#print(NO:,index,WORD:,word)if (word in pos_emotion) or (word in pos_envalute):tem_score 0.1#搜索程度词if self.list[index-1] in most_degree and (index-1):tem_score tem_score*3elif self.list[index-1] in very_degree and (index-1):tem_score tem_score*2.5elif self.list[index-1] in more_degree and (index-1):tem_score tem_score*2elif self.list[index-1] in ish_degree and (index-1):tem_score tem_score*1.5elif self.list[index-1] in least_degree and (index-1):tem_score tem_score*1else:pass#搜索否定词/反意词if (self.list[index-1] in neg_degree and index!0) or (indexlen(self.list)-1 and self.list[index1] in neg_degree):tem_score -tem_score#print(| tem_score:,tem_score)elif (word in neg_emotion) or (word in neg_envalute):tem_score -0.3if self.list[index-1] in most_degree and (index-1):tem_score tem_score*3elif self.list[index-1] in very_degree and (index-1):tem_score tem_score*2.5elif self.list[index-1] in more_degree and (index-1):tem_score tem_score*2elif self.list[index-1] in ish_degree and (index-1):tem_score tem_score*1.5elif self.list[index-1] in least_degree and (index-1):tem_score tem_score*1else:pass#print(| tem_score:,tem_score)mean_list.append(tem_score)scoretem_score#print(tem_list)#返回(成绩,方差)return (score,np.var(mean_list)) No4.报错处理 一共231506条新闻为了方便回查设置报错处理(在数据库操作的类里实现) log_file error.log class SQL(object):......def run(self,cmd,index):try:self.read_SQL(cmd,index)self.operate()self.write_SQL(index)self.w_conn.commit()except Exception as r:self.r_conn.rollback()self.w_conn.rollback()error ID str(self.r_dict[id])str(r)global log_filelog_error(log_file log_file,errorerror)No5.成果展示 由于var太小所以扩大了1w倍便于观察相对大小和后期工作的进行。请观察id来观看结果(为了方便显示导入到了两个csv文件) No6.遗留问题 在EmotionAnalysis类里的get_score函数里对应的分值容易确定。(有空看一下机器学习maybe能改进)。所以现在的分数只能看正负来确定消极或积极。但对于这种金融新闻特点言简意赅效果还可以。字典问题请看 No3里面的字典特征转载于:https://www.cnblogs.com/AsuraDong/p/emotion_analysis.html
http://wiki.neutronadmin.com/news/240483/

相关文章:

  • 网站已经克隆好了 怎么做仿站附近短期电脑培训班
  • 集团公司网站改版方案科技资讯
  • 网站优化外包公司wordpress 主机
  • 刷东西网站怎么做呼市推广网站
  • 自己做的网站如何让别人看到seo百度排名优化
  • 珠海公司网站设计企业建站网站建站系统
  • 南京高新区建设规划局网站友情链接的四个技巧
  • 做seo时网站发文目的蚌埠做网站公司
  • 惠州专业的免费建站做网站所具备的的条件
  • 河北省质监站网址建设网站主要有哪些技术
  • 沈阳网站推广深圳品牌做网站公司
  • 怎么做ppt教程网站电子商务公司属于什么行业类型
  • 别人做的网站打不开哪个网络推广公司好
  • 个人怎么做优惠券网站东莞装饰网站建设
  • 免费网站建设模板下载宁波手机网站开发公司
  • 做网站原型图是用什么软件wordpress如何修改后台路径
  • 上海网站建设招聘义乌创源网站建设
  • 茂名企业建站模板阿里云是不是做网站的
  • 电子商务网站名字网站做线上销售
  • 网站的ui规范专业网站建设新闻
  • 饮料网站建设规划书四川手机网
  • 文山州中小企业网站建设店铺设计图纸及效果图大全
  • 网站容易出现的问题吗科技布
  • 寻找定制型网站建设怎样给网站换空间
  • 网站asp源码2023新闻摘抄大全
  • 昆明seo关键词排名熊掌号结合网站做seo
  • 网站平台运营方案免费html网站模板
  • 扬州做企业网站招聘网页制作工程师
  • 制做网站的公司建筑公司网站广告宣传语
  • 有ip怎么用自己的主机做网站住房城乡建设局网站