关于文本挖掘的实战方法/中国直播网|中国直播网

欢迎访问中国直播网！遇见美好，记录事实！Meet the good, record the facts!

中国直播网微博直播网微博网站地图商标版权注册证直播号入驻

中国直播网微信

当前位置：中国直播网 > 科技 > 电商关于文本挖掘的实战方法

关于文本挖掘的实战方法

2017-02-13 03:16来源：编辑：轩皓宇

一、文本挖掘定义

文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。

二、文本挖掘步骤

1)读取数据库或本地外部文本文件

2)文本分词

2.1)自定义字典

2.2)自定义停止词

2.3)分词

2.4)文字云检索哪些词切的不准确、哪些词没有意义，需要循环2.1、2.2和 2.3步骤

3)构建文档-词条矩阵并转换为数据框

4)对数据框建立统计、挖掘模型

5)结果反馈

三、文本挖掘所需工具

本次文本挖掘将使用R语言实现，除此还需加载几个R包，它们是tm包、tmcn包、Rwordseg包和wordcloud包。其中tmcn包和Rwordseg包无法在CRAN镜像中下载到，有关这两个包的下载方法可参见下文>>>

四、实战

本文所用数据集来自于sougou实验室数据，具体可至链接下载>>>

本文对该数据集做了整合，将各个主题下的新闻汇总到一张csv表格中，数据格式如下图所示：

具体数据可至文章后面的链接。

接下来需要对新闻内容进行分词，在分词之前需要导入一些自定义字典，目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容，故需要将搜狗字典插入到本次分析的字典集中。

如果需要卸载某些已导入字典的话，可以使用uninstallDict()函数。

分词前将中文中的英文字母统统去掉。

图中圈出来的词对后续的分析并没有什么实际意义，故需要将其剔除，即删除停止词。

停止词创建好后，该如何删除76条新闻中实际意义的词呢?下面通过自定义删除停止词的函数加以实现。

相比与之前的分词结果，这里瘦身了很多，剔除了诸如“是”、“的”、“到”、“这”等无意义的次。

判别分词结果的好坏，最快捷的方法是绘制文字云，可以清晰的查看哪些词不该出现或哪些词分割的不准确。

仍然存在一些无意义的词(如说、日、个、去等)和分割不准确的词语(如黄金周切割为黄金，医药切割为药等)，中国直播网，这里限于篇幅的原因，就不进行再次添加自定义词汇和停止词。

此时语料库中存放了76条新闻的分词结果。

从图中可知，文档-词条矩阵包含了76行和7939列，行代表76条新闻，列代表7939个词;该矩阵实际上为稀疏矩阵，其中矩阵中非0元素有11655个，而0元素有591709，稀疏率达到98%;最后，这7939个词中，最频繁的一个词出现在了49条新闻中。

由于稀疏矩阵的稀疏率过高，这里将剔除一些出现频次极地的词语。

这样一来，矩阵中列大幅减少，当前矩阵只包含了116列，即116个词语。

为了便于进一步的统计建模，中国直播网，需要将矩阵转换为数据框格式。

总结

所以在实际的文本挖掘过程中，最为困难和耗费时间的就是分词部分，既要准确分词，又要剔除无意义的词语，这对文本挖掘者是一种挑战。

文中数据和脚本可至如下链接下载：

http://yunpan.cn/cupyBj9xTkHe7 访问密码 a88b

作者：刘顺祥。数据分析师，热爱数据分析与挖掘工作，擅长使用R语言

特别声明：本文为中国直播网直播号作者或机构上传并发布，仅代表该作者或机构观点，不代表中国直播网的观点或立场，中国直播网仅提供信息发布平台。
版权声明：版权归著作权人，转载仅限于传递更多信息，如来源标注错误侵害了您的权利，请来邮件通知删除，一起成长谢谢
欢迎加入：直播号，开启无限创作！一个敢纰漏真实事件，说真话的创作分享平台，一个原则：只要真实，不怕事大，有线索就报料吧！申请直播号请用电脑访问https://zbh.zhibotv.com.cn。

上一篇：大数据+春节国人过年最爱买白酒
网站首页 返回栏目
下一篇：AI的转变之路从不被看好到热门领域

标签：

相关资讯

为卖货而生芒果TV《超级带货王》重磅上线倒计时

“公益+产业+电商”模式电商扶贫迈入新阶段

网友质疑双11数据造假？天猫：造谣要负法律责任

网友质疑天猫双11数据造假天猫：造谣要负法律责任

媳妇去年网购欠下20万今年又欠30万男子气到跳楼

阿兴博客快手短视频电商和快手直播卖货培训班成功举办

热门频道

娱乐

电影

电视剧

综艺

社会

天赐的声音频频现身抖音音乐人 ycccc用实力征服舞台

包丽案宣判被告母亲称儿子无辜

2023-06-15 17:16:42杨丽萍回应舞者造型被指不雅

2023-06-15 11:09:07浙江温州市检察院以涉嫌分裂国家罪对杨智渊批准逮捕

2023-06-15 11:09:06中印举行第十八轮军长级会谈

2023-06-15 11:09:04杭州亚运会代表团团长大会今天在杭州开幕

2023-06-15 11:09:02商务部部长与欧盟委员会官员举行会谈：筹备第十次中欧经贸高层对话

2023-06-15 11:09:01重庆市政协原主席刘志忠突发心脏病逝世，享年81岁

2023-06-15 11:08:58国务院安委会对浙江武义致11死火灾事故查处实行挂牌督办

2023-06-15 11:08:57新能源汽车行业将引入积分池制度

2023-06-15 11:08:54淄博五一清北学生免费游确定：两天共400个名额，往返车票自费

2023-06-15 11:08:52机构可为中考体育办理满分？西安市教育局、警方均已介入调查

2023-06-15 11:08:50超40城调整首套房贷利率下限至4%以下上海房贷利率暂时没有调整安排

2023-06-15 11:08:36国台办：李延贺涉嫌从事危害国家安全活动，正接受国家安全机关调查

2023-06-15 11:08:34台媒称美方派遣200名美军入台国台办：坚决反对毁台、害台行径

蝙蝠侠影迷看过来！整辆能上路的复刻蝙蝠车带回家怎么样？

伊能静儿子罕晒跳舞视频，哈利动作妖娆妩媚，比女生还柔软

2023-06-16 20:02:43杨丽萍回应孔雀舞争议：每一个人都是赤条条的来，男舞伴造型合理

2023-06-16 20:02:32膝盖韧带九成撕裂！TVB实力花旦为拍电影版《寻秦记》不慎受伤

2023-06-16 19:47:11天赐的声音频频现身抖音音乐人，ycccc用实力征服舞台？

2023-06-16 19:02:45《阿吉尔》定档2024年2月2日亨利·卡维尔成间谍

2023-06-16 19:02:42《绝地追击》片方宣布调整档期至8月25日上映

2023-06-16 19:02:38痛心！这位老戏骨走了，他的作品在广东家喻户晓……

2023-06-16 19:02:33燃炸！《阿麦从军》影版首次曝光，张天爱披甲上阵大杀四方好带感

2023-06-16 18:53:10苗苗晒近照欲澄三胎传言，却遭亲妹打脸，郑恺凌晨现身聚会楼苏芒

2023-06-16 18:52:59《你好，妈妈》上影节举行发布会山田洋次出席

2023-06-16 18:52:55《无敌浩克》版权回归 7.16登陆迪士尼流媒体平台

2023-06-16 18:52:51DC“蝙蝠侠与罗宾”曝动态《闪电侠》导演执导

2023-06-16 18:52:49到底是谁惹了六公主啊！这批无美颜的生图发出后，直接成热搜榜一

2023-06-16 18:52:43孙俪疑三胎？穿衣宽松小腹隆起，网曝还是双胞胎，11岁儿子随妈妈

公安部关于印发《管制刀具认定标准》的通知

贵州安顺：“一提案一档案”高质量做好提案工作“大文章”

2021-02-16 10:05:19国产局副局长何志敏同志慰问商标局干部职工

2021-02-16 10:02:24商标局启动“口头审理”常态化模式

2021-02-04 20:19:26贵州安顺：扶贫档案聚焦脱贫攻坚全面推进就业帮扶

2021-02-02 19:28:27辽源市人民政府向通化市人民政府捐赠防疫物资

2021-01-29 11:04:49建好人才“档案库”，锻造纪律“铁部队”

2021-01-19 18:49:43东阳市新冠肺炎疫情防控工作指挥部通告（2021年第2号）

2021-01-19 18:49:39东阳市新冠肺炎疫情防控工作指挥部通告（2021年第2号）

2021-01-19 18:49:32东阳市新冠肺炎疫情防控工作指挥部通告（2021年第2号）

2020-12-14 17:58:19贵州安顺坚持“十学十做”推动学习贯彻新修订档案法走深走实

2020-11-09 22:08:20致敬抗疫英雄！安顺为援鄂医务工作者建立活性成长态档案

2020-11-09 20:52:22党员活动日泗沥驻金华党支部与泗沥（义乌）同乡会一同走访企业

2020-08-28 14:45:36安顺市：坚持政治统领“主心骨”加快推动新时代档案工作“三个能

2020-07-30 12:12:21贵州紫云:发挥档案工作基础性支撑作用全面补齐脱贫攻坚短板

为卖货而生芒果TV《超级带货王》重磅上线倒计时

字节跳动确认TikTok首席执行官凯文·梅耶尔辞任全文

2020-08-27 21:59:07英媒：TikTok首席执行官凯文·梅耶尔已辞职

2020-08-27 21:49:08“阿京腾百”商标被裁定不予注册阿里京东腾讯百度联合异议成功

2020-08-27 20:43:135G+大屏+大电池影音娱乐之选：荣耀X10 Max

2020-08-27 20:41:44红旗H9中大型豪华轿车上市售30.98万元起

2020-08-27 20:39:34马云坐在后座被摄影师拍到了这样一幕

2020-08-27 20:34:46首款使用超动态扬声器的真无线耳机OPPO Enco Free发布

2020-08-27 20:33:41华为智慧屏V75上市鸿蒙OS+120Hz屏幕

2020-08-27 20:32:13续航可达66天的智能手表：Amazfit T-Rex

2020-08-27 20:31:00OPPO Watch系列智能手表发布全系支持eSIM最长续航可达21天

2020-08-27 20:29:25DJI大疆教育发布RoboMaster EP机甲大师机器人

2020-08-27 20:27:25史上最低售价Wi-Fi 6+路由器华为路由AX3优惠价仅199元

2020-08-27 20:26:00大疆发布御Mavic Air 2无人机更智能更强大

2020-08-17 23:47:41工信部备案系统网站首页全面升级政务服务平台

深圳徽粤湾房地产成立青年创业家代宝杰出任董事长CEO

受新冠肺炎疫情影响全聚德上半年亏损过亿

2020-05-09 15:30:45方明：中国人的理想住宅

2020-01-28 11:14:18科比直升机失事原因曝光洛杉矶大雾低空盘旋6次

2020-01-27 16:52:22科比遇难细节曝光：9人确定遇难事故或与天气有关

2020-01-27 16:50:50科比遇难引全世界震惊各界名流齐哀悼

2020-01-27 16:48:34NBA官方：科比对全世界的鼓舞令我们铭记

2019-12-03 19:41:35梅西六夺金球奖!西甲包揽近11届金球奖梅西助巴萨独享世界第一

2019-12-03 19:40:59创纪录!梅西六夺金球奖对巴萨情感胜过任何纸面协议

2019-12-02 19:56:02英超-拉什福德造乌龙林德洛夫破门曼联2-2平维拉

2019-12-02 19:54:34富兰克林34+9+7任骏威决胜罚球山西客场胜苏州肯帝亚

2019-12-02 19:53:06刘月半的鼓励好暖！刘国梁夸樊振东怎么回事?网友沸腾了?

2019-12-02 19:51:38摸脸杀?刘国梁夸樊振东竟然这样说樊振东成就世界杯三冠王

2019-12-02 19:50:11广州富力三连败收官扎哈维再夺中超金靴

2019-12-02 19:49:14国足东亚杯集训名单出炉广州恒大仅3人入选

精彩推荐

热门标签

热门排行

CopyRight 2014-2024 中国直播网（直播网）ZhiBoTv.Com.Cn（中國直播網有限公司）| 本站取得授权享有第17448205号“直播网”商标注册证 | 中国直播网投稿公邮：news@newsgo.com

直播网网站所登载资讯、图集、视频等内容，版权归直播号自媒体平台原作者或投稿人所有，投稿视为本站原创首发，刊发或转载仅限传播目的非本网观点，未经授权请勿转载或商业用途。

特别声明：中国直播网仅提供平台运营服务，不提供任何上传发布服务，中国直播网尊重知识产权保护，侵权反馈：fawu@newsgo.com 直播网撤稿函下载如有侵权请来邮告知，我们收到后会尽快处理答复。 Powered by EyouCms 备案号：吉ICP备2023004346号-1