[刺客信条3-python数据实战-教程?大纲!]同人到底怎样写才能获得更多小心心嘛?01
旨在为写手们提供创作同人的方向
好吧……其实我只是想知道大佬何以成为大佬,大大们的热度为神马辣么高!It's just for fun!
方法:对lofter下“Connor”标签的热度和榜单界面的所有帖子分别进行爬取,制作语料库,分词后进行分析。(草稿:word embedding? tf-idf?)
为什么是Connor? 因为我爱他!
教程?大纲。今天好赶,过几日再出细节……(不过我也只是只自学的小白而已啦——主要是好玩)
那么第一步就是爬虫啦!
小白自学一枚,因此使用anaconda作为python编程环境(因为它安装起来最方便,不需要手动设置各种环境变量;而且下载包也是最方便了,rua!!!)
一. 包的安装
anaconda prompt窗口中输入命令:
conda install bs4
conda install requests
考虑到anaconda官网在墙外,如果下载包的速度太慢,可以使用清华镜像python library库。
其中,bs4和requests都是获取网页信息进行爬虫的好工具。
bs4官方中文文档见链接
requests快速上手官方中文文档见链接
二. 爬虫代码
见图1和图2(有空再细讲一下)
基本原理是用requests向服务器请求获取网页,然后把它装进beautifulsoup(由bs4导入)里,解析html语法,找到我们想要的东西。
但是我们怎么知道自己想要的东西在哪里呢?
需要用到chrome浏览器(当然,火狐浏览器等等也都是有的)的开发者工具。按下 ctrl+shift+I 呼出。(见图3)
深蓝色区域是存放我们需要的信息的区块,在html中它是一个属性class为m-icnt ctag的div标签。
三. 语料库初步结果(嗯?你跳的也太快了吧?所以说是大纲啦……)
运行程序可以知道Connor标签下有50页内容(见图4)。
那么我们的语料库是什么样子的呢?(见图5、图6,是三青大大的救命我变成了帽子哈哈哈哈)
本节实践结束,下次的任务就是对语料库进行清洗,然后分词啦。
(注:本次爬虫获取的文章绝不做商用。如有侵权,一定删帖。)
实验预期结果:开车的同人获得小心心最多
评论(12)