晦涩

彳亍

[刺客信条3-python数据实战-教程?大纲!]同人到底怎样写才能获得更多小心心嘛?01

旨在为写手们提供创作同人的方向

好吧……其实我只是想知道大佬何以成为大佬,大大们的热度为神马辣么高!It's just for fun!

方法:对lofter下“Connor”标签的热度和榜单界面的所有帖子分别进行爬取,制作语料库,分词后进行分析。(草稿:word embedding? tf-idf?)

为什么是Connor? 因为我爱他!

教程?大纲。今天好赶,过几日再出细节……(不过我也只是只自学的小白而已啦——主要是好玩)

那么第一步就是爬虫啦!

小白自学一枚,因此使用anaconda作为python编程环境(因为它安装起来最方便,不需要手动设置各种环境变量;而且下载包也是最方便了,rua!!!)


一.  包的安装

anaconda prompt窗口中输入命令:

conda install bs4

conda install requests

考虑到anaconda官网在墙外,如果下载包的速度太慢,可以使用清华镜像python library库。

其中,bs4和requests都是获取网页信息进行爬虫的好工具。

bs4官方中文文档见链接

requests快速上手官方中文文档见链接

二. 爬虫代码

见图1和图2(有空再细讲一下)



基本原理是用requests向服务器请求获取网页,然后把它装进beautifulsoup(由bs4导入)里,解析html语法,找到我们想要的东西。

但是我们怎么知道自己想要的东西在哪里呢?

需要用到chrome浏览器(当然,火狐浏览器等等也都是有的)的开发者工具。按下 ctrl+shift+I 呼出。(见图3)


深蓝色区域是存放我们需要的信息的区块,在html中它是一个属性class为m-icnt ctag的div标签。

三. 语料库初步结果(嗯?你跳的也太快了吧?所以说是大纲啦……)

运行程序可以知道Connor标签下有50页内容(见图4)。


那么我们的语料库是什么样子的呢?(见图5、图6,是三青大大的救命我变成了帽子哈哈哈哈)




本节实践结束,下次的任务就是对语料库进行清洗,然后分词啦。

(注:本次爬虫获取的文章绝不做商用。如有侵权,一定删帖。)

实验预期结果:开车的同人获得小心心最多

评论(12)

热度(23)