[刺客信条3-python数据实战-教程？大纲！]同人到底怎样写才能获得更多小心心嘛？01-晦涩

旨在为写手们提供创作同人的方向

好吧……其实我只是想知道大佬何以成为大佬，大大们的热度为神马辣么高！It's just for fun!

方法：对lofter下“Connor”标签的热度和榜单界面的所有帖子分别进行爬取，制作语料库，分词后进行分析。（草稿：word embedding? tf-idf?）

为什么是Connor? 因为我爱他！

教程？大纲。今天好赶，过几日再出细节……（不过我也只是只自学的小白而已啦——主要是好玩）

那么第一步就是爬虫啦！

小白自学一枚，因此使用anaconda作为python编程环境（因为它安装起来最方便，不需要手动设置各种环境变量；而且下载包也是最方便了，rua!!!）

一. 包的安装

anaconda prompt窗口中输入命令：

conda install bs4

conda install requests

考虑到anaconda官网在墙外，如果下载包的速度太慢，可以使用清华镜像python library库。

其中，bs4和requests都是获取网页信息进行爬虫的好工具。

bs4官方中文文档见链接

requests快速上手官方中文文档见链接

二. 爬虫代码

见图1和图2（有空再细讲一下）

基本原理是用requests向服务器请求获取网页，然后把它装进beautifulsoup（由bs4导入）里，解析html语法，找到我们想要的东西。

但是我们怎么知道自己想要的东西在哪里呢？

需要用到chrome浏览器（当然，火狐浏览器等等也都是有的）的开发者工具。按下 ctrl+shift+I 呼出。（见图3）

深蓝色区域是存放我们需要的信息的区块，在html中它是一个属性class为m-icnt ctag的div标签。

三. 语料库初步结果（嗯？你跳的也太快了吧？所以说是大纲啦……）

运行程序可以知道Connor标签下有50页内容（见图4）。

那么我们的语料库是什么样子的呢？（见图5、图6，是三青大大的救命我变成了帽子哈哈哈哈）

本节实践结束，下次的任务就是对语料库进行清洗，然后分词啦。

（注：本次爬虫获取的文章绝不做商用。如有侵权，一定删帖。）

实验预期结果：开车的同人获得小心心最多

评论(12) 热度(23)