Beta版本发布说明-白红宇

Beta版本发布说明

阅读量：5816 次

发布时间：2019-06-18

本文共 1563 字，大约阅读时间需要 5 分钟。

发布地址

https://github.com/LongWerLingShi/DataObtainingAndHandling/tree/beta

版本开发背景

　　首先，应软件工程课程要求，我们小组针对学霸网站进行了后台数据处理与获取模块的开发。在最初的两周里面，基于前届学长们的作品，我们开发出了alpha版本。但是受限于老旧的代码架构，很多的问题都无法得到有效的解决。于是在接下来的一个月里面，我们又开发出了beta版本，彻底抛弃了之前爬虫程序以及数据处理程序的全部框架，重新构建了完整的程序。在性能获得质的飞跃的同时，我们还新增了管理网页用于查看当前的处理进度以及控制程序

新增功能

爬虫权限控制（robot.txt协议）

新增新增基于之前爬取进度继续爬取的功能

新增多线程爬虫

新增动态控制爬虫开关以及数量的功能

新增动态增加删除seed的功能

新增网页图形化显示界面

新增对于问答对的处理

新增爬取图片的功能

新增对于中文的支持

新增基于TD-IDF算法的关键词提取模块

修复缺陷

修复了编码格式不一致导致的乱码问题

修复了爬虫相关的所有bug（因为重构）

修复了中英翻译的bug

对于于运行环境的要求

window系统

可以正常访问ipv6网站

安装使用

整个系统分为爬虫以及数据处理两个部分

爬虫作为爬取数据源，需要作为java后台程序一直运行并且可以通过网页来控制

网页需要安装配置好apache、php相关环境

具体操作安装方法见文档：学霸数据处理项目之数据处理框架开发者手册（http://www.cnblogs.com/nrm1/p/6215275.html）

系统已知的问题以及限制

由于服务器网络环境的限制，所以当前只能在个人pc上运行，在服务器上无法正常访问部分网站

出于对爬虫准确性的控制，增加了对于域名访问的限制，可能会影响一些爬虫对于单个网站爬取的效率

功能对照表

测试功能	测试项	效果描述	完成情况
管理页面	处理程序启动	点击“开始”按钮可以让处理程序开始处理	T
	打开爬虫管理页面	点击“来源配置”弹出爬虫管理页面	T
	打开输出目标配置页面	点击“输出配置”弹出输出配置页面	T
爬虫功能	爬虫爬取信息seed增加	可以在爬虫管理页面手动增加爬取信息来源网站	T
	爬虫关键词筛选	可以增加关键字在爬取信息的时候筛选内容	T
	爬虫多线程启动	可以自定义启动几个爬取线程，并且可以看到各个线程的运行情况	部分
	爬虫信息展示	可以看到此处运行爬虫的信息，运行时间、爬取到的文件数	T
	爬虫爬取网站数量限制	可以自定义爬虫爬取网站数，如果缺省则一致爬下去	F
	爬虫文件信息保存	从网上爬下的信息可以按照格式保存在数据库里面，可以从数据库看到数据更新	T
数据处理功能	数据处理启动控制	可以在网站上管理当前数据处理线程的启动与暂停	T
	doc数据文本信息获取	从doc文件中提取文本信息出来	T
	doc关键信息提取	从doc文件中提取关键信息并且保存	T
	html数据文本获取	从html提取去噪后的文本	T
	html关键信息提取	从html文件提取关键信息	T
	pdf数据文本获取	从pdf文件提取文本信息	T
	pdf关键信息提取	从pdf文件中提取关键词	T
	问答对网站信息提取	从问答网站提取问题以及优质答案	T
拓展功能	配置链接的solr账户	可以手动配置需要链接的solr数据库	F
	自定义上传	允许用户进行solr索引删除以及重建选项	F
	提供修改关键词接口	提供修改关键词接口以及访问方法	T
	登陆账户	提供登陆界面，使用固定账号才可以登陆到管理界面里面	T

转载于:https://www.cnblogs.com/longweilingshi/p/6250433.html

你可能感兴趣的文章

[转载]设置Ubuntu自动连接无线，无须再输入密钥环和无线密码