目前软件收录了百度文库、道客巴巴、新浪爱问、豆丁、原创力。后续还会陆续添加支持多个网站。
软件功能:
1、百度文库 多线路下载。
百度文库线路2、3、4均为收集互联网收集的接口,只能下载用下载券的文档,是原格式。但是不太稳定。
百度下载线路1为爬取自用接口,文档不是原格式。只要能预览多少,就能下载多少。
小声说下:百度4线路可以下载VIP专享
2、豆丁文库 word尽可能的还原。
3、新浪爱问 PDF格式保存,移除水印。
OCR识别功能的图片没有去水印,可能是别的时候 会带水印的结果,(后续有时间更改)
4、道客巴巴、原创力 PDF格式保存。
原创力也就是book118的有点麻烦。调用他的图片接口速度快了什么都不反回。次数多了还有验证码。。。因此获取这个的PDF每一次我都延时1s处理。
所以这个下载就比较慢。。。大家耐心等待。
5、软件带OCR识别功能。
调用搜狗 的OCR识别接口(本来用的搜狗,但是今天搜狗不能用,临时换成有道的接口了。后续有时间了,可以设置识别接口种类),可以下载除了豆丁和百度以外的文库时勾选,然后软件会在生成PDF文档的同时生
成一个TXT文档,开启OCR功能后下载速度可能会变慢。
6、软件界面如下。
来个测试图:
左边是下载的PDF,右边是识别的TXT,最后面是保存的路径
https://www.lanzous.com/i7um2de
有问题回帖,有时间了会进行下一步更新。
程序是.net写的 需要.net4.0de 环境
评下分又不会怀孕
声明:本站所有资源均由网友分享,如有侵权内容,请在文章下方留言,本站会立即处理。