标签: 技术分享
- 作者帖子
玖儿游客未曾老师,您好,有关于香港大学链接生成的工具吗?为什么下载几页就下不动了
未曾管理员因为会封IP(非香港),当然我个人测试,使用香港代理IP就不会被封
玖儿游客未曾老师,可有链接生成工具
xiaopengyou游客打擾了 先生,請教
在可以直接進香港中文大學圖書館官網的情況下,怎樣取得URL呢,比如《蘇長公小品》
試了F12,似乎找到第一頁URL repository.lib.cuhk.edu.hk/iiif/...efault.jpg
但再試著到IDM,Motrixg單頁下載,根本無效也無規律可言
能否請
先生撥冗指導一下
感謝
未曾管理员@xiaopengyou #27314
那个他们的地址有时间戳
你可以到缩略图页面
repository.lib.cuhk.edu.hk/en/is...9236/pages找到随便一页(缩略图)地址
https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A1169396/datastream/TN/view
修改为
https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A1169396/datastream/JP2
下载的文件是JP2格式的(需要支持JP2格式的图片查看器)
xiaopengyou游客
未曾管理员@xiaopengyou #27338
因为它那个ID没有规律,只能批量取得缩略图地址后批量替换一下
fans游客@未曾 #27340
如何在chrome的发展工具中批量取得缩略图地址?是使用chrome的插件?请提示一二,谢谢!
xiaopengyou游客@fans #38446
記得好像 未曾先生說過是逐個縮略圖下載URL再批量改後面成JP2?而那位 張飛白先生曾在一個帖上說過是用網址鏈接批量生成器產生的 ok.daoing.com/url/
只是我一直也沒學會,最近 飛白先生才用這個帖子的方法下載港中文大的一本書,或許是不是也能請 飛白先生再指導一下呢
感謝
张飞白游客感谢@xiaopengyou #38464兄推荐,其中下载香港中文大学的方法不难了,因为最关键的部分,@未曾 #27340先生已经给出了提示,就是在书籍的缩略图页面,根据缩略图的链接规律来批量生成jp2图片链接。缩略图的规律是什么:就是大部图片缩略图链接变化规律是依次加1的。
点击F12,进入开发者工具,然后点击开发者工具左上的小箭头,再点击一下第一张缩略图,然后相应地会出现该缩略图的链接。如下图:
第一张图片缩略图的链接是:https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A387393/datastream/TN/view
再来到last(最后一页),如上操作,点击最后一张图片的缩略图,找到它的缩略图链接,如下图:
发现最后一张图片缩略图的链接是:https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A387530/datastream/TN/view
前文提到,未曾先生提示,缩略图的变化规律是依次加1的,验证后确实是如此。
有了首尾图片的规律,当然可以用网址列表批量生成工具来生成批量链接了。
至于将TN/view修改为JP2,则只需要在输入网址的时候,提前修改好即可。
网址输入:https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A387(*)/datastream/JP2,(*)是变量,即认为是从393到530的变化。起始为393,总页数为138。然后点击生成。
如认为变量是从387393至387530的变化,则网址输入:https://repository.lib.cuhk.edu.hk/islandora/object/cuhk%3A(*)/datastream/JP2,起始为387393,总页数为138。这个应该好理解
如下图所示:
如上操作,即已经得到了香港中文大学书籍jp2格式的批量链接。然后用motrix、idm或本人开发的通用图片下载器下载即可。
cookie、user-agent的获取方法如下:(有的书籍不需要它们,不过一般填上去效果更佳)
张飞白游客最后,再分享一下鄙人开发的通用图片下载器,经半年多的试用及朋友反馈,对于已知链接的文件(jpg、pdf、jp2、png不等)下载效果还可以,有需要的朋友可以试试。
之前我拿它下载香港中文大学的道藏辑要,大概4.7万多页,生成批量链接后,基本没有什么问题,都下载成功了。
链接:https://pan.baidu.com/s/1SBVGTo4VXYLni-n0R2fjXQ
提取码:5nad
--来自百度网盘超级会员V4的分享enjoy!!
xiaopengyou游客@张飞白 #38491
飛白先生好
太感謝您了!
剛試著 您的詳細操作說明,終於下載了 您所舉例的這本書。但我下了蘇長公這書,是可以用Motrix下載下來,但順序卻是亂的。待我再好好研究下,看是哪裡有錯。如有需再請 您請教,盼能不吝,再予指導,先行謝過。
再次感謝。
未曾管理员@xiaopengyou #38496
香港中文大学图书馆有些书籍页面不是这种递增的~
未曾管理员我说一自己的解决方案
以此为例
repository.lib.cuhk.edu.hk/en/it...2/mode/2up查看网页源码》全选》复制
粘贴到EmEditor编辑器
使用正则提取
(cuhk%3A([0-9A-Za-z%_]+))%7EJP2
如图
然后替换
替换格式为
https://repository.lib.cuhk.edu.hk/islandora/object/\1/datastream/JP2
如图
然后点全部替换,最后就是列表
xiaopengyou游客@未曾 #38497
哦,感謝 先生解惑。
那就是了,難怪第一頁是1169272,最後一頁是1169350,但總頁數卻沒有192頁。
不過總算也學會了首尾頁差與總頁數一樣的話,那就遞增,可以用上 飛白先生說明的方式下載了。
再次感謝 飛白先生,感謝 未曾先生。
xiaopengyou游客@未曾 #38498
感謝 先生親自操刀說明。
只是這對於電腦小白還是太過高深了,單就"EmEditor编辑器","使用正则提取"就不懂了。
香港中文大藏書還沒有非要不可,所以還是感謝 先生費心指導。
先生還是可以忽略此話題啦
感恩
未曾管理员@xiaopengyou #38501
其实没啥难度,我把正则规则都写好了,大家按部就班即可
另外,我录制宏(自动处理),可以从这里下载这个宏脚本
yun.daoon.com/wl/?i...e=download
xiaopengyou游客
张飞白游客针对香港中文大学文件序号可能不规律的问题,我也写了一个简单的解析工具。算是在未曾先生的方法之外,给大家多一个选择。
链接:https://pan.baidu.com/s/1SrRbemUo0nJ2Y_QRxBXZQg
提取码:yp9s
复制这段内容后打开百度网盘手机App,操作更方便哦
唯一游客@张飞白 您好老师,我按照您的方法还没有学会。我是小白,这本医学心悟找了好久就是下载不了。我保存来来都是几十KB的文件,不清楚。您可以发一份给我吗。谢谢老师!!107700337@qq.com
张飞白游客@唯一 #38513
先说结论,这篇帖子《未曾老师 医学心悟 香港中文大学图书馆 怎么样才能下载高清的?谢谢您指导一下》最末可以找到我当初分享的百度云链接,还没有失效,好像就是您提问的。
再简略说一下方法
其实如果仔细看本帖的话,应该很清楚了,我先详细介绍了找规律及下载的方法,不知道您哪里不明白,是找链接规律还是下载??
如果确实不会,可以用38505楼的工具,可以比较方便地把链接解析出来
再至于下载,同样可以用38492楼的通用图片下载器下载。
如果还确实不会,那直接下载百度云网盘的成品吧。
轩辕十四君游客弱弱的问下先生,缩略图网址:https://repository.lib.cuhk.edu.hk/en/islandora/object/cuhk%3A1169236/pages
按F12后,如何查看源代码?
这个宏已经下载并选择好了,请教下如何使用?
唯一游客@张飞白 您好老师 就是您的工具把网页复制在里面后回车。软件解析,然后就自动闭了。重复几次都是这样。后来直接复印您的地址进入工具下载。下载得到的图片只有九个图片成功。不知道哪里出错了。
guozibaba游客@未曾 #38502
试验成功,已成功下载。
未曾管理员@轩辕十四君 #38516
不需要F12。直接右键就可以查看源码
xiaopengyou游客對於電腦小白而言,建議可以直接使用 飛白先生的解析工具在@38508,下載後直接使用,毫無難度,剛完成下載成功。
至於 未曾先生的方式,對於電腦小白而言還是有難度的,首先就還得有打開jsee的工具,怎樣操作都得好好再研究的,還在學習中。
總之,感謝 未曾先生,感謝 飛白先生!
小白猪游客我终于等到今天了,能方便自由的下载。
xiaopengyou游客@xiaopengyou #38530
剛學會打開JSEE文件,就卡關了,不知有否熱心人願意再提供下一步驟的操作,否則就又得放棄學習了,哈哈
未曾管理员
轩辕十四君游客刚想要再次尝试下,港大网站崩了?
这么快就设防了?有内鬼,终止交易。。额。。
平淡是真游客未曾老师:香港中文大学又不能看了,怎么办?
xiaopengyou游客電腦小白實在不敢再叨擾 未曾先生了,不知哪位熱心好人能再幫忙指導一下,這個‘選擇’,是選擇什麼呢?感謝
未曾管理员@xiaopengyou #38558
选择xgzwdx.jsee这个宏文件
唯一游客@张飞白老师您好。能否付费给您帮忙下载 医学心悟和三丰全集。
张飞白游客@唯一 #38562
感谢您的认可。不过现在香港中文大学好像已经访问不了了,如果这跟本帖的讨论有关而导致的话,这恐非我的本意。->_->
如果后续网站恢复访问了,您又还没有搞到那几本书(隔壁小朋友兄已经答应帮你下载的),可以联系我帮忙。(FEIBAIZHANG)
wd369游客
平淡是真游客@唯一 #38562
我在“白云深处有人家”下了《三丰全集》,怎么发给您?
xiaopengyou游客@平淡是真 #38583
這是那位朋友的郵箱 107700337@qq.com
平淡是真游客好
平淡是真游客@唯一 #38562
《三丰全集》已发至您邮箱
平淡是真游客@唯一 #38562
《医学心悟》依法治邮箱
平淡是真游客@唯一 #38562
不好意思,已发至邮箱
KK游客道藏辑要里面也有张三丰全集,但是目录和内容好像不一样。内容和空青洞天藏本也有出入。不知道是不是这样。
唯一游客
雪梨游客@未曾 @张飞白 @xiaopengyou
几位老师,我已经参照上面的方法获取到了链接,也下载了图片,但是全是乱的,可否告知是怎么回事?或者有什么方法可以解
未曾管理员@雪梨 #39002
建议使用这个软件 下载
www.shuge.org/meet/topic/16089/
未曾管理员@xiaopengyou #39008
抱歉,忘了附链接,其实就是 可以预先分配文件名的下载软件 motrix
雪梨游客@未曾 老师,用软件下载不了,推荐的软件都试了,直接提示出错,我没办法用的浏览器插件下载的
- 作者帖子