绅士漫画爬虫

前言

绅士漫画是一个免费的漫画网站,里面收录了大量的本子资源,包含汉化本,生肉本,以及韩漫,都由汉化组或者搬运工上传,不二压。

最近一直在使用E绅士(e-hentai.org),这应该是全世界最大的本子网站了,而且其丰富的tag可以让你轻松找到符合自己XP的本子。但是不幸的是E站每天都会接收到大量的版权投诉,导致大量的画廊被删除。

虽然E站的服务器遍布全球,并不在美国境内,所以也不需要遵守美国法律,有的服务器甚至是抗DMCA的,但是E绅士仍会接受这些版权投诉,并把对于的画廊删除。
详见:https://forums.e-hentai.org/index.php?showtopic=246653

即便如此,版权内容还是会被不断上传,并不断的被删除。
我觉得这挺荒诞的,但这就是E站的做法,他们肯定也考虑了很多,我作为一个看本子的只会觉得很可惜。irodori什么时候死啊
总结一下:

天下苦版权炮久矣!!

但在偶然之间,发现了绅士漫画这个网站(www.wnacg.com),这是一个免费的在线的漫画网站,里面收录的本子也不少,最重要的一点是,这里没有版权炮,不必担心上一秒还在鉴赏的本子,下一秒就被删除了。
标签系统虽然没有E站那么丰富,但提供标签也能够查找到自己喜欢的作者,而且免登录,免费下载。

但是对于我这样的lsp而言,漫画只能单本下载是不足以满足我的,批量下载漫画是必须的,于是写了这个爬虫。
搭配之前搭建了一个在线的漫画阅读的项目(详见:Docker搭建Komga漫画库
就可以做到把喜欢的本子统统下载下来了!

简介

下载

点此下载:
wnacg.py
requirements.txt

功能

  • 查找可用域名(详见发布页:绅士发布页
  • 通过漫画的url下载
  • 通过关键词下载
  • 批量下载
  • 单本下载
  • 解压或打包
    之前写的yande爬虫,实际上是有许多弊端的,虽然有一个友好的gui,但实际上却忽略了许多问题:比如如何在mac上运行,如何在Android上运行,如何在linux上运行等等。
    后来我想通了,一个爬虫下载的脚本,只需要使用最基本的命令窗即可。

食用方法

安装并配置python环境略去,不了解的可以自行百度。
下载wnacg.py文件,以及requirements.txt。
放在同一路径下,运行

pip install -r requirements.txt

安装依赖,运行py脚本。

python wnacg.py

运行成功后会自动创建一个config.ini 配置文件模板,默认不用管。

47e320697cc9d3131bcf11ff557265b6.png

  • 提示需要输入绅士漫画发布页,默认回车即可。
  • 提示输入下载目录,输入下载路径或者回车即可,如E:\wnacg,留空回车将会在当前文件夹生成output文件夹存放下载的漫画。
  • 提示输入是否解压为文件夹。
  • 自动检测可用的域名,并选择其中一个。(没有什么区别,仅域名不同,某些域名ban日本IP)
    48c0ec80d4d268657fa08d68c2ed1d0b.png
  • 输入关键词,列出可下载漫画列表。可以下载单本,下载整页或者下载全部漫画。
    c945e716d65b4e3a4005a2a00d5fd6c2.png
  • 输入链接下载单本漫画,只能是photos-index-aid格式URL,其他格式不支持。
    21ee4326184b8d16659ef8fbd5232613.png

碎碎念

代码写的很长很乱,目前能用就是赢!感兴趣的小伙伴可以自行修改。

这个爬虫主要是写了两种下载的实现。

  • 第一种是调用漫画界面的自带的打包下载
  • 另一种是请求每一页的图片并获取图片地址。

第一种形式很方便,但是绅士的打包是交由上传者决定的,不打包的漫画无法通过这个方法下载(我觉得这么做意义不明就是了),只能每一张图片请求了。

那么最后祝愿诸君都能在新的一年里找到自己喜欢的本子~


image.png

评论

  1. pidanxia
    3 月前
    2024-2-26 10:35:21

    我盗版网站看的斗破苍穹经常看着看着网站就被封了😭

    • 博主
      pidanxia
      3 月前
      2024-2-28 11:07:20

      啊?可能网站倒了()可以试试这个APP支持好多漫画的,国漫也有|´・ω・)ノhttps://github.com/youniaogu/MangaReader

      • pidanxia
        vce1
        3 月前
        2024-2-28 19:49:20

        谢谢谢谢٩(ˊᗜˋ*)و

  2. 匿名
    1 月前
    2024-4-18 16:55:21

    大佬,麻烦问下有时候会漏图片,怎么解决啊

    • 博主
      匿名
      1 月前
      2024-4-18 20:05:45

      因为是爬虫,有时候可能遇到网络问题下载会失败,大部分情况下都是正常的。你可以把缺图片的漫画链接发我看看。

      • 匿名
        vce1
        1 月前
        2024-4-18 20:20:56

        谢谢!!明白了,应该是我的梯子问题,我刚换了节点现在就只下压缩包了,之前的节点都是下载的图片,容易漏,我是批量下载韩漫。

        • 博主
          匿名
          1 月前
          2024-4-18 22:50:22

          OKOK,能用就行~( ๑´•ω•) “(ㆆᴗㆆ)

  3. xy
    1 月前
    2024-4-27 0:23:11

    不知道为啥没有ALL这个选项

    • 博主
      xy
      1 月前
      2024-4-27 10:01:38

      因为绅士漫画的搜索结果没有页码,没办法确定尾页,所以这个功能被移除了。

      • xy
        vce1
        1 月前
        2024-4-27 10:42:37

        刚才翻了一下,左下角有页码,但是没有直接显示最大页码,最多同时显示10个页码。https://www.hm15.lol/search/index.php?q=tolove&m=&syn=yes&f=_all&s=create_time_DESC&p=20

        • 博主
          xy
          1 月前
          2024-4-27 11:42:29

          对,搜索结果超过10页就没办法知道总共有多少页,也就没办法全部下载了

          • xy
            vce1
            3 周前
            2024-5-04 20:05:20

            如果网速不好,容易下载一堆失败的,建议添加断点续传功能或者给一个复制所有下载链接的方法,可以批量复制到网盘下载

          • 博主
            xy
            3 周前
            2024-5-04 21:48:15

            很不错的主意,下载的方式的确有点简陋了,之后打算重写一下。这个月比较忙,估计要下个月了~|´・ω・)ノ

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
Source: https://t.me/addstickers/ShizukuLulu_Vtuber
Source: https://t.me/addstickers/Necora_Nyaru
颜文字
Emoji
小恐龙
花!
雫るる
nyaru
上一篇
下一篇