Nanachi 发表于 2020-1-1 19:44

[转需]GNE v0.1 正式发布: 4 行代码开发新闻网站通用爬虫

GNE ( GeneralNewsExtractor )是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率。

https://www.v2ex.com/t/634209#reply0

我的头很疼 发表于 2020-1-1 19:50

马一下

洪易 发表于 2020-1-1 20:08

码一个

—— 来自 HUAWEI BKL-AL20, Android 9上的 S1Next-鹅版 v2.2.0.1

Fury 发表于 2020-1-1 20:20

馬一下
页: [1]
查看完整版本: [转需]GNE v0.1 正式发布: 4 行代码开发新闻网站通用爬虫