解析HTML的需求很常见,图中为常见的解析解基本概况,可以做简单比较和选择参考。不分排名,按实现语言分组。

有人问如何选择一个最适合以下需求的HTML JAVA解析器:

  1. 成熟的产品,bug相比比较少
  2. 仍在维护中的产品
  3. 快速开发,使用简单高效

有人推荐结论为:

  1. 如果你想使用一个基于XML的工具来遍历HTML,那么推荐: JTidy.
  2. 如果你想做HTML单元测试,那么推荐: HtmlUnit
  3. 如果你想从HTML中抓取内容,那么推荐: Jsoup

快速链接:

HTML Tidy
Gumbo
Hubbub
libxml2 HTMLparser
Html Agility Pack
HtmlCleaner
Jaunt API
Jericho HTML Parser
jsoup
JTidy
NekoHTML
TagSoup
Validator.nu HTML Parser
jsdom
HTML::Parser
htmlPurifier
PHP Simple HTML DOM Parser
 
html5lib

发表评论