网页正文自动抽取算法

文本正文抽取算法

《基于行块分布函数的通用网页正文抽取算法》 ,代码实现于https://code.google.com/p/cx-extractor/

Arclab Readability: https://github.com/karussell/snacktory

"Boilerplate Detection using Shallow Text Features"

build:   __BUILD_VERSION__