猿问

使用Python从HTML文件中提取文本

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中,我基本上希望得到相同的输出。

我想要比使用在格式错误的HTML上可能失败的正则表达式更健壮的东西。我见过很多人推荐美汤,但我在使用它时遇到了一些问题。首先,它获取不需要的文本,比如JavaScript源代码。此外,它没有解释HTML实体。例如,我希望在HTML源代码中将文本中的撇号转换为撇号,就像我将浏览器内容粘贴到记事本中一样。

更新 html2text看上去很有希望。它正确地处理HTML实体,并忽略JavaScript。但是,它并不能准确地生成纯文本;它会生成标记,然后必须将其转换为纯文本。它没有示例或文档,但是代码看起来很干净。


相关问题:


30秒到达战场
浏览 4438回答 3
3回答

长风秋雁

html 2文本是一个Python程序,在这方面做得很好。
随时随地看视频慕课网APP
我要回答