+-

我正在寻找一种在保持其基本结构的同时将 HTML格式的文本转换为纯文本的方法,并且可能会稍作调整,因此:
<p>This is a paragraph.</p>
<ol>
<li>List item 1.</li>
<li>List item 2.</li>
</ol>
<p>This is an <a href="www.google.com">anchor</a>.</p>
成为:
This is a paragraph.
List item 1. List item 2.This is an anchor (www.google.com).
关于如何有效地实现大量HTML格式模板的任何想法?
>请注意,结构外部最重要的部分是保持锚点.
最佳答案
使用基于文本的浏览器(例如lynx),并将其输出到stdout.我不确定它是否适合您的所有调整需求,但这是一个非常快速简便的开始
lynx -crawl -dump https://stackoverflow.com/questions/13279364/convert-html-to-plain-text-and-keep-basic-formatting
(实际上,我希望您的清单是
1. List item 1.
2. List item 2.
因为它是有序列表)
编辑:实际上更多地研究了您的实际用例,它可以完美地工作:
> echo '<p>This is a paragraph.</p>
<ol>
<li>List item 1.</li>
<li>List item 2.</li>
</ol>
<p>This is an <a href="http://www.google.com">anchor</a>.</p>' | lynx -stdin -dump
变成
This is a paragraph.
1. List item 1.
2. List item 2.
This is an [1]anchor.
References
1. http://www.google.com/
点击查看更多相关文章
转载注明原文:python-将HTML转换为纯文本并保持基本格式 - 乐贴网