正在加载
请稍等

菜单

Home 码农菜园 数据分析 python中强大的txt生成工具:aTXT
Home 码农菜园 数据分析 python中强大的txt生成工具:aTXT

python中强大的txt生成工具:aTXT

数据分析 by   阅读量 5,371

最近需要在mac上处理doc文件。这就很蛋疼了,因为在windows上可以用python的win32com方便地处理,而在mac上只有用于处理docx的python-docx,而且也没找到mac上能用的批量doc2docx转换器。

然而我还是不想用实验室的windows台式机进行处理,所以就用了python中最原始的读文件方法open,打算将原始内容全部读出来之后用BeautifulSoup再解析,但是又出了编码问题,因为doc数据是从别人的windows系统上生成的,而且GBK、GB2312、GB18030等中文字符集都试过了,依旧报编码错误,于是不想再折腾。

后来找到了python中的aTXT,这是一个仅用于命令行的包,可以实现多种文件到txt的转换,于是我就尝试了一下,效果尚可。

1 安装

使用pip安装即可。

2 使用

在命令行中用atxt或者2txt即可使用,可以查看下帮助。

最后我使用的命令是:

–path指定要转换的路径,这里是当前路径;-d指定最大遍历深度,这里是2层;–to指定输出路径,这里是输出到当前路径下的result文件夹。通过以上命令,很好地完成了我需要解决的doc转txt任务,唯一的遗憾是,txt中的文本保留了doc中的排版,即按照A4纸的宽度添加了很多本没有的换行,说明aTXT的转换过程可能是基于页面或行的,而不是基于字符串的。

16 2016-08

1条评论

  1. 匿名说道:

    有看到思路是模拟打开另存为docx,再进一步处理的

发表评论