python读写word、excel、csv、json、hive orc文件

阅读：评论：0

python读写word文档

（include wps）
将word文档转换成txt文档

def doc2txt():'''将doc文档转换成txt文档:return:'''from win32com import clientINPUT_DIR = r'C:UserspiDesktopNew folder'OUTPUT_DIR = r'C:UserspiDesktoptxts'word = client.Dispatch('Word.Application')for doc_name in listdir(INPUT_DIR):print(doc_name)doc_full_name = path.join(INPUT_DIR, doc_name)doc = word.Documents.Open(doc_full_name)doc.SaveAs(path.join(OUTPUT_DIR, doc_name.split('.')[0]), 4)doc.Close()word.Quit()

wdFormatDocument                    =  0
wdFormatDocument97                  =  0
wdFormatDocumentDefault             = 16
wdFormatDOSText                     =  4
wdFormatDOSTextLineBreaks           =  5
wdFormatEncodedText                 =  7
wdFormatFilteredHTML                = 10
wdFormatFlatXML                     = 19
wdFormatFlatXMLMacroEnabled         = 20
wdFormatFlatXMLTemplate             = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML                        =  8
wdFormatPDF                         = 17
wdFormatRTF                         =  6
wdFormatTemplate                    =  1
wdFormatTemplate97                  =  1
wdFormatText                        =  2
wdFormatTextLineBreaks              =  3
wdFormatUnicodeText                 =  7
wdFormatWebArchive                  =  9
wdFormatXML                         = 11
wdFormatXMLDocument                 = 12
wdFormatXMLDocumentMacroEnabled     = 13
wdFormatXMLTemplate                 = 14
wdFormatXMLTemplateMacroEnabled     = 15
wdFormatXPS                         = 18

照着字面意思应该能对应到相应的文件格式，如果你是office2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API，比如PHP.

[python模块:win32com用法详解]
[python读取word文档]
[Python-docx：读写word文档的Python库] 皮皮blog

python读写excel文档

实例

将H列如下修改一下

当然这个可以拷贝到notepad++中，使用替换(d+*d+).*为1就ok了

Python中读取微软excel的模块

openpyxl
The recommended package for reading and writing Excel 2010 files (ie: .xlsx)
xlrd
This package is for reading data and formatting information from older Excel files (ie: .xls)

安装

pip install openpyxl

基本使用代码实现

def openpyxl_excel(FILENAME=r'C:UserspiDesktop1.xlsx'):'''只能操作office 2010+版本文件'''import openpyxl as xlwb = xl.load_workbook(FILENAME)  # 读取excel文件ws = wb.get_sheet_by__sheet_names()[0])  # 选择某个sheetpro_spec = [i[0].value for i in ws['H1:H' + str(ws.max_row)]]  # 选择某一列的所有数据#  对选中的数据进行操作pro_spec = [item[0:item.rfind('*')] if item is not None and '*') == 2 else item for item in pro_spec]for index, i in enumerate(ws['H1:H' + str(ws.max_row)]):i[0].value = pro_spec[index]  # 将数据修改到excel文件单元格中wb.save(FILENAME)  # 保存文件修改

Python XLRD Error : formula/tFunc unknown FuncID:186
找到formula.py文件（D:python3.4.2Libsite-packagesxlrdformula.py）186行左右，在文字184和文字189中间加插入一行
186: ('HACKED', 1, 1, 0x02, 1, 'V', 'V')
[Python XLRD Error : formula/tFunc unknown FuncID:186]

[官网主页homepage]

[python操作excel之xlrd]

微软官方Excel管理Python模块：Pyvot

安装方式

前提是预先安装有Python for Windows extensions (pywin32)和Office 2010。

安装命令是：pip install pyvot

微软官方Excel管理Python模块

导入方式

import xl

把Python内容导入到Excel中

>>> xl.Workbook() #　创建空的Excel表单，状态为active

>>> a = range(1,10) # 　一个Python列表

>>> a[1, 2, 3, 4, 5, 6, 7, 8, 9]

>>> xl.view(a) # 将Python列表展示在Excel中

Python列表被拷贝进了Excel。

Excel内容转成Python对象

从Excel中获取数据需要xl.Range对象，这个对象代表要操作的单元格。xl.view函数返回选择的存储数据的单元格的范围。

>>> r = xl.view(range(1,10))

>>> r<ColumnVector range object for $A$2:$A$1048576 (visible only)

>>>> r.get()[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0]

>>> sum(r) # ranges are iterable45.0

需要注意的是，view函数实际上选中了整个A列，但是假设我们只需要里面有用的数据。

现在我们可以修改Excel中的数据，然后重新获取数据回来。例如我们手动在Excel中删除一些行，把Excel中的数据改为这样：

>>> r.get() # get updated values[1.0, 20.0, 8.0, 9.0]

当前的选择范围仍旧是一个Range对象，这允许我们在Excel中筛选我们感兴趣的数据。

>>> xl.selected_range().get()8.0

使用Range对象的注意事项：

它排除了表头行（get("ColumnName").get()不包含"ColumnName"）

它只从被使用了的范围里面进行选择。相对应的，原生的Excel COM API有一个非常令人沮丧的问题，就是如果你选择一列，它返回一百万个空的单元格给你。

Workbook.Range方法相比之下只处理A1这种风格的引用，和命名范围。

代码实现

FILENAME = r'C:UserspiDesktop5-3入库.XlS'def xl_excel():'''微软官方xl模块'''import xlbook = xl.Workbook(FILENAME) # 打开文件pro_spec = ("H:H").get() # 获得某一列数据# 对数据进行操作pro_spec = [item[0:item.rfind('*')] if item is not None and '*') == 2 else item for item in pro_spec][1:]xl.view(pro_spec, to&#("I:I")) # 将数据写入对应列
[微软官方Excel管理Python模块]

[Getting Started with Pyvot]

不过lz推荐用pandas处理excel数据，毕竟datafram数据结构就和excel表一样。
皮皮blog

python读写csv文档

python读取csv文件

with open('stock.tsv') as f:
    f_tsv = ader(f, delimiter='t')
    for row in f_tsv:
        # Process row

python写csv文件

with open(csv_filename, 'w', encoding='utf-8') as csv_file:
csv_w = csv.writer(csv_file)
        for line_no in line_no_list:
            csv_w.writerow(predict_label_list[label_start_no:label_start_no + line_no])

出现的问题

Python中通过csv的writerow输出的内容有多余的空行
也就是csv.writer().writerow()保存的csv文件，打开时每行后都多一行空行
解决1：
with open(csv_filename, 'w', encoding='utf-8', newline='') as csv_file:
csv_w = csv.writer(csv_file, delimiter=',', lineterminator='n')
csv方言参数中有一个 lineterminator,他的作用是定义csv结束一行的符号, 默认值是 'rn',如果有需要，也可以尝试修改ister_dialect(lineterminator='n',)
解决2：
在open()内增加一个参数newline='' 即可，但是在windows下，换行还是两个rn而不是只有n。
对newline参数的解释：参数newline是用来控制文本模式之下，一行的结束字符。可以是None，’’，n，r，rn等。当在读取模式下，如果新行符为None，那么就作为通用换行符模式工作，意思就是说当遇到n，r或rn都可以作为换行标识，并且统一转换为n作为文本输入的换行符。当设置为空’’时，也是通用换行符模式工作，但不作转换为n，输入什么样的，就保持原样全输入。当设置为其它相应字符时，就会判断到相应的字符作为换行符，并保持原样输入到文本。当在输出模式时，如果新行符为None，那么所有输出文本都是采用n作为换行符。如果设置为’’或者n时，不作任何的替换动作。如果是其它字符，会在字符后面添加n作为换行符。

解决3：
Python中的csv的writer，打开文件的时候，要通过binary模式去打开，即带b的，比如wb，ab+等
而不能通过文本模式，即不带b的方式，w,w+,a+等，否则，会导致使用writerow写内容到csv中时，产生对于的CR，导致多余的空行。

python读写json文档

[python对象与json ]

python读写hive orc文档

pip install pyorc

示例：# hdfs上读取所有orc文件并转为文本文件

import os import pyorcorc_dir = "/data/train_data_d/pt=2013-10-08" processed_file_path = "/data/train_data_d.csv"with open(processed_file_path, 'w', encoding='utf-8') as fw:cnt = 0for file_name in os.listdir(orc_dir):if not dswith('txt'):orc_file = os.path.join(orc_dir, file_name)print(orc_file)with open(orc_file, 'rb') as fr:reader = pyorc.Reader(fr)# print(str(reader.schema))# struct < id: bigint, name: string, ... >for row_tuple ad():row_tuple = (str(i) for i in row_tuple)fw.write('t'.join(row_tuple) + 'n')cnt += 1print(f"Process total {cnt} rows !")

from:python读写word、excel、csv、json文件_python word excel读写-CSDN博客

ref:数据编码和处理

本文发布于:2024-02-02 06:20:42，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170682604441942.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：使用Gensim库来实现Word2Vec

下一篇：数据挖掘实战

标签：文件 excel word python csv

留言与评论（共有 0 条评论）

验证码：

推荐文章

04-08windows设置断电重启开机后自动输入锁屏密码登录

04-08Windows系统设置开机默认开启数字小键盘

04-08Windows11 开机自动同步时间（开机时间不更新问题）

04-08windows配置开机自启动软件或脚本

04-08【Redis】Windows设置Redis为开机自启动

04-08windows11系统打开开机启动文件夹,设置开机项

04-08VMware虚拟机下如何安装一个64位的win7系统

04-08路由器自动ip服务器无响应,路由器无法自动分配IP地址原因及解决方法

04-08锐捷防火墙命令行_锐捷天蝎电竞路由器 X60 Pro评测_手把手教漏洞详细教程

04-08Win10系统192.168.1.1 路由器设置打不开该怎么办？

排行榜

cc1
cc1

133℃dictset

137℃ehcache memcache redis缓存特性区别

695℃矩阵的最小路径和算法

149℃绘制谢尔平斯基三角形

127℃数据结构与算法（python）：插入排序和谢尔排序算法及分析

134℃部分相干高斯谢尔光束杨氏实验中的光强分布

128℃算法分析：谢尔排序（缩减增量排序）

141℃【白话排序算法】希尔/谢尔排序法

140℃内排序（四）——谢尔(Shell)排序

热门标签

系统

数据

使用

服务器

软件

方法

进行

函数

项目

文件

Windows

代码

电脑

企业

需要

计算机

语言

用户

程序

python

数据库

java

教程

设计

工作

编程语言

技术

有哪些

linux

开发

报告

暂无

内容

网络

操作

功能

分析

命令

网站

字符串