复制and粘贴?Python脚本1分钟解决了我1小时的事!

阅读: 评论:0

复制and粘贴?Python脚本1分钟解决了我1小时的事!

复制and粘贴?Python脚本1分钟解决了我1小时的事!

1.提出需求

这是群里面一位朋友提出来的一个问题。具体需求是怎么样的呢?有这样一个word文档,里面有一个hin长hin长的json字符串格式的数据。朋友想做的就是提取word文档里json数据中的content和option后面的内容。

2.原始数据预览

仔细观察下面的数据。一眼看过去是不是一团糟的样子?这只是其中一部分,如果让你一个个复制粘贴,你受得了吗?如果有更多个word,你是否也准备一个个复制、粘贴呢?

3.解决问题

我的思路是这样的:首先是读取word文档里面的内容,虽然这里只提供一个word文档,你可以直接复制出来,假如有多个这样的word文档呢?接着,利用json.loads()将json字符串转换为json字典格式数据。最后我们利用python字典的特性获取我们想要的信息。

from docx import Document
import re
import pandas as pd
import json 
# 1.读取word文档,获取word文档里面的内容
x = ""
doc = Document(r"G:1Pycharm_Project3572(1).docx")
for paragraph in doc.paragraphs:text = # 读取word里面的内容有一个特点:每一页会返回一个字符串,共3页,一共返回了3个单独的字符串。# 但是这是一个完整的json字符串,我们不能将他分开呀。因此,使用字符串拼接,将其合并起来。x += text# 2.使用json.loads()将json字符串 转换为 字典格式的数据。
r = json.loads(x)# 3.对于字典,我们可以利用键,获取里面的值。
x = []
z = []
for i in r["data"]["ques"]:x.append(i["content"])y = ""for j in i["options"]:y += j["answer"] + " " + j["option"]y += ";"z.append(y)# 4.将获取到的数据,保存成一个DataFrame格式的数据,并导出为excel表格。
data = {"content":x,"options":z}
df = pd.DataFrame(data)
display(df)
df.to_excel("text.xlsx")

结果如下:

如果想学习文中设计的python办公自动化,我花了整整一周时间,给你准备了97页的学习资料,详细见下文:

  
  
  

   

关注微信公众号『数据分析与统计学之美』,后台回复“高清图谱”自动获取8张高清知识图谱。

本文发布于:2024-01-29 13:27:52,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170650607315602.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:脚本   解决了   小时   Python
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23