当前位置:首页 > 数码 > JSON-TSV-Excel和Pickle文件序列化-CSV-Python文件操作指南 (json提取器用法)

JSON-TSV-Excel和Pickle文件序列化-CSV-Python文件操作指南 (json提取器用法)

admin7个月前 (04-28)数码39

一、JSON 文件操作

1.1 什么是 JSON?

JSON(JavaScript 对象表示法)是一种轻量级数据交换格式,通常用于存储和交换数据。它采用文本格式,易于阅读和编写,同时易于解析和生成。JSON 数据由键值对组成,类似于 Python 中的字典。

1.2 读取 JSON 文件

Python 提供了内置的 json 模块,用于读取和写入 JSON 文件。下面是一个读取 JSON 文件的示例:

    
import json

读取 JSON 文件
with open('data.json', 'r') as file:
    data = json.load(file)
    
  

1.3 写入 JSON 文件

要将数据写入 JSON 文件,可以使用 json.dump() 方法。下面是一个将数据写入 JSON 文件的示例:

    
import json

 将数据写入 JSON 文件
json_data = {'name': 'John', 'age': 30}
with open('output.json', 'w') as file:
    json.dump(json_data, file)
    
  

二、CSV 和 TSV 文件操作

2.1 什么是 CSV 和 TSV?

CSV(逗号分隔值)和 TSV(制表符分隔值)是常用的纯文本文件格式,用于存储表格数据。CSV 文件使用逗号作为字段分隔符,而 TSV 文件使用制表符。这两种格式在数据导出和导入中很常见。

2.2 读取 CSV 和 TSV 文件

Python 的 csv 模块允许读取和写入 CSV 和 TSV 文件。下面是一个读取 CSV 文件的示例:

    
import csv

 读取 CSV 文件
with open('data.csv', 'r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)
    
  

2.3 写入 CSV 和 TSV 文件

要将数据写入 CSV 文件,可以使用 csv.writer。下面是一个将数据写入 CSV 文件的示例:

    
import csv

 将数据写入 CSV 文件
data = [['John', 30], ['Jane', 25]]
with open('output.csv', 'w') as file:
    writer = csv.writer(file)
    writer.writerows(data)
    
  

三、Excel 文件操作

3.1 什么是 Excel 文件?

Excel 是一款流行的电子表格应用程序,用于处理和分析数据。在 Python 中,可以使用第三方库 openpyxl 来读取和写入 Excel 文件。

3.2 读取 Excel 文件

使用 openpyxl 库读取 Excel 文件的示例:

    Python文件操作指南
import openpyxl

 读取 Excel 文件
workbook = openpyxl.load_workbook('data.xlsx')
sheet = workbook.active
for row in sheet.iter_rows():
    for cell in row:
        print(cell.value)
    
  

3.3 写入 Excel 文件

要将数据写入 Excel 文件,同样可以使用 openpyxl 库。下面是一个将数据写入 Excel 文件的示例:

    
import openpyxl

 将数据写入 Excel 文件
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet['A1'] = 'John'
sheet['B1'] = 30
workbook.save('output.xlsx')
    
  

四、Pickle 文件序列化

4.1 什么是 Pickle?

Pickle 是 Python 的标准模块,用于将 Python对象序列化为二进制数据。它允许将对象保存到文件中,以便稍后恢复。Pickle 对于存储复杂的数据结构非常有用。

4.2 序列化对象

使用 Pickle 将对象序列化到文件的示例:

    
import pickle

 序列化对象
data = {'name': 'John', 'age': 30}
with open('data.pkl', 'wb') as file:
    pickle.dump(data, file)
    
  

4.3 反序列化对象

要从 Pickle 文件加载对象,可以使用 pickle.load() 方法。反序列化对象的示例:

    
import pickle

 从文件加载对象
with open('data.pkl', 'rb') as file:
    loaded_data = pickle.load(file)

 使用加载的数据
print(loaded_data)
    
  

总结

文件操作是 Python 编程中的重要部分,涉及处理各种文件格式,包括 JSON、CSV、TSV、Excel 和 Pickle。本文介绍了如何读取和写入这些文件格式,以及如何执行文件序列化和反序列化。这些技能对于处理数据、配置文件、日志等任务非常重要,因此在 Python 编程中是不可或缺的。


如何用python排序大文件的csv文件

使用数据助手好了,数据助手就是基于Python实现的,超大EXCEL、CSV、TXT数据文件排序都很简单、方便。

如何利用 Python 读取数据科学中常见几种文件

前言如果你是数据行业的一份子,那么你肯定会知道和不同的数据类型打交道是件多么麻烦的事。 不同数据格式、不同压缩算法、不同系统下的不同解析方法——很快就会让你感到抓狂!噢!我还没提那些非结构化数据和半结构化数据呢。 对于所有数据科学家和数据工程师来说,和不同的格式打交道都乏味透顶!但现实情况是,人们很少能得到整齐的列表数据。 因此,熟悉不同的文件格式、了解处理它们时会遇到的困难以及处理某类数据时的最佳/最高效的方法,对于任何一个数据科学家(或者数据工程师)而言都必不可少。 在本篇文章中,你会了解到数据科学家或数据工程师必须知道的几种常规格式。 我会先向你介绍数据行业里常用的几种不同的文件格式。 随后,我会向大家介绍如何在 Python 里读取这些文件格式。 PS:在后文中提到的数据科学家,同样也包括数据工程师以及所有的数据科学专家。 目录文件格式是什么。 数据科学家应当了解各种不同文件格式的原因。 不同的文件格式以及从 Python 中读取这些文件的方法。 1. 逗号分隔值2. XLSX3. ZIP4. 纯文本(txt)5. JSON6. XML7. HTML8. 图像9. 分层数据格式10. PDF11. DOCX12. MP313. MP41. 文件格式是什么。 文件格式是计算机为了存储信息而使用的对信息的特殊编码方式。 首先,文件格式代表着文件的类型,如二进制文件或者 ASCII 文件等。 其次,它体现了信息组织的方式。 比如,逗号分隔值(CSV)文件格式用纯文本来储存列表数据。 为了识别一个文件的格式,你通常会去看这个文件的扩展名。 比如,一个以“CSV”格式保存的名为“Data”的文件下方的文件名会显示为“”。 看到“”这个扩展名,我们就会清楚地知道这是一个“CSV”文件,并且还可以知道其中的数据是以表格的形式储存的。 2. 数据科学家应当了解各种不同文件格式的原因。 通常,你碰到的文件类型取决于你当下构造的应用。 举个例子,在一个图像处理系统中,你需要把图像作为输入和输出。 所以,你所见到的文件大都是jpeg、gif 或者 png 格式的。 作为一个数据科学家,你需要了解各种文件格式的底层结构以及相应的优势和劣势。 只有了解了数据的底层结构,你才能够进一步去探索它,或者决定如何来储存相关的数据。 选择一个最理想的文件格式来储存数据能够提升你的模型在处理数据时的性能。 现在,让我们讨论一下下方这些文件格式以及如何在 Python 中读取它们:逗号分隔值(CSV)XLSXZIP纯文本(txt)JSONXMLHTML图像分层数据格式PDFDOCXMP3MP43. 不同的文件格式以及从 Python 中读取这些文件的方法。 3.1 逗号分隔值逗号分隔值文件格式属于电子表格文件格式的一种。 什么是电子表格文件格式?在电子表格文件格式中,数据被储存在单元格里。 每个单元格都处于特定的行和列中。 电子表格文件中的列拥有不同的类型。 比如说,它可以是字符串型的、日期型的或者整数型的。 最常用的电子表格文件格式包括:逗号分隔值(CSV)、Microsoft Excel 电子表格(xls)以及 Microsoft Excel Open XML 电子表格(xlsx)。 CSV 文件中的每一行都代表一份观察报告,或者也可以说是一条记录。 每一个记录都包含一个或者更多由逗号分隔的字段。 有时你看你会遇到用制表符而非逗号来分隔字段的文件。 这种文件格式被称为 TSV(制表符分隔值)文件格式。 下面是一个用 Notepad 打开的 CSV 文件。 在Python 中从 CSV 文件里读取数据现在让我们看看如何在 Python 中读取一个 CSV 文件。 你可以用 Python 中的“pandas”库来加载数据。 import pandas as pddf = _csv(“/home/Loan_Prediction/”)上方的代码将会把 文件加载进 DataFrame df 中。 3.2 XLSX文件XLSX 是 Microsoft Excel Open XML 的文件格式,它同样可以归入电子表格文件格式这一类中。 它是由 Microsoft Excel 开发的一种基于 XML 文件格式。 Microsoft Office 2007 最先采用 XLSX 格式来储存数据。 在XLSX 中,数据被放在工作表的单元格和列当中。 每个 XLSX 文件可能包含一个或者更多工作表,所以一个工作簿中可能会包含多个工作表。 下面是一个在 Microsoft Excel 中打开的“xlsx”文件。 上图显示的这个文件里包含多个工作表,这些工作表的名称分别为 Customers、Employees、Invoice 和 Order。 图片中显示的是其中一个工作表——“Invoice”——中的数据。 从XLSX 文件读取数据让我们一起来加载一下来自 XLSX 文件的数据并且定义一下相关工作表的名称。 此时,你可以用 Python 中的“pandas”库来加载这些数据。 import pandas as pddf = _excel(“/home/Loan_Prediction/”,sheetname = “Invoice”)上方的代码将会把来自“”文件的工作表“Invoice”加载进 DataFrame df 中。 3.3 ZIP 文件ZIP 格式是一种归档文件格式。 什么是归档文件格式?在归档文件格式中,你可以创建一个包含多个文件和元数据的文件。 归档文件格式通常用于将多个数据文件放入一个文件中的过程。 这么做是为了方便对这些文件进行压缩从而减少储存它们所需的存储空间。 有很多种常用的电脑数据归档格式可以创建归档文件。 Zip、RAR 和 Tar 是最常用的3种用于压缩数据的归档文件格式。 因此,ZIP 文件格式是一种无损压缩格式,这意味着如果你用 ZIP 格式压缩了多个文件,那么在解压缩之后你能够完全恢复这些数据。 ZIP 文件格式使用多种压缩算法来压缩文件。 你可以通过 这个扩展名轻易地识别出一个 ZIP 文件。 在Python 中读取 文件你可以通过导入“zipfile”包来读取 zip 文件。 下方的代码可以实现读取“”中的“”文件。 import zipfile在这里我已经讨论了其中一种最常用的归档格式,也已经讨论了如何在 python 中打开这种归档格式。 我不会再对其他的归档格式进行展开讨论。 如果你想了解不同类型的归档格式并且想对其做出比较

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: Python

“JSON-TSV-Excel和Pickle文件序列化-CSV-Python文件操作指南 (json提取器用法)” 的相关文章

b-b-个入门建议!-Python-技术书籍推荐-附赠-11 (b+b+b等于什么)

b-b-个入门建议!-Python-技术书籍推荐-附赠-11 (b+b+b等于什么)

近年来,Python 持续火爆,越来越多的人开始入门学习 Python。RealPython 作为最受好评的 Python 学习网站,拥有超百万的浏览量,以下是 RealPython 的开发者给...

处置日常义务的终极工具!-Python-文件读写实战 (处置行为是什么意思)

处置日常义务的终极工具!-Python-文件读写实战 (处置行为是什么意思)

/target=_blankclass=infotextkey>Python文件的读写操作时,有很多须要思考的细节,这包含文件关上形式、读取和写入数据的方法、意外处置等。 在本文中,...

Python中的Random模块-摸索随机性的神奇环球 (python编程)

Python中的Random模块-摸索随机性的神奇环球 (python编程)

随机性在计算机编程和数据迷信中表演着至关关键的角色。/target=_blankclass=infotextkey>Python中的random模块提供了丰盛的工具和函数,协助咱们生成随机数...

生成-UUID-操作-Python-齐全指南-格局和经常出现疑问 (生成uuid java)

生成-UUID-操作-Python-齐全指南-格局和经常出现疑问 (生成uuid java)

UUID(UniversallyUniqueIdentifier,通用惟一标识符)是一种全局惟一标识符生成形式,用于创立举世无双的标识符。/target=_blankclass=infotextk...

五分钟内完成个性化-GUI-计算器搭建-Python (五分钟内完成的动物实验)

五分钟内完成个性化-GUI-计算器搭建-Python (五分钟内完成的动物实验)

这个简单的教程将指导你如何在 Python 中使用 Tkinter 轻松制作一个全功能的 GUI 计算器。 7 8...

网络-摸索Python中的必备模块-解锁数据处置-迷信计算等畛域的弱小工具-自动化 (网络mod)

网络-摸索Python中的必备模块-解锁数据处置-迷信计算等畛域的弱小工具-自动化 (网络mod)

/target=_blankclass=infotextkey>Python罕用的模块十分多,关键分为内置模块和第三方模块两大类,且不同模块运行场景不同又可以分为文本类、数据结构类、数学运算...

Python-每个程序员都应该知道的-个-魔术方法-11 (python怎样打开)

Python-每个程序员都应该知道的-个-魔术方法-11 (python怎样打开)

译者|布加迪 审校|重楼 在/target=_blankclass=infotextkey>Python中,魔术方法(MagicMethod)可以协助您模拟Python类中内置函...

一步一步指南-零老本用Python代替Adobe从PDF提取数据 (一步步指导)

一步一步指南-零老本用Python代替Adobe从PDF提取数据 (一步步指导)

一、简介 PDF文件是官网报告、发票和数据表的通用言语,但是从PDF文件中提取表格数据或者是一项应战。虽然AdobeAcrobat等工具提供了处置打算,但它们并不总是易于失掉或可智能化运转,...