Pyspark读取parquet数据过程的示例分析-创新互联

这篇文章主要介绍了Pyspark读取parquet数据过程的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

成都创新互联公司专注于常山企业网站建设,响应式网站建设,商城建设。常山网站建设公司,为常山等地区提供建站服务。全流程定制网站设计，专业设计，全程项目跟踪，成都创新互联公司专业和态度为您提供的服务

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号