Matlab使用 MapReduce 进行简单的数据子集化
迪丽瓦拉
2024-06-02 13:42:38
0

提取大型数据集的子集。

子集化或执行查询有两个方面。一种是在数据集中选择变量(列)的子集。另一个是选择观察的子集或行。

在此示例中,变量的选择发生在数据存储的定义中。(地图功能可以执行进一步的变量子选择,但这不在本例的范围内)。在此示例中,映射函数的作用是执行观测值的选择。reduce 函数的作用是连接每次调用 map 函数提取的子集记录。这种方法假设数据集可以在 Map 阶段后装入内存。

准备数据


使用airlinesmall.csv数据集创建数据存储。这个 12 兆字节的数据集包含几家航空公司的 29 列航班信息,包括到达和离开时间。此示例使用数据中可用的 29 个变量中的 15 个变量。

ds = tabularTextDatastore('airlinesmall.csv',

相关内容