高斯数据库 (gaussDB) - 使用 GDS 从远端服务器导入数据 (1)

教程指引

本教程旨在演示使用 GDS(Gauss Data Service)工具将远端服务器上的数据导入
GaussDB 200 中的办法,帮助您学习如何通过 GDS 进行数据导入的方法。
在本教程中,您将:

  • 生成本教程需要使用的 CSV 格式的数据源文件。
  • 将数据源文件上传到数据服务器。
  • 创建外表,用于对接 GDS 和 GaussDB 200,及将数据服务器上的数据引流到
    GaussDB 200 集群中。
  • 启动 GaussDB 200 并创建数据库表后,将数据导入到表中。
  • 根据错误表中的提示诊断加载错误并更正这些错误。

先决条件

已准备好用于存放源数据的服务器,且此服务器可以与 GaussDB 200 正常通信。

步骤 1 准备源数据

GaussDB 200 支持将存在远端服务器上的 TEXT、CSV 和 FIXED 格式的数据导入到集群
中。本教程以 CSV 格式的数据为例进行演示。其他两种格式,方法相同,只在外表的
相关参数项设置上有差异

准备数据源文件

为了演示如何导入多个文件,此教程使用如下 3 个 CSV 格式的数据文件作为示例进行讲
解。在实际场景中,数据源文件通常是从其他数据库导出的。此教程出于操作的便利
性,手动生成对应的 CSV 格式数据源文件。

  • 数据文件“product_info0.csv”
    示例数据如下所示:
100,XHDK-A,2017-09-01,A,2017 Shirt Women,red,M,328,2017-09-04,715,good!

205,KDKE-B,2017-09-01,A,2017 T-shirt Women,pink,L,584,2017-09-05,40,very good!
300,JODL-X,2017-09-01,A,2017 T-shirt men,red,XL,15,2017-09-03,502,Bad.
310,QQPX-R,2017-09-02,B,2017 jacket women,red,L,411,2017-09-05,436,It's nice.
150,ABEF-C,2017-09-03,B,2017 Jeans Women,blue,M,123,2017-09-06,120,good.
  • 数据文件“product_info1.csv”
    示例数据如下所示:
200,BCQP-E,2017-09-04,B,2017 casual pants men,black,L,997,2017-09-10,301,good quality.

250,EABE-D,2017-09-10,A,2017 dress women,black,S,841,2017-09-15,299,This dress fits well.
108,CDXK-F,2017-09-11,A,2017 dress women,red,M,85,2017-09-14,22,It's really amazing to buy.
450,MMCE-H,2017-09-11,A,2017 jacket women,white,M,114,2017-09-14,22,very good.
260,OCDA-G,2017-09-12,B,2017 woolen coat women,red,L,2004,2017-09-15,826,Very comfortable.
  • 数据文件“product_info2.csv”
    示例数据如下所示:
980,"ZKDS-J",2017-09-13,"B","2017 Women's Cotton Clothing","red","M",112,,,

98,"FKQB-I",2017-09-15,"B","2017 new shoes men","red","M",4345,2017-09-18,5473
50,"DMQY-K",2017-09-21,"A","2017 pants men","red","37",28,2017-09-25,58,"good","good","good"
80,"GKLW-l",2017-09-22,"A","2017 Jeans Men","red","39",58,2017-09-25,72,"Very comfortable."
30,"HWEC-L",2017-09-23,"A","2017 shoes women","red","M",403,2017-09-26,607,"good!"
40,"IQPD-M",2017-09-24,"B","2017 new pants Women","red","M",35,2017-09-27,52,"very good."
50,"LPEC-N",2017-09-25,"B","2017 dress Women","red","M",29,2017-09-28,47,"not good at all."
60,"NQAB-O",2017-09-26,"B","2017 jacket women","red","S",69,2017-09-29,70,"It's beautiful."
70,"HWNB-P",2017-09-27,"B","2017 jacket women","red","L",30,2017-09-30,55,"I like it so much"
80,"JKHU-Q",2017-09-29,"C","2017 T-shirt","red","M",90,2017-10-02,82,"very good."

CSV(Comma Separated Values),逗号分隔值。.csv 类似于.txt、.doc 等,是一种文件
格式。也可理解成是一种特殊格式的纯文本文件。文件内容由记录组成,每条记录被
逗号或制表符(Tab)分隔为字段,且每条记录都有同样的字段序列。在 Windows 系统
环境下.csv 文件打开方式有多种,如记事本、Excel、Notepad++ 等。

以下是 Windows 下生成.csv 文件的办法:

步骤 1 新建文本文档并使用 notepad++ 打开后,将示例数据拷贝进文本文档中。注意拷贝后检
查下数据的行数及数据分行的正确性。
步骤 2 选择“格式 > 以 UTF-8 无 BOM 格式编码”。
步骤 3 选择“文件 > 另存为”。
步骤 4 在弹出的对话框中输入文件名后,单击“保存”。
出于标识的目的,输入文件名的时候,建议将文件后缀设为.csv。

将数据源文件上传至数据服务器

步骤 1 以 root 用户登录用于存放数据源文件的服务器(又称数据服务器或 GDS 服务器)
192.168.0.90。
步骤 2 创建数据文件存放目录“/input_data”。
mkdir -p /input_data
步骤 3 使用 MobaXterm 将数据源文件上传至上一步所创建的目录中。

  
    展开阅读全文