SAS 程序冷知识——proc import中遇到的那些bug

SAS 程序冷知识——proc import中遇到的那些bug,第1张

当我们用proc import导入一个excel文档的时候,经常会出现这样的情况:

这是因为excel的sheet名字过长导致的(有时候DM老是把sheet名字弄的老长,还后面缀这日期,搞得每次更新文件都先改程序)。

这种情况下最简单的处理就是手动修改excel的sheet名字,但是一般作为正式项目,作为外部数据的excel是不好随便改的。

既然不能改文件就只能改程序了,这里提供一个新的方法:

这两段程序到底哪里有不同呢?最主要的是dbms=的值不同,前者填写的是excel,后者填写的是xlsx。需要注意的是填写xlsx后,原来的两个参数就不能用了需要删掉。

有的时候excel文档是很讨厌的,比如原来数据是1.20,当转成SAS的时候,程序会“贴心”的把变量转成数值型,从而丢掉了1.20后面的0。这本来不影响分析,但是ORRES是要收集原始值的,人家填的是1.20,你怎么能写1.2呢?这个时候就需要我们强制把excel所有变量都变成字符型。

其实这是个偷懒的小技巧。我们只需要修改getnames=这个参数为no,这样excel第一行就会被当作变量的值而不是变量名或标题了。而excel的第一行一般来说,都是含有字符的,所以这样会让所有变量都被当作字符型处理。

当然,我们还可以直接修改excel,在excel中就直接把所有变量都定义为字符的,但是这样又犯了改原始数据的忌讳总之不推荐。

最后需要注意的是,mixed选项是很重要的,如果是no的话,一列中如果有纯数字的话很容易被判定为数值型,从而把那些有字符的变量置空。加了mixed=yes以后,一列中如果既有数字又有字符,就会被判定为字符型。但如果一列真的是纯数字,则会被判定为数值型。另外,对于日期格式,如果没有mixed话,会把日期导成date格式的数值型,但使用mixed之后,日期也会被当作字符处理。

如果dbms=excel的话,导入的字符变量最大长度默认是1024,再长会截断。但是如果加入语句textsize=32767可以设定这个长度。但是如果dbms=xlsx的话,就不会出这个问题。

网上说scantext是可以自动扫描变量的最大宽度的,但是实际 *** 作下来似乎并非如此,具体有什么作用还不知道。

尽管使用了textsize=32767,有些变量还是会被截断。这是因为SAS在读入的时候,是预先检查excel前面的若干行来判断长度和变量类型的,所以如果特别长的值在最后几行,可能会导致没有检查到改行,从而变量长度比值要短,以至于发生了截断。这种情况就要用dbms=xlsx了。

用存储过程实现:直接调用存储过程就可以了。

导出表中的数据到Excel,包含字段名,文件为真正的Excel文件

,如果文件不存在,将自动创建文件

,如果表不存在,将自动创建表

基于通用性考虑,仅支持导出标准数据类型

/*--调用示例

p_exporttb @tbname='地区资料',@path='c:\',@fname='aa.xls'

--*/

if exists (select * from dbo.sysobjects where id = object_id(N'[dbo].[p_exporttb]') and OBJECTPROPERTY(id, N'IsProcedure') = 1)

drop procedure [dbo].[p_exporttb]

GO

create proc p_exporttb

@tbname sysname, --要导出的表名,注意只能是表名/视图名

@path nvarchar(1000), --文件存放目录

@fname nvarchar(250)='' --文件名,默认为表名

as

declare @err int,@src nvarchar(255),@desc nvarchar(255),@out int

declare @obj int,@constr nvarchar(1000),@sql varchar(8000),@fdlist varchar(8000)

--参数检测

if isnull(@fname,'')='' set @fname=@tbname+'.xls'

--检查文件是否已经存在

if right(@path,1)<>'\' set @path=@path+'\'

create table #tb(a bit,b bit,c bit)

set @sql=@path+@fname

insert into #tb exec master..xp_fileexist @sql

--数据库创建语句

set @sql=@path+@fname

if exists(select 1 from #tb where a=1)

set @constr='DRIVER={Microsoft Excel Driver (*.xls)}DSN=''''READONLY=FALSE'

+'CREATE_DB="'+@sql+'"DBQ='+@sql

else

set @constr='Provider=Microsoft.Jet.OLEDB.4.0Extended Properties="Excel 5.0HDR=YES'

+'DATABASE='+@sql+'"'

--连接数据库

exec @err=sp_oacreate 'adodb.connection',@obj out

if @err<>0 goto lberr

exec @err=sp_oamethod @obj,'open',null,@constr

if @err<>0 goto lberr

--创建表的SQL

select @sql='',@fdlist=''

select @fdlist=@fdlist+','+a.name

,@sql=@sql+',['+a.name+'] '

+case when b.name in('char','nchar','varchar','nvarchar') then

'text('+cast(case when a.length>255 then 255 else a.length end as varchar)+')'

when b.name in('tynyint','int','bigint','tinyint') then 'int'

when b.name in('smalldatetime','datetime') then 'datetime'

when b.name in('money','smallmoney') then 'money'

else b.name end

FROM syscolumns a left join systypes b on a.xtype=b.xusertype

where b.name not in('image','text','uniqueidentifier','sql_variant','ntext','varbinary','binary','timestamp')

and object_id(@tbname)=id

select @sql='create table ['+@tbname

+']('+substring(@sql,2,8000)+')'

,@fdlist=substring(@fdlist,2,8000)

exec @err=sp_oamethod @obj,'execute',@out out,@sql

if @err<>0 goto lberr

exec @err=sp_oadestroy @obj

--导入数据

set @sql='openrowset(''MICROSOFT.JET.OLEDB.4.0'',''Excel 5.0HDR=YES

DATABASE='+@path+@fname+''',['+@tbname+'$])'

exec('insert into '+@sql+'('+@fdlist+') select '+@fdlist+' from '+@tbname)

return

lberr:

exec sp_oageterrorinfo 0,@src out,@desc out

lbexit:

select cast(@err as varbinary(4)) as 错误号

,@src as 错误源,@desc as 错误描述

select @sql,@constr,@fdlist

go


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/bake/11537559.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存