schain Commit - r1400:005589ae0527 · Jicamarca Repository

hora y fecha en el primer bloque hdf5 >> consola

joabAM -

r1400:005589ae0527

parent child

Context file:

r1400:005589ae0527

Collapse all files

schainpy/model/io/jroIO_kamisr.py +3 -3

              ''''
              Created on Set 9, 2015
              @author: roj-idl71 Karim Kuyeng
              @update: 2021, Joab Apaza
              '''
              import os
              import sys
              import glob
              import fnmatch
              import datetime
              import time
              import re
              import h5py
              import numpy
              try:
                  from gevent import sleep
              except:
                  from time import sleep
              from schainpy.model.data.jroheaderIO import RadarControllerHeader, SystemHeader
              from schainpy.model.data.jrodata import Voltage
              from schainpy.model.proc.jroproc_base import ProcessingUnit, Operation, MPDecorator
              from numpy import imag
              class AMISRReader(ProcessingUnit):
                  '''
                  classdocs
                  '''
                  def __init__(self):
                      '''
                      Constructor
                      '''
                      ProcessingUnit.__init__(self)
                      self.set = None
                      self.subset = None
                      self.extension_file = '.h5'
                      self.dtc_str = 'dtc'
                      self.dtc_id = 0
                      self.status = True
                      self.isConfig = False
                      self.dirnameList = []
                      self.filenameList = []
                      self.fileIndex = None
                      self.flagNoMoreFiles = False
                      self.flagIsNewFile = 0
                      self.filename = ''
                      self.amisrFilePointer = None
                      self.realBeamCode = []
                      self.beamCodeMap = None
                      self.azimuthList = []
                      self.elevationList = []
                      self.dataShape = None
                      self.profileIndex = 0
                      self.beamCodeByFrame = None
                      self.radacTimeByFrame = None
                      self.dataset = None
                      self.__firstFile = True
                      self.buffer = None
                      self.timezone = 'ut'
                      self.__waitForNewFile = 20
                      self.__filename_online = None
                      #Is really necessary create the output object in the initializer
                      self.dataOut = Voltage()
                      self.dataOut.error=False
                  def setup(self,path=None,
                                  startDate=None,
                                  endDate=None,
                                  startTime=None,
                                  endTime=None,
                                  walk=True,
                                  timezone='ut',
                                  all=0,
                                  code = None,
                                  nCode = 0,
                                  nBaud = 0,
                                  online=False):
                      self.timezone = timezone
                      self.all = all
                      self.online = online
                      self.code = code
                      self.nCode = int(nCode)
                      self.nBaud = int(nBaud)
                      #self.findFiles()
                      if not(online):
                          #Busqueda de archivos offline
                          self.searchFilesOffLine(path, startDate, endDate, startTime, endTime, walk)
                      else:
                          self.searchFilesOnLine(path, startDate, endDate, startTime,endTime,walk)
                      if not(self.filenameList):
-                         print("There is no files into the folder: %s"%(path))
+                         raise schainpy.admin.SchainWarning("There is no files into the folder: %s"%(path))
                          sys.exit()
                      self.fileIndex = 0
                      self.readNextFile(online)
                      '''
                      Add code
                      '''
                      self.isConfig = True
                      # print("Setup Done")
                      pass
                  def readAMISRHeader(self,fp):
                      if self.isConfig and (not self.flagNoMoreFiles):
                          newShape = fp.get('Raw11/Data/Samples/Data').shape[1:]
                          if self.dataShape != newShape and newShape != None:
-                             print("\nNEW FILE HAS A DIFFERENT SHAPE")
+                             raise schainpy.admin.SchainError("NEW FILE HAS A DIFFERENT SHAPE: ")
                              print(self.dataShape,newShape,"\n")
                              return 0
                      else:
                          self.dataShape = fp.get('Raw11/Data/Samples/Data').shape[1:]
                      header = 'Raw11/Data/RadacHeader'
                      self.beamCodeByPulse = fp.get(header+'/BeamCode') # LIST OF BEAMS PER PROFILE, TO BE USED ON REARRANGE
                      if (self.startDate> datetime.date(2021, 7, 15)): #Se cambió la forma de extracción de Apuntes el 17
                          self.beamcodeFile = fp['Setup/Beamcodefile'][()].decode()
                          self.trueBeams = self.beamcodeFile.split("\n")
                          self.trueBeams.pop()#remove last
                          [self.realBeamCode.append(x) for x in self.trueBeams if x not in self.realBeamCode]
                          self.beamCode = [int(x, 16) for x in self.realBeamCode]
                      else:
                          _beamCode= fp.get('Raw11/Data/Beamcodes') #se usa la manera previa al cambio de apuntes
                          self.beamCode = _beamCode[0,:]
                      if self.beamCodeMap == None:
                          self.beamCodeMap = fp['Setup/BeamcodeMap']
                          for beam in self.beamCode:
                              beamAziElev = numpy.where(self.beamCodeMap[:,0]==beam)
                              beamAziElev = beamAziElev[0].squeeze()
                              self.azimuthList.append(self.beamCodeMap[beamAziElev,1])
                              self.elevationList.append(self.beamCodeMap[beamAziElev,2])
                              #print("Beamssss: ",self.beamCodeMap[beamAziElev,1],self.beamCodeMap[beamAziElev,2])
                      #print(self.beamCode)
                      #self.code = fp.get(header+'/Code') # NOT USE FOR THIS
                      self.frameCount = fp.get(header+'/FrameCount')# NOT USE FOR THIS
                      self.modeGroup = fp.get(header+'/ModeGroup')# NOT USE FOR THIS
                      self.nsamplesPulse = fp.get(header+'/NSamplesPulse')# TO GET NSA OR USING DATA FOR THAT
                      self.pulseCount = fp.get(header+'/PulseCount')# NOT USE FOR THIS
                      self.radacTime = fp.get(header+'/RadacTime')# 1st TIME ON FILE ANDE CALCULATE THE REST WITH IPP*nindexprofile
                      self.timeCount = fp.get(header+'/TimeCount')# NOT USE FOR THIS
                      self.timeStatus = fp.get(header+'/TimeStatus')# NOT USE FOR THIS
                      self.rangeFromFile = fp.get('Raw11/Data/Samples/Range')
                      self.frequency =  fp.get('Rx/Frequency')
                      txAus = fp.get('Raw11/Data/Pulsewidth')
                      self.nblocks = self.pulseCount.shape[0] #nblocks
                      self.nprofiles = self.pulseCount.shape[1] #nprofile
                      self.nsa = self.nsamplesPulse[0,0] #ngates
                      self.nchannels = len(self.beamCode)
                      self.ippSeconds = (self.radacTime[0][1] -self.radacTime[0][0]) #Ipp in seconds
                      #self.__waitForNewFile = self.nblocks  # wait depending on the number of blocks since each block is 1 sec
                      self.__waitForNewFile = self.nblocks * self.nprofiles * self.ippSeconds # wait until new file is created
                      #filling radar controller header parameters
                      self.__ippKm = self.ippSeconds *.15*1e6 # in km
                      self.__txA = (txAus.value)*.15 #(ipp[us]*.15km/1us) in km
                      self.__txB = 0
                      nWindows=1
                      self.__nSamples = self.nsa
                      self.__firstHeight = self.rangeFromFile[0][0]/1000 #in km
                      self.__deltaHeight = (self.rangeFromFile[0][1] - self.rangeFromFile[0][0])/1000
                      #for now until understand why the code saved is different (code included even though code not in tuf file)
                      #self.__codeType = 0
                     # self.__nCode = None
                     # self.__nBaud = None
                      self.__code = self.code
                      self.__codeType = 0
                      if self.code != None:
                          self.__codeType = 1
                      self.__nCode = self.nCode
                      self.__nBaud = self.nBaud
                      #self.__code = 0
                      #filling system header parameters
                      self.__nSamples = self.nsa
                      self.newProfiles = self.nprofiles/self.nchannels
                      self.__channelList = list(range(self.nchannels))
                      self.__frequency = self.frequency[0][0]
                      return 1
                  def createBuffers(self):
                      pass
                  def __setParameters(self,path='', startDate='',endDate='',startTime='', endTime='', walk=''):
                      self.path = path
                      self.startDate = startDate
                      self.endDate = endDate
                      self.startTime = startTime
                      self.endTime = endTime
                      self.walk = walk
                  def __checkPath(self):
                      if os.path.exists(self.path):
                          self.status = 1
                      else:
                          self.status = 0
                          print('Path:%s does not exists'%self.path)
                      return
                  def __selDates(self, amisr_dirname_format):
                      try:
                          year = int(amisr_dirname_format[0:4])
                          month = int(amisr_dirname_format[4:6])
                          dom = int(amisr_dirname_format[6:8])
                          thisDate = datetime.date(year,month,dom)
                          #margen de un día extra, igual luego se filtra for fecha y hora
                          if (thisDate>=(self.startDate - datetime.timedelta(days=1)) and thisDate <= (self.endDate)+ datetime.timedelta(days=1)):
                              return amisr_dirname_format
                      except:
                          return None
                  def __findDataForDates(self,online=False):
                      if not(self.status):
                          return None
                      pat = '\d+.\d+'
                      dirnameList = [re.search(pat,x) for x in os.listdir(self.path)]
                      dirnameList = [x for x in dirnameList if x!=None]
                      dirnameList = [x.string for x in dirnameList]
                      if not(online):
                          dirnameList = [self.__selDates(x) for x in dirnameList]
                          dirnameList = [x for x in dirnameList if x!=None]
                      if len(dirnameList)>0:
                          self.status = 1
                          self.dirnameList = dirnameList
                          self.dirnameList.sort()
                      else:
                          self.status = 0
                          return None
                  def __getTimeFromData(self):
                      startDateTime_Reader = datetime.datetime.combine(self.startDate,self.startTime)
                      endDateTime_Reader = datetime.datetime.combine(self.endDate,self.endTime)
                      print('Filtering Files from %s to %s'%(startDateTime_Reader, endDateTime_Reader))
                      print('........................................')
                      filter_filenameList = []
                      self.filenameList.sort()
                      #for i in range(len(self.filenameList)-1):
                      for i in range(len(self.filenameList)):
                          filename = self.filenameList[i]
                          fp = h5py.File(filename,'r')
                          time_str = fp.get('Time/RadacTimeString')
                          startDateTimeStr_File = time_str[0][0].decode('UTF-8').split('.')[0]
                          #startDateTimeStr_File = "2019-12-16 09:21:11"
                          junk = time.strptime(startDateTimeStr_File, '%Y-%m-%d %H:%M:%S')
                          startDateTime_File = datetime.datetime(junk.tm_year,junk.tm_mon,junk.tm_mday,junk.tm_hour, junk.tm_min, junk.tm_sec)
                          #endDateTimeStr_File = "2019-12-16 11:10:11"
                          endDateTimeStr_File = time_str[-1][-1].decode('UTF-8').split('.')[0]
                          junk = time.strptime(endDateTimeStr_File, '%Y-%m-%d %H:%M:%S')
                          endDateTime_File = datetime.datetime(junk.tm_year,junk.tm_mon,junk.tm_mday,junk.tm_hour, junk.tm_min, junk.tm_sec)
                          fp.close()
                          #print("check time", startDateTime_File)
                          if self.timezone == 'lt':
                              startDateTime_File = startDateTime_File - datetime.timedelta(minutes = 300)
                              endDateTime_File = endDateTime_File - datetime.timedelta(minutes = 300)
                          if (startDateTime_File >=startDateTime_Reader and endDateTime_File<=endDateTime_Reader):
                              filter_filenameList.append(filename)
                          if (startDateTime_File>endDateTime_Reader):
                              break
                      filter_filenameList.sort()
                      self.filenameList = filter_filenameList
                      return 1
                  def __filterByGlob1(self, dirName):
                      filter_files = glob.glob1(dirName, '*.*%s'%self.extension_file)
                      filter_files.sort()
                      filterDict = {}
                      filterDict.setdefault(dirName)
                      filterDict[dirName] = filter_files
                      return filterDict
                  def __getFilenameList(self, fileListInKeys, dirList):
                      for value in fileListInKeys:
                          dirName = list(value.keys())[0]
                          for file in value[dirName]:
                              filename = os.path.join(dirName, file)
                              self.filenameList.append(filename)
                  def __selectDataForTimes(self, online=False):
                      #aun no esta implementado el filtro for tiempo
                      if not(self.status):
                          return None
                      dirList = [os.path.join(self.path,x) for x in self.dirnameList]
                      fileListInKeys = [self.__filterByGlob1(x) for x in dirList]
                      self.__getFilenameList(fileListInKeys, dirList)
                      if not(online):
                          #filtro por tiempo
                          if not(self.all):
                              self.__getTimeFromData()
                          if len(self.filenameList)>0:
                              self.status = 1
                              self.filenameList.sort()
                          else:
                              self.status = 0
                              return None
                      else:
                          #get the last file - 1
                          self.filenameList = [self.filenameList[-2]]
                      new_dirnameList = []
                      for dirname in self.dirnameList:
                          junk = numpy.array([dirname in x for x in self.filenameList])
                          junk_sum = junk.sum()
                          if junk_sum > 0:
                              new_dirnameList.append(dirname)
                      self.dirnameList = new_dirnameList
                      return 1
                  def searchFilesOnLine(self, path, startDate, endDate, startTime=datetime.time(0,0,0),
                                          endTime=datetime.time(23,59,59),walk=True):
                      if endDate ==None:
                       startDate = datetime.datetime.utcnow().date()
                       endDate = datetime.datetime.utcnow().date()
                      self.__setParameters(path=path, startDate=startDate, endDate=endDate,startTime = startTime,endTime=endTime, walk=walk)
                      self.__checkPath()
                      self.__findDataForDates(online=True)
                      self.dirnameList = [self.dirnameList[-1]]
                      self.__selectDataForTimes(online=True)
                      return
                  def searchFilesOffLine(self,
                                          path,
                                          startDate,
                                          endDate,
                                          startTime=datetime.time(0,0,0),
                                          endTime=datetime.time(23,59,59),
                                          walk=True):
                      self.__setParameters(path, startDate, endDate, startTime, endTime, walk)
                      self.__checkPath()
                      self.__findDataForDates()
                      self.__selectDataForTimes()
                      for i in range(len(self.filenameList)):
                          print("%s" %(self.filenameList[i]))
                      return
                  def __setNextFileOffline(self):
                      try:
                          self.filename = self.filenameList[self.fileIndex]
                          self.amisrFilePointer = h5py.File(self.filename,'r')
                          self.fileIndex += 1
                      except:
                          self.flagNoMoreFiles = 1
-                         print("No more Files")
+                         raise schainpy.admin.SchainError('No more files to read')
                          return 0
                      self.flagIsNewFile = 1
                      print("Setting the file: %s"%self.filename)
                      return 1
                  def __setNextFileOnline(self):
                      filename = self.filenameList[0]
                      if self.__filename_online != None:
                          self.__selectDataForTimes(online=True)
                          filename = self.filenameList[0]
                          wait = 0
                          self.__waitForNewFile=300 ## DEBUG:
                          while self.__filename_online == filename:
                              print('waiting %d seconds to get a new file...'%(self.__waitForNewFile))
                              if wait == 5:
                                  self.flagNoMoreFiles = 1
                                  return 0
                              sleep(self.__waitForNewFile)
                              self.__selectDataForTimes(online=True)
                              filename = self.filenameList[0]
                              wait += 1
                      self.__filename_online = filename
                      self.amisrFilePointer = h5py.File(filename,'r')
                      self.flagIsNewFile = 1
                      self.filename = filename
                      print("Setting the file: %s"%self.filename)
                      return 1
                  def readData(self):
                      buffer = self.amisrFilePointer.get('Raw11/Data/Samples/Data')
                      re = buffer[:,:,:,0]
                      im = buffer[:,:,:,1]
                      dataset = re + im*1j
                      self.radacTime = self.amisrFilePointer.get('Raw11/Data/RadacHeader/RadacTime')
                      timeset = self.radacTime[:,0]
                      return dataset,timeset
                  def reshapeData(self):
                  #self.beamCodeByPulse, self.beamCode, self.nblocks, self.nprofiles, self.nsa,
                      channels = self.beamCodeByPulse[0,:]
                      nchan = self.nchannels
                      #self.newProfiles = self.nprofiles/nchan #must be defined on filljroheader
                      nblocks = self.nblocks
                      nsamples = self.nsa
                      #Dimensions : nChannels, nProfiles, nSamples
                      new_block = numpy.empty((nblocks, nchan, numpy.int_(self.newProfiles), nsamples), dtype="complex64")
                      ############################################
                      for thisChannel in range(nchan):
                          new_block[:,thisChannel,:,:] = self.dataset[:,numpy.where(channels==self.beamCode[thisChannel])[0],:]
                      new_block = numpy.transpose(new_block, (1,0,2,3))
                      new_block = numpy.reshape(new_block, (nchan,-1, nsamples))
                      return new_block
                  def updateIndexes(self):
                      pass
                  def fillJROHeader(self):
                      #fill radar controller header
                      self.dataOut.radarControllerHeaderObj = RadarControllerHeader(ipp=self.__ippKm,
                                                                                    txA=self.__txA,
                                                                                    txB=0,
                                                                                    nWindows=1,
                                                                                    nHeights=self.__nSamples,
                                                                                    firstHeight=self.__firstHeight,
                                                                                    deltaHeight=self.__deltaHeight,
                                                                                    codeType=self.__codeType,
                                                                                    nCode=self.__nCode, nBaud=self.__nBaud,
                                                                                    code = self.__code,
                                                                                    fClock=1)
                      #fill system header
                      self.dataOut.systemHeaderObj = SystemHeader(nSamples=self.__nSamples,
                                                                  nProfiles=self.newProfiles,
                                                                  nChannels=len(self.__channelList),
                                                                  adcResolution=14,
                                                                  pciDioBusWidth=32)
                      self.dataOut.type = "Voltage"
                      self.dataOut.data = None
                      self.dataOut.dtype = numpy.dtype([('real','<i8'),('imag','<i8')])
              #        self.dataOut.nChannels = 0
              #        self.dataOut.nHeights = 0
                      self.dataOut.nProfiles = self.newProfiles*self.nblocks
                      #self.dataOut.heightList = self.__firstHeigth + numpy.arange(self.__nSamples, dtype = numpy.float)*self.__deltaHeigth
                      ranges = numpy.reshape(self.rangeFromFile.value,(-1))
                      self.dataOut.heightList =  ranges/1000.0 #km
                      self.dataOut.channelList = self.__channelList
                      self.dataOut.blocksize = self.dataOut.nChannels * self.dataOut.nHeights
              #        self.dataOut.channelIndexList = None
                      self.dataOut.azimuthList = numpy.array(self.azimuthList)
                      self.dataOut.elevationList = numpy.array(self.elevationList)
                      self.dataOut.codeList = numpy.array(self.beamCode)
                      #print(self.dataOut.elevationList)
                      self.dataOut.flagNoData = True
                      #Set to TRUE if the data is discontinuous
                      self.dataOut.flagDiscontinuousBlock = False
                      self.dataOut.utctime = None
                      #self.dataOut.timeZone = -5 #self.__timezone/60  #timezone like jroheader, difference in minutes between UTC and localtime
                      if self.timezone == 'lt':
                          self.dataOut.timeZone = time.timezone / 60. #get the timezone in minutes
                      else:
                          self.dataOut.timeZone = 0 #by default time is UTC
                      self.dataOut.dstFlag = 0
                      self.dataOut.errorCount = 0
                      self.dataOut.nCohInt = 1
                      self.dataOut.flagDecodeData = False #asumo que la data esta decodificada
                      self.dataOut.flagDeflipData = False #asumo que la data esta sin flip
                      self.dataOut.flagShiftFFT = False
                      self.dataOut.ippSeconds = self.ippSeconds
                      #Time interval between profiles
                      #self.dataOut.timeInterval = self.dataOut.ippSeconds * self.dataOut.nCohInt
                      self.dataOut.frequency = self.__frequency
                      self.dataOut.realtime = self.online
                      pass
                  def readNextFile(self,online=False):
                      if not(online):
                          newFile = self.__setNextFileOffline()
                      else:
                          newFile = self.__setNextFileOnline()
                      if not(newFile):
                          self.dataOut.error = True
                          return 0
                      if not self.readAMISRHeader(self.amisrFilePointer):
                          self.dataOut.error = True
                          return 0
                      self.createBuffers()
                      self.fillJROHeader()
                      #self.__firstFile = False
                      self.dataset,self.timeset = self.readData()
                      if self.endDate!=None:
                       endDateTime_Reader = datetime.datetime.combine(self.endDate,self.endTime)
                       time_str = self.amisrFilePointer.get('Time/RadacTimeString')
                       startDateTimeStr_File = time_str[0][0].decode('UTF-8').split('.')[0]
                       junk = time.strptime(startDateTimeStr_File, '%Y-%m-%d %H:%M:%S')
                       startDateTime_File = datetime.datetime(junk.tm_year,junk.tm_mon,junk.tm_mday,junk.tm_hour, junk.tm_min, junk.tm_sec)
                       if self.timezone == 'lt':
                        startDateTime_File = startDateTime_File - datetime.timedelta(minutes = 300)
                       if (startDateTime_File>endDateTime_Reader):
                           return 0
                      self.jrodataset = self.reshapeData()
                      #----self.updateIndexes()
                      self.profileIndex = 0
                      return 1
                  def __hasNotDataInBuffer(self):
                      if self.profileIndex >= (self.newProfiles*self.nblocks):
                          return 1
                      return 0
                  def getData(self):
                      if self.flagNoMoreFiles:
                          self.dataOut.flagNoData = True
                          return 0
                      if self.__hasNotDataInBuffer():
                          if not (self.readNextFile(self.online)):
                              return 0
                      if self.dataset is None: # setear esta condicion cuando no hayan datos por leer
                          self.dataOut.flagNoData = True
                          return 0
                      #self.dataOut.data = numpy.reshape(self.jrodataset[self.profileIndex,:],(1,-1))
                      self.dataOut.data = self.jrodataset[:,self.profileIndex,:]
                      #print("R_t",self.timeset)
                      #self.dataOut.utctime = self.jrotimeset[self.profileIndex]
                      #verificar basic header de jro data y ver si es compatible con este valor
                      #self.dataOut.utctime = self.timeset + (self.profileIndex * self.ippSeconds * self.nchannels)
                      indexprof = numpy.mod(self.profileIndex, self.newProfiles)
                      indexblock = self.profileIndex/self.newProfiles
                      #print (indexblock, indexprof)
                      diffUTC = 0
                      t_comp = (indexprof * self.ippSeconds * self.nchannels) + diffUTC #
                      #print("utc :",indexblock," __ ",t_comp)
                      #print(numpy.shape(self.timeset))
                      self.dataOut.utctime = self.timeset[numpy.int_(indexblock)] + t_comp
                      #self.dataOut.utctime = self.timeset[self.profileIndex] + t_comp
                      self.dataOut.profileIndex = self.profileIndex
                      #print("N profile:",self.profileIndex,self.newProfiles,self.nblocks,self.dataOut.utctime)
                      self.dataOut.flagNoData = False
                      # if indexprof == 0:
                      #     print("kamisr: ",self.dataOut.utctime)
                      self.profileIndex += 1
                      return self.dataOut.data
                  def run(self, **kwargs):
                      '''
                      This method will be called many times so here you should put all your code
                      '''
                      #print("running kamisr")
                      if not self.isConfig:
                          self.setup(**kwargs)
                          self.isConfig = True
                      self.getData()

schainpy/model/io/jroIO_param.py +9 -1

              import os
              import time
              import datetime
              import numpy
              import h5py
              import schainpy.admin
              from schainpy.model.data.jrodata import *
              from schainpy.model.proc.jroproc_base import ProcessingUnit, Operation, MPDecorator
              from schainpy.model.io.jroIO_base import *
              from schainpy.utils import log
              class HDFReader(Reader, ProcessingUnit):
                  """Processing unit to read HDF5 format files
                  This unit reads HDF5 files created with `HDFWriter` operation contains
                  by default two groups Data and Metadata all variables would be saved as `dataOut`
                  attributes.
                  It is possible to read any HDF5 file by given the structure in the `description`
                  parameter, also you can add extra values to metadata with the parameter `extras`.
                  Parameters:
                  -----------
                  path : str
                      Path where files are located.
                  startDate : date
                      Start date of the files
                  endDate : list
                      End date of the files
                  startTime : time
                      Start time of the files
                  endTime : time
                      End time of the files
                  description : dict, optional
                      Dictionary with the description of the HDF5 file
                  extras : dict, optional
                      Dictionary with extra metadata to be be added to `dataOut`
                  Examples
                  --------
                  desc = {
                      'Data': {
                          'data_output': ['u', 'v', 'w'],
                          'utctime': 'timestamps',
                      }  ,
                      'Metadata': {
                          'heightList': 'heights'
                      }
                  }
                  desc = {
                      'Data': {
                          'data_output': 'winds',
                          'utctime': 'timestamps'
                      },
                      'Metadata': {
                          'heightList': 'heights'
                      }
                  }
                  extras = {
                      'timeZone': 300
                  }
                  reader = project.addReadUnit(
                      name='HDFReader',
                      path='/path/to/files',
                      startDate='2019/01/01',
                      endDate='2019/01/31',
                      startTime='00:00:00',
                      endTime='23:59:59',
                      # description=json.dumps(desc),
                      # extras=json.dumps(extras),
                      )
                  """
                  __attrs__ = ['path', 'startDate', 'endDate', 'startTime', 'endTime', 'description', 'extras']
                  def __init__(self):
                      ProcessingUnit.__init__(self)
                      self.dataOut = Parameters()
                      self.ext = ".hdf5"
                      self.optchar = "D"
                      self.meta = {}
                      self.data = {}
                      self.open_file = h5py.File
                      self.open_mode = 'r'
                      self.description = {}
                      self.extras = {}
                      self.filefmt = "*%Y%j***"
                      self.folderfmt = "*%Y%j"
                      self.utcoffset = 0
                  def setup(self, **kwargs):
                      self.set_kwargs(**kwargs)
                      if not self.ext.startswith('.'):
                          self.ext = '.{}'.format(self.ext)
                      if self.online:
                          log.log("Searching files in online mode...", self.name)
                          for nTries in range(self.nTries):
                              fullpath = self.searchFilesOnLine(self.path, self.startDate,
                                  self.endDate, self.expLabel, self.ext, self.walk,
                                  self.filefmt, self.folderfmt)
                              pathname, filename = os.path.split(fullpath)
                              #print(pathname,filename)
                              try:
                                  fullpath = next(fullpath)
                              except:
                                  fullpath = None
                              if fullpath:
                                  break
                              log.warning(
                                  'Waiting {} sec for a valid file in {}: try {} ...'.format(
                                      self.delay, self.path, nTries + 1),
                                  self.name)
                              time.sleep(self.delay)
                          if not(fullpath):
                              raise schainpy.admin.SchainError(
                                  'There isn\'t any valid file in {}'.format(self.path))
                          pathname, filename = os.path.split(fullpath)
                          self.year = int(filename[1:5])
                          self.doy = int(filename[5:8])
                          self.set = int(filename[8:11]) - 1
                      else:
                          log.log("Searching files in {}".format(self.path), self.name)
                          self.filenameList = self.searchFilesOffLine(self.path, self.startDate,
                              self.endDate, self.expLabel, self.ext, self.walk, self.filefmt, self.folderfmt)
                      self.setNextFile()
                      return
                  def readFirstHeader(self):
                      '''Read metadata and data'''
                      self.__readMetadata()
                      self.__readData()
                      self.__setBlockList()
                      if 'type' in self.meta:
                          self.dataOut = eval(self.meta['type'])()
                      for attr in self.meta:
                          #print("attr: ", attr)
                          setattr(self.dataOut, attr, self.meta[attr])
                      self.blockIndex = 0
                      return
                  def __setBlockList(self):
                      '''
                      Selects the data within the times defined
                      self.fp
                      self.startTime
                      self.endTime
                      self.blockList
                      self.blocksPerFile
                      '''
                      startTime = self.startTime
                      endTime = self.endTime
                      thisUtcTime = self.data['utctime'] + self.utcoffset
                      self.interval = numpy.min(thisUtcTime[1:] - thisUtcTime[:-1])
                      thisDatetime = datetime.datetime.utcfromtimestamp(thisUtcTime[0])
                      self.startFileDatetime = thisDatetime
                      thisDate = thisDatetime.date()
                      thisTime = thisDatetime.time()
                      startUtcTime = (datetime.datetime.combine(thisDate, startTime) - datetime.datetime(1970, 1, 1)).total_seconds()
                      endUtcTime = (datetime.datetime.combine(thisDate, endTime) - datetime.datetime(1970, 1, 1)).total_seconds()
                      ind = numpy.where(numpy.logical_and(thisUtcTime >= startUtcTime, thisUtcTime < endUtcTime))[0]
                      self.blockList = ind
                      self.blocksPerFile = len(ind)
                      self.blocksPerFile = len(thisUtcTime)
                      return
                  def __readMetadata(self):
                      '''
                      Reads Metadata
                      '''
                      meta = {}
                      if self.description:
                          for key, value in self.description['Metadata'].items():
                              meta[key] = self.fp[value][()]
                      else:
                          grp = self.fp['Metadata']
                          for name in grp:
                              meta[name] = grp[name][()]
                      if self.extras:
                          for key, value in self.extras.items():
                              meta[key] = value
                      self.meta = meta
                      return
                  def checkForRealPath(self, nextFile, nextDay):
                      # print("check FRP")
                      # dt = self.startFileDatetime + datetime.timedelta(1)
                      # filename = '{}.{}{}'.format(self.path, dt.strftime('%Y%m%d'), self.ext)
                      # fullfilename = os.path.join(self.path, filename)
                      # print("check Path ",fullfilename,filename)
                      # if os.path.exists(fullfilename):
                      #     return fullfilename, filename
                      # return None, filename
                      return None,None
                  def __readData(self):
                      data = {}
                      if self.description:
                          for key, value in self.description['Data'].items():
                              if isinstance(value, str):
                                  if isinstance(self.fp[value], h5py.Dataset):
                                      data[key] = self.fp[value][()]
                                  elif isinstance(self.fp[value], h5py.Group):
                                      array = []
                                      for ch in self.fp[value]:
                                          array.append(self.fp[value][ch][()])
                                      data[key] = numpy.array(array)
                              elif isinstance(value, list):
                                  array = []
                                  for ch in value:
                                      array.append(self.fp[ch][()])
                                  data[key] = numpy.array(array)
                      else:
                          grp = self.fp['Data']
                          for name in grp:
                              if isinstance(grp[name], h5py.Dataset):
                                  array = grp[name][()]
                              elif isinstance(grp[name], h5py.Group):
                                  array = []
                                  for ch in grp[name]:
                                      array.append(grp[name][ch][()])
                                  array = numpy.array(array)
                              else:
                                  log.warning('Unknown type: {}'.format(name))
                              if name in self.description:
                                  key = self.description[name]
                              else:
                                  key = name
                              data[key] = array
                      self.data = data
                      return
                  def getData(self):
                      if not self.isDateTimeInRange(self.startFileDatetime, self.startDate, self.endDate, self.startTime, self.endTime):
                          self.dataOut.flagNoData = True
                          self.blockIndex = self.blocksPerFile
                          #self.dataOut.error = True      TERMINA EL PROGRAMA, removido
                          return
                      for attr in self.data:
                          if self.data[attr].ndim == 1:
                              setattr(self.dataOut, attr, self.data[attr][self.blockIndex])
                          else:
                              setattr(self.dataOut, attr, self.data[attr][:, self.blockIndex])
                      self.dataOut.flagNoData = False
                      self.blockIndex += 1
+                     if self.blockIndex == 1:
                      log.log("Block No. {}/{} -> {}".format(
                          self.blockIndex,
                          self.blocksPerFile,
                          self.dataOut.datatime.ctime()), self.name)
+                     else:
+                         log.log("Block No. {}/{} ".format(
+                             self.blockIndex,
+                             self.blocksPerFile),self.name)
                      return
                  def run(self, **kwargs):
                      if not(self.isConfig):
                          self.setup(**kwargs)
                          self.isConfig = True
                      if self.blockIndex == self.blocksPerFile:
                          self.setNextFile()
                      self.getData()
                      return
              @MPDecorator
              class HDFWriter(Operation):
                  """Operation to write HDF5 files.
                  The HDF5 file contains by default two groups Data and Metadata where
                  you can save any `dataOut` attribute specified by `dataList` and `metadataList`
                  parameters, data attributes are normaly time dependent where the metadata
                  are not.
                  It is possible to customize the structure of the HDF5 file with the
                  optional description parameter see the examples.
                  Parameters:
                  -----------
                  path : str
                      Path where files will be saved.
                  blocksPerFile : int
                      Number of blocks per file
                  metadataList : list
                      List of the dataOut attributes that will be saved as metadata
                  dataList : int
                      List of the dataOut attributes that will be saved as data
                  setType : bool
                      If True the name of the files corresponds to the timestamp of the data
                  description : dict, optional
                      Dictionary with the desired description of the HDF5 file
                  Examples
                  --------
                  desc = {
                      'data_output': {'winds': ['z', 'w', 'v']},
                      'utctime': 'timestamps',
                      'heightList': 'heights'
                  }
                  desc = {
                      'data_output': ['z', 'w', 'v'],
                      'utctime': 'timestamps',
                      'heightList': 'heights'
                  }
                  desc = {
                      'Data': {
                          'data_output': 'winds',
                          'utctime': 'timestamps'
                      },
                      'Metadata': {
                          'heightList': 'heights'
                      }
                  }
                  writer = proc_unit.addOperation(name='HDFWriter')
                  writer.addParameter(name='path', value='/path/to/file')
                  writer.addParameter(name='blocksPerFile', value='32')
                  writer.addParameter(name='metadataList', value='heightList,timeZone')
                  writer.addParameter(name='dataList',value='data_output,utctime')
                  # writer.addParameter(name='description',value=json.dumps(desc))
                  """
                  ext = ".hdf5"
                  optchar = "D"
                  filename = None
                  path = None
                  setFile = None
                  fp = None
                  firsttime = True
                  #Configurations
                  blocksPerFile = None
                  blockIndex = None
                  dataOut = None
                  #Data Arrays
                  dataList = None
                  metadataList = None
                  currentDay = None
                  lastTime = None
                  def __init__(self):
                      Operation.__init__(self)
                      return
                  def setup(self, path=None, blocksPerFile=10, metadataList=None, dataList=None, setType=None, description=None):
                      self.path = path
                      self.blocksPerFile = blocksPerFile
                      self.metadataList = metadataList
                      self.dataList = [s.strip() for s in dataList]
                      self.setType = setType
                      self.description = description
                      if self.metadataList is None:
                          self.metadataList = self.dataOut.metadata_list
                      tableList = []
                      dsList = []
                      for i in range(len(self.dataList)):
                          dsDict = {}
                          if hasattr(self.dataOut, self.dataList[i]):
                              dataAux = getattr(self.dataOut, self.dataList[i])
                              dsDict['variable'] = self.dataList[i]
                          else:
                              log.warning('Attribute {} not found in dataOut', self.name)
                              continue
                          if dataAux is None:
                              continue
                          elif isinstance(dataAux, (int, float, numpy.integer, numpy.float)):
                              dsDict['nDim'] = 0
                          else:
                              dsDict['nDim'] = len(dataAux.shape)
                              dsDict['shape'] = dataAux.shape
                              dsDict['dsNumber'] = dataAux.shape[0]
                              dsDict['dtype'] = dataAux.dtype
                          dsList.append(dsDict)
                      self.dsList = dsList
                      self.currentDay = self.dataOut.datatime.date()
                  def timeFlag(self):
                      currentTime = self.dataOut.utctime
                      timeTuple = time.localtime(currentTime)
                      dataDay = timeTuple.tm_yday
                      #print("time UTC: ",currentTime, self.dataOut.datatime)
                      if self.lastTime is None:
                          self.lastTime = currentTime
                          self.currentDay = dataDay
                          return False
                      timeDiff = currentTime - self.lastTime
                      #Si el dia es diferente o si la diferencia entre un dato y otro supera la hora
                      if dataDay != self.currentDay:
                          self.currentDay = dataDay
                          return True
                      elif timeDiff > 3*60*60:
                          self.lastTime = currentTime
                          return True
                      else:
                          self.lastTime = currentTime
                          return False
                  def run(self, dataOut, path, blocksPerFile=10, metadataList=None,
                          dataList=[], setType=None, description={}):
                      self.dataOut = dataOut
                      if not(self.isConfig):
                          self.setup(path=path, blocksPerFile=blocksPerFile,
                                     metadataList=metadataList, dataList=dataList,
                                     setType=setType, description=description)
                          self.isConfig = True
                          self.setNextFile()
                      self.putData()
                      return
                  def setNextFile(self):
                      ext = self.ext
                      path = self.path
                      setFile = self.setFile
                      timeTuple = time.gmtime(self.dataOut.utctime)
                      #print("path: ",timeTuple)
                      subfolder = 'd%4.4d%3.3d' % (timeTuple.tm_year,timeTuple.tm_yday)
                      fullpath = os.path.join(path, subfolder)
                      if os.path.exists(fullpath):
                          filesList = os.listdir(fullpath)
                          filesList = [k for k in filesList if k.startswith(self.optchar)]
                          if len( filesList ) > 0:
                              filesList = sorted(filesList, key=str.lower)
                              filen = filesList[-1]
                              # el filename debera tener el siguiente formato
                              # 0 1234 567 89A BCDE (hex)
                              # x YYYY DDD SSS .ext
                              if isNumber(filen[8:11]):
                                  setFile = int(filen[8:11]) #inicializo mi contador de seteo al seteo del ultimo file
                              else:
                                  setFile = -1
                          else:
                              setFile = -1 #inicializo mi contador de seteo
                      else:
                          os.makedirs(fullpath)
                          setFile = -1 #inicializo mi contador de seteo
                      if self.setType is None:
                          setFile += 1
                          file = '%s%4.4d%3.3d%03d%s' % (self.optchar,
                                                         timeTuple.tm_year,
                                                         timeTuple.tm_yday,
                                                         setFile,
                                                         ext )
                      else:
                          setFile = timeTuple.tm_hour*60+timeTuple.tm_min
                          file = '%s%4.4d%3.3d%04d%s' % (self.optchar,
                                                         timeTuple.tm_year,
                                                         timeTuple.tm_yday,
                                                         setFile,
                                                         ext )
                      self.filename = os.path.join( path, subfolder, file )
                      #Setting HDF5 File
                      self.fp = h5py.File(self.filename, 'w')
                      #write metadata
                      self.writeMetadata(self.fp)
                      #Write data
                      self.writeData(self.fp)
                  def getLabel(self, name, x=None):
                      if x is None:
                          if 'Data' in self.description:
                              data = self.description['Data']
                              if 'Metadata' in self.description:
                                  data.update(self.description['Metadata'])
                          else:
                              data = self.description
                          if name in data:
                              if isinstance(data[name], str):
                                  return data[name]
                              elif isinstance(data[name], list):
                                  return None
                              elif isinstance(data[name], dict):
                                  for key, value in data[name].items():
                                      return key
                          return name
                      else:
                          if 'Metadata' in self.description:
                              meta = self.description['Metadata']
                          else:
                              meta = self.description
                          if name in meta:
                              if isinstance(meta[name], list):
                                  return meta[name][x]
                              elif isinstance(meta[name], dict):
                                  for key, value in meta[name].items():
                                      return value[x]
                          if 'cspc' in name:
                              return 'pair{:02d}'.format(x)
                          else:
                              return 'channel{:02d}'.format(x)
                  def writeMetadata(self, fp):
                      if self.description:
                          if 'Metadata' in self.description:
                              grp = fp.create_group('Metadata')
                          else:
                              grp = fp
                      else:
                          grp = fp.create_group('Metadata')
                      for i in range(len(self.metadataList)):
                          if not hasattr(self.dataOut, self.metadataList[i]):
                              log.warning('Metadata: `{}` not found'.format(self.metadataList[i]), self.name)
                              continue
                          value = getattr(self.dataOut, self.metadataList[i])
                          if isinstance(value, bool):
                              if value is True:
                                  value = 1
                              else:
                                  value = 0
                          grp.create_dataset(self.getLabel(self.metadataList[i]), data=value)
                      return
                  def writeData(self, fp):
                      if self.description:
                          if 'Data' in self.description:
                              grp = fp.create_group('Data')
                          else:
                              grp = fp
                      else:
                          grp = fp.create_group('Data')
                      dtsets = []
                      data = []
                      for dsInfo in self.dsList:
                          if dsInfo['nDim'] == 0:
                              ds = grp.create_dataset(
                                  self.getLabel(dsInfo['variable']),
                                  (self.blocksPerFile, ),
                                  chunks=True,
                                  dtype=numpy.float64)
                              dtsets.append(ds)
                              data.append((dsInfo['variable'], -1))
                          else:
                              label = self.getLabel(dsInfo['variable'])
                              if label is not None:
                                  sgrp = grp.create_group(label)
                              else:
                                  sgrp = grp
                              for i in range(dsInfo['dsNumber']):
                                  ds = sgrp.create_dataset(
                                      self.getLabel(dsInfo['variable'], i),
                                      (self.blocksPerFile, ) + dsInfo['shape'][1:],
                                      chunks=True,
                                      dtype=dsInfo['dtype'])
                                  dtsets.append(ds)
                                  data.append((dsInfo['variable'], i))
                      fp.flush()
                      log.log('Creating file: {}'.format(fp.filename), self.name)
                      self.ds = dtsets
                      self.data = data
                      self.firsttime = True
                      self.blockIndex = 0
                      return
                  def putData(self):
                      if (self.blockIndex == self.blocksPerFile) or self.timeFlag():
                          self.closeFile()
                          self.setNextFile()
                      for i, ds in enumerate(self.ds):
                          attr, ch = self.data[i]
                          if ch == -1:
                              ds[self.blockIndex] = getattr(self.dataOut, attr)
                          else:
                              ds[self.blockIndex] = getattr(self.dataOut, attr)[ch]
                      self.fp.flush()
                      self.blockIndex += 1
+                     if self.blockIndex == 1:
+                         log.log('Block No. {}/{} --> {}'.format(self.blockIndex, self.blocksPerFile,self.dataOut.datatime.ctime()), self.name)
+                     else:
                      log.log('Block No. {}/{}'.format(self.blockIndex, self.blocksPerFile), self.name)
                      return
                  def closeFile(self):
                      if self.blockIndex != self.blocksPerFile:
                          for ds in self.ds:
                              ds.resize(self.blockIndex, axis=0)
                      if self.fp:
                          self.fp.flush()
                          self.fp.close()
                  def close(self):
                      self.closeFile()

General Comments 0

Write
Preview

You need to be logged in to leave comments. Login now

No TODOs yet

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages