中文名 | 库模板筛法 | 外文名 | Library template sieving |
---|---|---|---|
学 科 | 计算机科学 | 定 义 | 一种基于特征的模板匹配方法 |
特 征 | 标记的周长和面积 | 作 用 | 加快匹配速度 |
文本图像压缩中需要创建在图像中出现的形状库。这些形状通常和字符有关,在图像中出现的形状就会被指向图形库的指针替换。一般来说,虽然存在许多变体,但处理步骤包括如下:
找出、分离并且抽取所有的标记,即图像中聚集在一起出现的黑色像素。
建立一个包含图像中发现所有标记的库
通过识别图像中的符号找到库中与之最接近的标记实现,并度量一个标记和下一个标记的偏移值。
压缩符号顺序和偏移并存储入库。由于这一步骤中所存储的信息可以产生称为重构文本的原始图像的近似,所以为了重构图像无损,需要包括下面处理步骤:存储足够的信息以完成从重构文本中恢复原始图像。
当标记被抽取出来以后,需要将其与已经在库中的标记匹配,所有匹配库成员的标记都会被保存在一个集合中。如果当前标记与库中现有的一个标记足够匹配的话,则将其添加到与改符号相应的匹配标记集中,尽管将一个标记与每一个库中模板进行匹配查找出与其最接近模板的可靠,但在一个模板被发现于一个特定的相似阈值之内时即立即终止运算会更有效。如果没有发现足够近似的匹配点,则将新标记添加到库中。模板匹配对成功识别标记至关重要,匹配过程一般通过检查误差图来实现,误差图通过将新符号和库成员逐比特进行异或得到。在计算误差图之前,匹配的双方必须要正确注册。新符号添加在库中每个符号之前,为此需要在库中设置一个固定的参考点。
概述
文本图像(textual image 或 text image)是一种特殊类型的黑白二值图像,它的主要特点是其内容一般由文字部分组成。从数据压缩的角度来看,文本图像存在位图和符号两个层次的冗余,后者是由图像中重复的符号引起的。针对文本图像的压缩标准和算法主要G3,G4JBIG和JBIG2等,其中 G3,G4和 JBIG 都是基于位图层次的压缩方法,而JBIG2是基于位图和符号层次冗余的两层压缩方法。另外,基于混合光栅内容( mixed raster content,MRC) 的DjVu 主要用于复合文档的压缩,它通过一个黑白二值掩码(mask)将图像分成前景和背景,然后对不同的部分再采用适合的算法分别进行压缩,其中对于掩码的压缩采用的是JB2算法。JB2 是 JBIG2 的一种变体,它和 JBIG2 的基本思想和实现方法都是类似的。JBIG2是最先进的文本图像压缩算法,如上所述它实现了一个两层压缩结构:首先根据“字典”的思想,采用模式匹配策略将不同的符号存储到一个模式字典中,这样图像中相同的符号就可以用字典中的匹配符号及其索引进行替代;然后对于得到的字典、索引以及符号的位置信息再采用基于信息熵的算术编码进行压缩。 模式匹配的过程中,所谓“相同”的符号是指其相对于人的视觉是相同的,而在位图层次往往不完全相同。如何将视觉上相同的符号归为一类是模式匹配算法面临的一个很大挑战。这是因为,由于扫描过程中的抖动、噪音 等原因,有些视觉上相同的符号在位图层次可能有比较大的差异,而某些外形接近的不同符号在位图层次的差异可能是比较小的。和英文文本图像相比,中文文本图像中的字符集规模更大,很多汉字结构比较复杂,且形近字非常多。中文文本图像的这些特点增加了对符号进行模式匹配的难度 。
JBIG2 是由 ITU和ISO组成的二值图像联合专家组(joint bi-level image expert group,JBIG)提出的一个压缩标准。JBIG2 的一个重要特点是:只规定了解码的标准和流程,而并没有定义一个明确的编码器。JBIG2 将编码程序开放,是为了鼓励研究者们针对不同特点的文本图像开发更加高效的编码算法。
JBIG2 的主要技术最早由美国贝尔实验室的Howard 等开发,主要包括 “模式匹配与替换 ”(pattern matching and substitution,PM&S) 和“软模式匹配”(soft pattern matching,SPM)技术。这些技术后来被ISO 采纳成为了 JBIG2 标准的一部分。美国加州大学圣地亚哥分校的 Ye 等对JBIG2 进行了系统的研究 ,主要从符号字典设计 、模式匹配速度和有损压缩的重构图像质量控制等方面提出了很多先进的算法。对于有损压缩系统,Ye 等针对英文字符的特点提取了符号的尺寸、象限矩心距离(quadrant centroid distance,QCD)以及拓扑结构作为特征,并利用这些特征来减少有损压缩中的替换误差。由于 Ye 等在 JBIG2 方面所做出的出色工作,其研究成果通过加州大学圣地亚哥分校的技术转移部门转让给了Apago 公司并应用到其商业化的产品中,成功实现了技术成果的转化。
意义
对于一些非常重要的正式文件,它的主要存储方式为文本图像。与文本文件相比较,图像文件能够对场景更加直观、真实的进行表述,对其不易进行篡改或者伪造。比如一些更能体现其真实性和有效性的图像文件,如包含手写签名、银行票据的图像文件。当今社会,不管是在商业经济方面还是政府部门等领域,对于很多重要的信息都是以电子图片的方式进行交流的。然而,不管是什么事物,它都具有两面性,在图像文件的管理方面,有着不容忽视的劣势。如果用图像的形式存储文字信息,信息量将变得很大,所需的存储空间也比电子文本文件大,不利于文字信息的快速识别。随着计算机技术的进步,这些不足将会逐渐被克服。
文本图像检索的实际应用涉及面广,可以运用到办公的文件管理、日常生活的文件查询、国企银行单位票据文件查询和检索等多个方面。
文本图像文件的高效、智能分类。在工作中,为了提高管理效率、使得信息的查询更加方便,就需要对大量的文本图像信息做一定的整理和分类。比如公司合同文件,它是依据公司标志信息的不同,利用文本图像检索技术将大量的错综复杂的图像文件进行分类和归档,高效智能的完成图像文件的管理,提高了业务办公的智能性和效率。
文本图像自动查询。虽然已经有 PDF、WORD 等电子文档查询的应用软件,但是用于检索文本图像内容的应用软件很罕见。日常生活中对文本图像文件检索的需求却在增加。如果对大量文本图像进行管理,不仅需要大量的人力、物力,而且工作量也非常大。尤其是需要查找图片文件中的关键字等特定信息,就要人工进行查看每张图的内容,并且还要相当仔细,导致工作量的增加,效率也不高,不但成本耗费大,也不能满足当前实际应用的需求。本文所研究的文本图像自动检索技术实现文本图像文件的快速查询和智能管理,能够帮助文件管理
人员快速、高效地处理图像文本文件,具有较大的实际应用意义。
知识产权保护。随着 IP 时代的到来,人们对知识产权也越来越重视,并颁布了相关法律对其进行保护。为了有效地管理和搜索查询只是产权文件,可以使用文本图像检索技术。图像文件保证了产权文件的不易篡改,自动检索技术提供了关键信息的快捷查询。随着文本图像文件量的急剧增加,文本图像的检索技术的作用体现得越来越明显。
合同管理。在当今法制社会中,具有法律效力的合同文件是经济市场中不可或缺的文件。合同文件的关键信息之一是个人签章或者手写签名。在合同文件图像的管理中,管理文件的员工不需要埋头在纸质文档中寻找领导需要的合同文件,只需敲敲手指就能在计算机上查找出来。手写字体的自动检索技术应用到合同图像文件中个人签名内容的识别,将大大提高对合同管理的效率。
其它用途。文本图像检索技术同样可以应用到军事中,对危险病毒文件自动监控和拦截以及对远方地理信息的描述等等。
库模板筛法是一种模板匹配方法,主要基于标记的特征,与输入标记明显不同的符号不必匹配,例如在宽度和长度上明显不同的模板必定是不相似的。库模板筛法主要基于面积和周长,当抽取标记后很容易得到这些数据,然而在实践的操作中并没有看起来容易,一方面因为它们和标记的宽度和高度有关;另一方面因为它们对噪声和数字化过程的参数特别敏感。其他看上去更确定的特征是垂直和水平的白行程数。库模板筛法的一个更好基础应该是比较两个标记中黑像素团的分布。通过将像素根据其质心注册,然后将其划分为围绕质心的4象限来实现。对于每个象限,计算其质心:对4个局部质心,分别计算其在两个标记中位置的距离,最后将4个距离平均。这一过程可能不断地重复,以确定一个基于原始质心的0级上距离(改质心距离为0,因为使用的是质心注册)、一个如上所述的1级上的距离,以及更高级上的距离。测试表明,优良的筛选结果往往是在1级距离上获得的,更复杂的处理并无必要。
1、广东地区,建筑工程比如梁套模板做法我是选则清单中的模板工程还是措施项目中的模板、脚手架工程 2、如果我选择清单中的模板工程,在措施项目中打钩,工程量表达式都变为1,但单位还是平方米,而不是项,需要...
图形算量中,梁的模板套取清单库中梁的模板还是套取措施中的模板
这个清单看你要求定的,两个清单是一个意思,如果套第一种做法则不在措施费里面,直接在整个项目里面,套第二种就在措施费里面,这个我在全费用综合清单就是用的第一种,措施费清单单独列项
建议到广联达造价信息指标网找一下数据
标记(signature)是边界的一维表达,可以用多种方法来产生。其基本思想是将原始的二维边界用元函数来表示,以降低表达难度。最简单的方法就是把从重心到边界的距离作为角度的函数来标记。
标记与链码同样不受边界平移的影响,但是当边界旋转或者发生尺度变换时,标记格会发生改变。对于旋转问题,可以采用类似于链码的旋转归一化方法进行解决。更常用的方法是通过固定标记的起始点来归一化。例如,可以选择离重心最远的边界点作为起始点,或者选择主轴上的某一点。虽然后者的计算量比较大,但是它比前者更加可靠,因为它用到了所有的边界点来参与计算。而对尺度变化则可以通过幅度的归一化来处理。
报告编号: 第 页, 共 页 粗集料筛分试验记录表(干筛法) JJ0201a 试验室名称: 中咨公路养护检测技术有限公司 记录编号: 工程部位 /用途 委托 / 任务编号 样品名称 样品编号 试验依据 JTG E42-2005 T 0302-2005 样品描述 试验条件 温度: 湿度: 试验日期 主要仪器设备及 编号 标准筛( JJL-1-1 )、电子天平( JTG-4)、烘箱( JLQ-3)等 干燥试样总量 m0 (g) 第 1 组 第 2组 平均 筛孔尺寸( mm) 筛上质量mi (g) 分计筛余 (%) 累计筛余 (%) 通过百分率 (%) 筛上质量mi (g) 分计筛余 (%) 累计筛余 (%) 通过百分率 (%) 通过百分 率(%) (1) (2) (3) (4) (1) (2) (3) (4) (5) 53 37.5 31.5 26.5 19 16 13.2
标准模板库是一个C 软件库,大量影响了C 标准程序库但并非是其的一部分。其中包含4个组件,分别为算法、容器、函数、迭代器。
模板是C 程序设计语言中的一个重要特征,而标准模板库正是基于此特征。标准模板库使得C 编程语言在有了同Java一样强大的类库的同时,保有了更大的可扩展性。
在C 标准中,STL被组织为下面的13个头文件:、
、
标准模板库系由Alexander Stepanov创造于1979年前后,这也正是比雅尼·斯特劳斯特鲁普创造C 的年代。
虽然David R. Musser于1971年开始即在计算机几何领域发展并倡导某些泛型程序设计观念,但早期并没有任何编程语言支持泛型程序设计。第一个支持泛型概念的语言是Ada。Alex和Musser曾于1987开发出一套相关的Ada library.
标准模板库设计人Stepanov早期从事教育工作,1970年代研究泛型程序设计,那时他与其同事一起在GE公司开发出一个新的程序语言——Tecton。
1983年,Stepanov先生转至Polytechnic大学教书,继续研究泛型程序设计,同时写了许多Scheme的程序,应用在graph与network的算法上,1985年又转至GE公司专门教授高阶程序设计,并将graph与network的Scheme程序,改用Ada写,用了Ada以后,他发现到一个动态(dynamically)类型的程序(如Scheme)与强制(strongly)类型的程序(如Ada)有多么的不同。
在动态类型的程序中,所有类型都可以自由的转换成别的类型,而强制类型的程序却不能。但是,强制类型在出错时较容易发现程序错误。
1988年Stepanov先生转至HP公司运行开发泛型程序库的工作。此时,他已经认识C语言中指针(pointer)的威力,他表示一个程序员只要有些许硬件知识,就很容易接受C语言中指针的观念,同时也了解到C语言的所有数据结构均可以指针间接表示,这点是C与Ada、Scheme的最大不同。
Stepanov并认为,虽然C 中的继承功能可以表示泛型设计,但终究有个限制。虽然可以在基础类型(superclass)定义算法和接口,但不可能要求所有对象皆是继承这些,而且庞大的继承体系将减低虚拟(virtual)函数的运行效率,这便违反的前面所说的“效率”原则。
到了C 模板观念,Stepanov参加了许多有关的研讨会,与C 之父Bjarne讨论模板的设计细节。如,Stepanov认为C 的函数模板(function template)应该像Ada一样,在声明其函数原型后,应该显式的声明一个函数模板之实例(instance);Bjarne则不然,他认为可以通过C 的重载(overloading)功能来表达。
Stepanov想像中的函数模板:
in*.hpp templateTsquare(Tx){returnx*x;} in*.cpp doublesquare(double); cout< Bjarne认为的函数模板:
in*.hpp templateTsquare(Tx){returnx*x;} in*.cpp cout< 几经争辩,Stepanov发现Bjarne是对的(引用侯俊杰《标准模板库讲座·第三章》)。事后Stepanov回想起来非常同意Bjarne的作法。
template 引数推导机制(arguments deduction ,在标准模板库中占非常重要的角色。Alexander Stepanov(标准模板库创造者)在与Dr. Dobb's Journal进行的访谈中说道‘1992 我重回generic-library的开发工作。这时候C 有了template
“我发现Bjarne完成了一个非常美妙的设计。之前我在Bell Lab曾参与数次template的相关设计讨论,并且非常粗暴地要求Bjarne应该将C template设计得尽可能像Ada generics那样。我想由于我的争辩是如此地粗暴,他决定反对。我了解到在C 中除了拥有template classes之外还拥有template functions的重要性。然而我认为template function应该像Ada generics一样,也就是说它们应该是显式实例,Bjarne没有听进我的话,他设计了一个template function机制,其中的template是以一个重载化机制 (overloading mechanism来进行隐式实例这项特殊的技术对我的工作具有关键性的影响,因为我发现它使我得以完成Ada不可能完成的许多动作。我非常高兴Bjarne当初没有听我的意见。’(DDJ 1995 年三月号)”
事实上,C 的模板,本身即是一套复杂的宏语言(macro language),宏语言最大的特色为:所有工作在编译时期就已完成。显式的声明函数模板之实例,与直接通过C 的重载功能隐式声明,结果一样,并无很大区别,只是前者加重程序员的负担,使得程序变得累赘。
1992年Meng Lee加入Alex的项目,成为另一位主要贡献者。
1992年,HP泛型程序库项目结束,小组解散,只剩下Stepanov先生与Meng Lee小姐(她是东方人,标准模板库的英文名称其实是取STepanov与Lee而来),Lee先前研究的是编译器的制作,对C 的模板很熟,第一版的标准模板库中许多程序都是Lee的杰作。
1993年,Andy Koenig到史丹佛演讲,Stepanov便向他介绍标准模板库,Koenig听后,随即邀请Stepanov参加1993年11月的ANSI/ISO C 标准化会议,并发表演讲。
Bell实验室的Andrew Koenig于1993年知道标准模板库研究计划后,邀请Alex于是年11月的ANSI/ISO C 标准委员会会议上展示其观念。并获得与会者热烈的回应。
1994年1月6日,Koenig寄封电子邮件给Stepanov,表示如果Stepanov愿意将标准模板库的帮助文档撰写齐全,在1月25日前提出,便可能成为标准C 的一部分。Stepanov回信道:"Andy, are you crazy" 。 Koenig便说:"Well, yes I am crazy,but why not try it"。
Alex于是在次年夏天在Waterloo举行的会议前完成其正式的提案,并以百分之八十压倒性多数,一举让这个巨大的计划成为C Standard的一部分。
标准模板库于1994年2月年正式成为ANSI/ISO C 的一部分,它的出现,促使C 程序员的思维方式更朝向泛型编程(generic program)发展。
标准模板库内容
STL 将“在数据上执行的操作”与“要执行操作的数据分开”,分别以如下概念指代:
容器:包含、放置数据的地方。
迭代器:在容器中指出一个位置、或成对使用以划定一个区域,用来限定操作所涉及到的数据范围。
算法:要执行的操作。
标准模板库包含了序列容器(sequence containers)与关系容器(associative containers)。
序列容器包括vector,list,forward_list,deque和array等。
关联容器包括set,multiset,map,multimap,unordered_set,bitset和valarray等。
标准模板库迭代器
迭代器是泛化的指针,通过使用迭代器,开发者可以操作数据结构而无需关心其内部实现。根据迭代器的操作方式的不同,迭代器分为五种:
输入迭代器
输出迭代器
前向迭代器
双向迭代器
随机访问迭代器
标准模板库算法
STL提供了一些常见 的算法,如排序和搜索等。这些算法与数据结构的实现进行了分离。因此,用于也可对自定义的数据结构使用这些算法,只需让这些自定义的数据结构拥有算法所预期的迭代器。
标准模板库函数对象
狭义的函数对象即重载了操作符()的类的实例,而广义来讲所有可用 x(...) 形式调用的 x 都可称为函数对象、或曰可调用对象。
标准模板库适配器
适配器(Adaptor)为一个模板类,用于提供接口映射。
标准模板库与C 标准程序库的差异
一个常见的误解是STL是C 标准程序库的一部分,但事实上并非如此。例如hash table的数据结构实当前STL中有
模板可供调用,但C 标准程序库一直到C 11才加入了 。 2100433B
afximpl.h 实现了一套模板库,如CArray, CList, CMap等。因为在发布时STL尚未进入C 语言标准,因此ATL自行开发实现了一套。
ATL定义三个宏来来影响生成的COM服务器的优化。
_ATL_MIN_CRT 服务器不链接标准的C/C 运行库,并且ATL提供了函数malloc、realloc、new和delete的一个实现。不能调用任何其他的C/C 运行库的函数。_mainATL向导生成的ATL工程为所有的Release版本的定义了_ATL_MIN_CRT,但是没有为Debug版本定义这个符号宏。
_ATL_DLL 服务器动态链接工具函数库atl.dll
_ATL_STATIC_REGISTRY 服务器静态链接对组件注册的支持
Debug配置没有定义上述三个符号宏。Release MinSize配置定义了_ATL_MIN_CRT和_ATL_DLL。Release MinDependency配置定义了_ATL_MIN_CRT和_ATL_STATIC_REGISTRY。