rnn实时预测期货价格
1. 实在忍不住,告诉大家光波预测88是什么吧
我立志发一个之家有史以来最长的水贴,不要和我抢,因为没人抢得过我!虽然很长,但绝对不是懒婆娘的裹脚布,相反,非常经典。我敢打赌,没有文中提到的这些人,我们现在还生活在科学的黑暗中!献给坛上热爱科学的乖小孩!:D好下面开始:上帝掷骰子吗——量子物理史话 本文的作者好像是上海的某位网友,他通过通俗而引人入盛的语言,将量子力学的历史娓娓道来,完全没有讲述历史搬枯燥乏味,同时通过一些恰当的比方,将一些复杂的道理讲的透彻而易理解。是难得的科普读物。比起那些大讲某某定理,动辄让人头晕目眩的长篇的公式,这篇确是它们的典范。 序 如果要评选物理学发展史上最伟大的那些年代,那么有两个时期是一定会入选的:17世纪末和20世纪初。前者以牛顿《自然哲学之数学原理》的出版为标志,宣告了现代经典物理学的正式创立;而后者则为我们带来了相对论和量子论,并最彻底地和重建了整个物理学体系。所不同的是,今天当我们再谈论起牛顿的时代,心中更多的已经只是对那段光辉岁月的怀旧和祭奠;而相对论和量子论却仍然深深地影响和困扰着我们至今,就像两颗青涩的橄榄,嚼得越久,反而更加滋味无穷。 我在这里先要给大家讲的是量子论的故事。这个故事更像一个传奇,由一个不起眼的线索开始,曲径通幽,渐渐地落英缤纷,乱花迷眼。正在没个头绪处,突然间峰回路转,天地开阔,如河出伏流,一泄。然而还未来得及一览美景,转眼又大起大落,误入白云深处不知归路……量子力学的发展史是物理学上最激动人心的篇章之一,我们会看到物理大厦在狂风暴雨下轰然坍塌,却又在熊熊烈焰中得到了洗礼和重生。我们会看到最革命的思潮席卷大地,带来了让人惊骇的电闪雷鸣,同时却又展现出震撼人心的美丽。我们会看到科学如何在荆棘和沼泽中艰难地走来,却更加坚定了对胜利的信念。 量子理论是一个复杂而又难解的谜题。她像一个神秘的少女,我们天天与她相见,却始终无法猜透她的内心世界。今天,我们的现代文明,从电脑,电视,到核能,,生物技术,几乎没有哪个领域不依赖于量子论。但量子论究竟带给了我们什么?这个问题至今却依然难以回答。在自然哲学观上,量子论带给了我们前所未有的冲击和震动,甚至改了整个物理世界的基本思想。它的观念是如此地革命,乃至最不保守的科学家都在潜意识里对它怀有深深的惧意。现代文明的繁盛是理性的胜利,而量子论无疑是理性的最高成就之一。但是它被赋予的力量太过强大,以致有史以来第一次,我们的理性在胜利中同时埋下了能够毁灭它自身的种子。以致量子论的奠基人之一玻尔(Niels Bohr)都要说:“如果谁不为量子论而感到困惑,那他就是没有理解量子论。” 掐指算来,量子论创立至今已经超过年,但它的一些基本思想却仍然不为普通的大众所熟知。那么,就让我们再次回到那个伟大的年代,再次回顾一下那场史诗般壮丽的革命,再次去穿行于那惊涛骇浪之间,领略一下晕眩的感觉吧。我们的快艇就要出发,当你感到恐惧或者震惊时,请务必抓紧舷边。但大家也要时刻记住,当年,物理史上最伟大的天才们也走过同样的航线,而他们的感觉,和我们是一模一样的。 第一章 黄金时代 一 我们的故事要从年的德国开始。位于莱茵河边的卡尔斯鲁厄是一座风景秀丽的城,它的城中心,矗立着著名的18世纪的宫殿。郁郁葱葱的森林和温暖的气候也使得这座小城成为了欧洲的一个旅游名胜。然而这些怡人的景色似乎没有分散海因里希·鲁道夫·赫兹(Heinrich Rudolf Hertz)的注意力:现在他正在卡尔斯鲁厄大学的一间实验室里专心致志地摆弄他的仪器。那时候,赫兹刚刚30岁,也许不会想到他将在科学史上成为和他的老师赫耳姆霍兹(Hernnvon Helmholtz)一样鼎鼎有名的人物,不会想到他将和卡尔·本茨(Carl Benz)一样成为这个小城的骄傲。现在他的心思,只是完完全全地倾注在他的那套装置上。 赫兹的装置在今天看来是很简单的:它的主要部分是一个电火花发生器,有两个相隔很近的小铜球作为电容。赫兹全神贯注地注视着这两个相对而视的铜球,然后合上了电路开关。 顿时,电的魔力开始在这个简单的系统里展现出来:无形的电流穿过装置里的感应线圈,并开始对铜球电容进行充电。赫兹冷冷地注视着他的装置,在心里面想象着电容两段电压不断上升的情形。在电学的领域攻读了那么久,赫兹对自己的知识是有充分信心的,他知道,随着电压的上升,很快两个小球之间的空气就会被击穿,然后整个系统就会形成一个高频的振荡回路(LC回路),但是,他现在想要观察的不是这个。 果然,过了一会儿,随着细微的“啪”的一声,一束美丽的蓝色电花爆开在两个铜球之间,整个系统形成了一个完整的回路,细小的电流束在空气中不停地扭动,绽放出幽幽的荧光。 赫兹反而更加紧张了,他盯着那串电火花,还有电火花旁边的空气,心里面想象了一幅又一幅的图景。他不是要看这个装置如何产生火花短路,他这个实验的目的,是为了求证那虚无飘渺的“电磁波”的存在。那是一种什么样的东西啊,它看不见,摸不着,到那时为止谁也没有见过,验证过它的存在。可是,赫兹是坚信它的存在的,因为它是麦克斯韦(Maxwell)理论的一个预言。而麦克斯韦理论……哦,它在数学上简直完美得像一个奇迹!仿佛是上帝的手写下的一首诗。这样的理论,很难想象它是错误的。赫兹吸了一口气,又笑了:不管理论怎样无懈可击,它毕竟还是要通过实验来验证的呀。他站在那里看了一会儿,在心里面又推想了几遍,终于确定自己的实验无误:如果麦克斯韦是对的话,那么在两个铜球之间就应该产生一个振荡的电场,同时引发一个向外传播的电磁波。赫兹转过头去,在实验室的另一边,放着一个开口的铜环,在开口处也各镶了一个小铜球。那是电磁波的接收器,如果麦克斯韦的电磁波真的存在的话,那么它就会穿越这个间到达另外一端,在接收器那里感生一个振荡的电动势,从而在接收器的开口处也激发出电火花来。 实验室里面静悄悄地,赫兹一动不动地站在那里,仿佛他的眼睛已经看见那无形的电磁波在空间穿越。铜环接受器突然显得有点异样,赫兹简直不住要大叫一声,他把自己的鼻子凑到铜环的前面,明明白白地看见似乎有微弱的火花在两个铜球之间的空气里飘浮:赫兹飞快地跑到窗口,把所有的窗帘都拉上,现在更清楚了:淡蓝色的电花在铜环的缺口不断地绽开,而整个铜环却是一个隔离的系统,既没有连接电池也没有任何的能量来源。赫兹注视了足足有一分钟之久,在他眼里,那些蓝色的火花显得如此地美丽。终于他揉了揉眼睛,直起腰来:现在不用再怀疑了,电磁波真真实实地存在于空间之中,正是它激发了接收器上的电火花。他胜利了,成功地解决了这个8年前由柏林普鲁士科学院提出悬赏的问题;同时,麦克斯韦的理论也胜利了,物理学的一个新高峰——电磁理论终于被建立起来。伟大的法拉第(Michael Faraday)为它打下了地基,伟大的麦克斯韦建造了它的主体,而今天,他——伟大的赫兹——为这座大厦封了顶。 赫兹小心地把接受器移到不同的位置,电磁波的表现和理论预测的丝毫不爽。根据实验数据,赫兹得出了电磁波的波长,把它乘以电路的振荡频率,就可以计算出电磁波的前进速。这个数值精确地等于30万公里/秒,也就是光速。麦克斯韦惊人的预言得到了证实:原来电磁波一点都不神秘,我们平时见到的光就是电磁波的一种,只不过它的频率限定在某一个范围内,而能够为我们所见到罢了。 无论从哪一个意义上来说,这都是一个了不起的发现。古老的光学终于可以被完全包容于新兴的电磁学里面,而“光是电磁波的一种”的论断,也终于为争论已久的光本性的问题下了一个似乎是不可的定论(我们马上就要去看看这场旷日持久的精彩大战)。电磁波的反射、衍射和干涉实验很快就做出来了,这些实验进一步地证实了电磁波和光波的一致性,无疑是电磁理论的一个巨大成就。 赫兹的名字终于可以被闪光地镌刻在科学史的名人堂里,可是,作为一个纯粹的严肃的科学家,赫兹当时却没有想到他的发现里面所蕴藏的巨大的商业意义。在卡尔斯鲁厄大学的那间实验室里,他想的只是如何可以更加靠近大自然的终极奥秘,根本没有料到他的实验会带来一场怎么样的时代革命。赫兹英年早逝,还不到37岁就离开了这个他为之醉心的世界。然而,就在那一年,一位在伦巴底度假的20岁意大利青年读到了他的关于电磁波的论文;两年后,这个青年已经在公开场合进行了无线电的通讯表演,不久他的成立,并成功地拿到了专利证。到了年,赫兹死后的第7年,无线电报已经可以穿越大西洋,实现实时通讯了。这个来自意大利的年轻人就是古格列尔莫·马可尼(GuglielmoMarconi),与此同时的波波夫(Aleksandr Popov)也在无线通讯领域做了同样的贡献。他们掀起了一场革命的风暴,把整个人类带进了一个崭新的“信息时代”。不知赫兹如果身后有知,又会做何感想? 但仍然觉得赫兹只会对此置之一笑。他是那种纯粹的科学家,把对真理的追求当作人生最大的价值。恐怕就算他想到了电磁波的商业前景,也会不屑去把它付诸实践的吧?也许,在美丽的森林和湖泊间散步,思考自然的终极奥秘,在秋天落叶的校园里,和学生探讨学术问题,这才是他真正的人生吧。今天,他的名字已经成为频率这个物理量的单位,被每个人不断地提起,可是,或许他还会嫌我们打扰他的安宁呢? 二 上次我们说到,年,赫兹的实验证实了电磁波的存在,也证实了光其实是电磁波的一种,两者具有共同的波的特性。这就为光的本性之争画上了一个似乎已经是不可更改的句。 说到这里,我们的故事要先回一回头,穿越时空去回顾一下有关于光的这场大战。这也许是物理史上持续时间最长,程度最激烈的一场论战。它几乎贯穿于整个现代物理的发展过程中,在历史上烧灼下了永不磨灭的烙印。 光,是每个人见得最多的东西(“见得最多”在这里用得真是一点也不错)。自古以来,它就被理所当然地认为是这个宇宙最原始的事物之一。在远古的神话中,往往是“一道亮光”劈开了混沌和黑暗,于是世界开始了运转。光在人们的心目中,永远代表着生命,活力和希望。在《圣经》里,神要创造世界,首先要创造的就是光,可见它在这个宇宙中所占的独一无二的地位。 可是,光究竟是一种什么东西?或者,它究竟是不是一种“东西”呢? 远古时候的人们似乎是不把光作为一种实在的事物的,光亮与黑暗,在他们看来只是一种环境的不同罢了。只有到了古希腊,科学家们才开始好好地注意起光的问题来。有一样事情是肯定的:我们之所以能够看见东西,那是因为光在其中作用的结果。人们于是猜想,光是一种从我们的眼睛里发射出去的东西,当它到达某样事物的时候,这样事物就被我们所“看见”了。比如恩培多克勒(empedocles)就认为世界是由水、火、气、土四大元素组成的,而人的眼睛是女神阿芙罗狄忒(aphrodite)用火点燃的,当火元素(也就是光。古时候往往光、火不分)从人的眼睛里喷出到达物体时,我们就得以看见事物。 但显而易见,这种解释是不够的。它可以说明为什么我们睁着眼可以看见,而闭上眼睛就不行;但它解释不了为什么在暗的地方,我们即使睁着眼睛也看不见东西。为了解决这个困难,人们引进了复杂得多的假设。比如认为有三种不同的光,分别来源于眼睛,被看到的物体和光源,而视觉是三者综合作用的结果。 这种假设无疑是太复杂了。到了罗马时代,伟大的学者卢克莱修(lucretius)在其不朽著作《物性论》中提出,光是从光源直接到达人的眼睛的,但是他的观点却始终不为人们所接受。对光成像的正确认识直到公元年左右才被一个波斯的科学家阿尔\;哈桑(al-haytham)所提出:原来我们之所以能够看到物体,只是由于光从物体上反射到我们眼睛里的结果。他提出了许多证据来证明这一点,其中最有力的就是小孔成像的实验,当我们亲眼看到光通过小孔后成了一个倒立的像,我们就无可怀疑这一说法的正确性了。 关于光的一些性质,人们也很早就开始研究了。基于光总是走直线的假定,欧几里德(euclid)在《反射光学》(catoptrica)一书里面就研究了光的反射问题。托勒密(ptolemy)、哈桑和开普勒(johannes kepler)都对光的折射作了研究,而荷兰物理学家斯涅耳(w.snell)则在他们的工作基础上于年总结出了光的折射定律。最后,光的种种性质终于被有“业余数学之王”之称的费尔马(pierre de fert)所归结为一个简单的法则,那就是“光总是走最短的路线”。光学终于作为一门物理学科被正式确立起来。 但是,当人们已经对光的种种行为了如指掌的时候,却依然有一个最基本的问题没有得到解决,那就是:“光在本质上到底是一种什么东西?”这个问题看起来似乎并没有那么难回答,但人们大概不会想到,对于这个问题的探究居然会那样地旷日持久,而这一探索的过程,对物理学的影响竟然会是那么地深远和重大,其意义超过当时任何一个人的想象。 古希腊时代的人们总是倾向于把光看成是一种非常细小的粒子流,换句话说光是由一粒粒非常小的“光原子”所组成的。这种观点一方面十分符合当时流行的元素说,另外一方面,当时的人们除了粒子之外对别的物质形式也了解得不是太多。这种理论,我们把它称之为光的“微粒说”。微粒说从直观上看来是很有道理的,首先它就可以很好地解释为什么光总是沿着直线前进,为什么会严格而经典地反射,甚至折射现象也可以由粒子流在不同介质里的速度变化而得到解释。但是粒子说也有一些显而易见的困难:比如人们当时很难说清为什么两道光束相互碰撞的时候不会互相弹开,人们也无法得知,这些细小的光粒子在点上灯火之前是隐藏在何处的,它们的数量是不是可以无限多,等等。 当黑暗的中世纪过去之后,人们对自然世界有了进一步的认识。波动现象被深入地了解和研究,声音是一种波动的认识也逐渐为人们所接受。人们开始怀疑:既然声音是一种波,为什么光不能够也是波呢?十七世纪初,笛卡儿(des cartes)在他《方》的三个附录之一《折光学》中率先提出了这样的可能:光是一种压力,在媒质里传播。不久后,意大利的一位数学教授格里马第(francesco ria grildi)做了一个实验,他让一束光穿过两个小孔后照到暗室里的屏幕上,发现在投影的边缘有一种明暗条纹的图像。格里马第马上联想起了水波的衍射(这个大家在中学物理的插图上应该都见过),于是提出:光可能是一种类似水波的波动,这就是最早的光波动说。 波动说认为,光不是一种物质粒子,而是由于介质的振动而产生的一种波。我们想象一下水波,它不是一种实际的传递,而是沿途的水面上下振动的结果。光的波动说容易解释投影里的明暗条纹,也容易解释光束可以互相穿过互不干扰。关于直线传播和反射的问题,人们很快就认识到光的波长是很短的,在大多数情况下,光的行为就犹同经典粒子一样。而衍射实验则更加证明了这一点。但是波动说有一个基本的难题,那就是任何波动都需要有介质才能够传递,比如声音,在真空里就无法传播。而光则不然,它似乎不需要任何媒介就可以任意地前进。举一个简单的例子,星光可以穿过几乎虚无一物的太空来到地球,这对波动说显然是非常不利的。但是波动说巧妙地摆脱了这个难题:它假设了一种看不见摸不着的介质来实现光的传播,这种介质有一个十分响亮而让人印象深刻的名字,叫做“以太”(aether)。 就在这样一种奇妙的气氛中,光的波动说登上了历史舞台。我们很快就会看到,这个新生力量似乎是微粒说的前世冤家,它命中注定要与后者开展一场长达数个世纪之久的战争。他们两个的命运始终互相纠缠在一起,如果没有了对方,谁也不能说自己还是完整的。到了后来,他们简直就是为了对手而存在着。这出精彩的戏剧从一开始的伏笔,经过两个起落,到达令人眼花缭乱的。而最后绝妙的结局则更让我们相信,他们的对话几乎是一种可遇而不可求的缘分。17世纪中期,正是科学的黎明到来之前那最后的黑暗,谁也无法预见这两朵小火花即将要引发一场熊熊大火。 ******** 饭后闲话:说说“以太”(aether)。 正如我们在上面所看到的,以太最初是作为光波媒介的假设而提出的。但“以太”一词的由来则早在古希腊:亚里士多德在《论天》一书里阐述了他对天体的认识。他认为日月星辰围绕着地球运转,但其组成却不同与地上的四大元素水火气土。天上的事物应该是完美无缺的,它们只能由一种更为纯洁的元素所构成,这就是亚里士多德所谓的“第五元素”——以太(希腊文的αηθηρ)。而自从这个概念被借用到科学里来之后,以太在历史上的地位可以说是相当微妙的,一方面,它曾经扮演过如此重要的角色,以致成为整个物理学的基础;另一方面,当它荣耀不再时,也曾受尽嘲笑。虽然它不甘心地再三挣扎,改换头面,赋予自己新的意义,却仍然逃不了最终被抛弃的命运,甚至有段时间几乎成了伪科学的专用词。但无论怎样,以太的概念在科学史上还是占有它的地位的,它曾经代表的光媒以及绝对参考系,虽然已经退出了舞台,但直到今天,仍然能够唤起我们对那段黄金岁月的怀念。它就像是一张泛黄的照片,记载了一个贵族光荣的过去。今天,以太(ether)作为另外一种概念用来命名一种网络协议(ethernet),看到这个词的时候,是不是也每每生出几许慨叹? 向以太致敬。
2. 如何将自己的数据转化成tensorflow的rnn需要的数据
就一个abcd作为一条样本即可,a b c d 的每一步都会计算loss的,所以拆开也没啥用 另外你这个不是序列标注,因为你是要预测下一个,而不是给整体一个最佳序列
3. nlp 中rnn怎么将单词转化为固定维度的向量
所有的QA对问题的逻辑都比较简单,所以命名为Simple QA。仅仅依赖于KB里面的一个facts,这样做的好处是可以简化模型的推理过程。
数据量大,包含十万多个QA对,而且都是人工生成,语法相对而言更贴近自然语言,而且问题覆盖面广,类型较全。
所有QA对都依赖于KB中的实体和facts。保证了KB的覆盖性。
存储KB,第一步是使用Input组件解析知识库并将其存入Memory之中。
训练,第二步是使用Simple QA数据集的所有QA对作为输入,经过Input、Output、Response三个组件进行预测并使用反向传播训练网络中的参数
泛化,最后使用Reverb数据集直接接入模型(不在进行重新训练),使用Generalization模块将其与Memory中已经存在的facts关联,看最终效果如何
接下来我们介绍一下论文使用的模型,仍然沿用Memory Networks提出的I、G、O、R四组件的架构,其工作流程如下
4. 实际波动率的概念
要明确实际波动率,首先要从波动率的概念入手。波动率(Volatility):是指关于资产未来价格不确定性的度量。它通常用资产回报率的标准差来衡量。也可以指某一证券的一年最高价减去最低价的值再除以最低价所得到的比率。业内将波动率定义为价格比率自然对数的标准差。波动率的种类有:实际波动率,隐含波动率,历史波动率等等,实际波动率便是波动率的一种。
5. 什么是波动率指数
1987的全球股灾后,为稳定股市与保护投资者,纽约证券交易所(NYSE)于1990年引进了断路器机制(Circuit-breakers),当股价发生异常变动时,暂时停止交易,试图降低市场的波动性来恢复投资者的信心。但断路器机制引进不久,对于如何衡量市场波动性市场产生了许多新的认识,渐渐产生了动态显示市场波动性的需求。因此,在NYSE采用断路器来解决市场过度波动问题不久,芝加哥期权交易所从1993年开始编制市场波动率指数(Market Volatility Index,VIX),以衡量市场的波动率。
CBOE 在1973年4月开始股票期权交易后,就一直有通过期权价格来构造波动率指数的设想,以反映市场对于的未来波动程度的预期。其间有学者陆续提出各种计算方法,Whaley(1993)[1] 提出了编制市场波动率指数作为衡量未来股票市场价格波动程度的方法。同年,CBOE开始编制VIX 指数,选择S&P100 指数期权的隐含波动率为编制基础,同时计算买权与卖权的隐含波动率,以考虑交易者使用买权或卖权的偏好。
VIX表达了期权投资者对未来股票市场波动性的预期,当指数越高时,显示投资者预期未来股价指数的波动性越剧烈;当VIX指数越低时,代表投资者认为未来的股价波动将趋于缓和。由于该指数可反应投资者对未来股价波动的预期,并且可以观察期权参与者的心理表现,也被称为“投资者情绪指标”(The investor fear gauge )。经过十多年的发展和完善,VIX指数逐渐得到市场认同,CBOE于2001年推出以NASDAQ 100指数为标的的波动性指标 (NASDAQ Volatility Index ,VXN); CBOE2003年以S&P500指数为标的计算VIX指数,使指数更贴近市场实际。2004年推出了第一个波动性期货(Volatility Index Futures)VIX Futures, 2004年推出第二个将波动性商品化的期货,即方差期货 (Variance Futures),标的为三个月期的S&P500指数的现实方差(Realized Variance)。2006年,VIX指数的期权开始在芝加哥期权交易所开始交易
计算波动率指数(VIX)需要的核心数据是隐含波动率,隐含波动率由期权市场上最新的交易价格算出,可以反映市场投资者对于未来行情的预期。其概念类似于债券的到期收益率(Yield To Maturity):随着市场价格变动,利用适当的利率将债券的本金和票息贴现,当债券现值等于市场价格时的贴现率即为债券的到期收益率,也就是债券的隐含报酬率。在计算过程中利用债券评价模型,通过使用市场价格可反推出到期收益率,这一收益率即为隐含的到期收益率。
6. 如何用Tensorflow实现RNN
class TextLoader():
def __init__(self, data_dir, batch_size, seq_length, encoding='utf-8'):
self.data_dir = data_dir
self.batch_size = batch_size
self.seq_length = seq_length
self.encoding = encoding
#第一次运行程序时只有input.txt一个文件,剩下两个文件是运行之后产生的
input_file = os.path.join(data_dir, "input.txt")
vocab_file = os.path.join(data_dir, "vocab.pkl")
tensor_file = os.path.join(data_dir, "data.npy")
#如果是第一次执行则调用preprocess函数,否则调用load_preprocessed函数。
if not (os.path.exists(vocab_file) and os.path.exists(tensor_file)):
print("reading text file")
self.preprocess(input_file, vocab_file, tensor_file)
else:
print("loading preprocessed files")
self.load_preprocessed(vocab_file, tensor_file)
self.create_batches()
self.reset_batch_pointer()
def preprocess(self, input_file, vocab_file, tensor_file):
with codecs.open(input_file, "r", encoding=self.encoding) as f:
data = f.read()
#使用Counter函数对输入数据进行统计。counter保存data中每个字符出现的次数
counter = collections.Counter(data)
#对counter进行排序,出现次数最多的排在前面
count_pairs = sorted(counter.items(), key=lambda x: -x[1])
#将data中出现的所有字符保存,这里有65个,所以voacb_size=65
self.chars, _ = zip(*count_pairs)
self.vocab_size = len(self.chars)
#按照字符出现次数多少顺序将chars保存,vocab中存储的是char和顺序,这样方便将data转化为索引
self.vocab = dict(zip(self.chars, range(len(self.chars))))
with open(vocab_file, 'wb') as f:
#保存chars
cPickle.mp(self.chars, f)
#将data中每个字符转化为索引下标。
self.tensor = np.array(list(map(self.vocab.get, data)))
np.save(tensor_file, self.tensor)
def load_preprocessed(self, vocab_file, tensor_file):
#如果是第二次运行,则可以直接读取之前保存的chars和tensor
with open(vocab_file, 'rb') as f:
self.chars = cPickle.load(f)
self.vocab_size = len(self.chars)
self.vocab = dict(zip(self.chars, range(len(self.chars))))
self.tensor = np.load(tensor_file)
self.num_batches = int(self.tensor.size / (self.batch_size *
self.seq_length))
def create_batches(self):
#首先将数据按batch_size切割,然后每个batch_size在按照seq_length进行切割
self.num_batches = int(self.tensor.size / (self.batch_size *
self.seq_length))
if self.num_batches == 0:
assert False, "Not enough data. Make seq_length and batch_size small."
self.tensor = self.tensor[:self.num_batches * self.batch_size * self.seq_length]
xdata = self.tensor
#构造target,这里使用上一个词预测下一个词,所以直接将x向后一个字符即可
ydata = np.(self.tensor)
ydata[:-1] = xdata[1:]
ydata[-1] = xdata[0]
#将数据进行切分,这里我们假设数据总长度为10000,batch_size为100, seq_length为10.
# 所以num_batches=10,所以,xdata在reshape之后变成[100, 100],然后在第二个维度上切成10份,
# 所以最终得到[100, 10, 10]的数据
self.x_batches = np.split(xdata.reshape(self.batch_size, -1),
self.num_batches, 1)
self.y_batches = np.split(ydata.reshape(self.batch_size, -1),
self.num_batches, 1)
def next_batch(self):
x, y = self.x_batches[self.pointer], self.y_batches[self.pointer]
self.pointer += 1
return x, y
def reset_batch_pointer(self):
self.pointer = 0
7. 深度学习的主要分类是什么呀这些网络cnn dbn dnm rnn是怎样的关系
简单来说:
1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习
2)大数据(Big Data)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述
具体来说:
1)机器学习(Machine Learning)是一个大的方向,里面包括了很多种 approach,比如 deep learning, GMM, SVM, HMM, dictionary learning, knn, Adaboosting...不同的方法会使用不同的模型,不同的假设,不同的解法。这些模型可以是线性,也可以是非线性的。他们可能是基于统计的,也可能是基于稀疏的....
不过他们的共同点是:都是 data-driven 的模型,都是学习一种更加 abstract 的方式来表达特定的数据,假设和模型都对特定数据广泛适用。好处是,这种学习出来的表达方式可以帮助我们更好的理解和分析数据,挖掘数据隐藏的结构和关系。
Machine Learning 的任务也可以不同,可以是预测(prediction),分类(classification),聚类(clustering),识别(recognition),重建(reconstruction),约束(regularization),甚至降噪(denoising),超分辨(super-resolution),除马赛克(Demosaicing)等等....
2)深度学习(Deep Learning)是机器学习的一个子类,一般特指学习高层数的网络结构。这个结构中通常会结合线性和非线性的关系。
Deep Learning 也会分各种不同的模型,比如 CNN, RNN, DBN...他们的解法也会不同。
Deep Learning 目前非常流行,因为他们在图像,视觉,语音等各种应用中表现出了很好的 empirical performance。并且利用 gpu 的并行运算,在模型相当复杂,数据特别大量的情况下,依然可以达到很理想的学习速度。
因为 Deep Learning 往往会构建多层数,多节点,多复杂度的模型,人们依然缺乏多里面学习的结构模型的理解。很多时候,Deep Learning 甚至会被认为拥有类似于人类神经网络的结构,并且这种类似性被当做 deep learning 居然更大 potential 的依据。但答主个人认为,其实这略有些牵强...听起来更像是先有了这种 network 的结构,再找一个类似性。当然,这仅仅是个人观点...(私货私货)
3)大数据(Big Data,我们也叫他逼格数据....)是对数据和问题的描述。通常被广泛接受的定义是 3 个 V 上的“大”:Volume(数据量), Velocity(数据速度)还有 variety(数据类别)。大数据问题(Big-data problem)可以指那种在这三个 V 上因为大而带来的挑战。
Volume 很好理解。一般也可以认为是 Large-scale data(其实学术上用这个更准确,只是我们出去吹逼的时候就都叫 big data 了...)。“大”可以是数据的维度,也可以是数据的 size。一般 claim 自己是 big-data 的算法会比较 scalable,复杂度上对这两个不敏感。算法和系统上,人们喜欢选择并行(Parallel),分布(distributed)等属性的方法来增加 capability。
ITjob----采集
8. python培训需要多久
人工智能市场的火热导致python开发工程师岗位薪资水涨船高,且在各行各业的大中小型企业中都很抢手,就业方向非常广。既可进军当前正流行的人工智能行业,也可研究大数据做数据分析人才。那python培训需要学多久?今天我们一起来探讨一下这个问题。
python凭借其突出的语言优势与特性,已经融入到各行各业的每个领域。一般来说,python培训需要脱产学习5个月左右,这样的时长才能够让学员既掌握工作所需的技能,还能够积累一定的项目经验。当然如果你想要在人工智能的路上越走越远,则需要不断的积累和学习。
python培训的5个月时间里,有相当大一部分时间是在实战做项目,第一阶段是为期一个月学习python的核心编程,主要是python的语言基础和高级应用,帮助学员获得初步软件工程知识并树立模块化编程思想。学完这一阶段的内容,学员已经能够胜任python初级开发工程师的职位。
第二个阶段也是为期一个月,主要学习python全栈开发基础,通过本模块的学习,学生不仅能够掌握js在网络前端中的使用,还能够把js作为一门通用语言来运用,为学生将来从事全栈工作打下坚实的基础。
第三个阶段是全栈开发项目实战,整个阶段需要1.5个月的时间学习,是整个培训时间占比比较长的一个阶段,时间更长、案例更多、
实用性更强,在这个阶段主要是做项目,学案例,学完这个阶段,学员就可胜任python全栈开发工程师的职位。
第四个阶段的学习是网络爬虫,学习三周,主要是掌握数据的爬取,学完这个阶段可选择的职位有网络爬虫工程师或者是数据采集工程师,第五阶段的学习是数据分析+人工智能,主要是掌握机器学习算法的匹配方法,深入理解算法原理与实现步骤,学习三周,这个阶段结束学员可选择的岗位就更多了,数据分析师、算法工程师、人工智能工程师等都可以直接胜任。
最后一周的学习时间是就业指导,主要是清晰了解职业发展规划,明确自身定位,找到适合自身发展的工作,同时提高自己的面试能力,获得更好的工作机会。
python培训5个月,只要你好好学习,找到一份满意的工作不是难题,优就业的python全栈+人工智能课程,以企业需求为导向,引入企业较热门技术,项目实战模拟实际企业开发流程,让你更加了解真实的企业项目开发,避免你在学习的路上多走弯路